реферат, рефераты скачать
 

Теория статистики (Станкин)


Используя второе свойство индексов, имеем:

(qp(qp) = (qp(q) + (qp(p), т.е. (25 – 20) = (30 – 20) + (25 – 30) или

(+5) = (+10) + (-5).

Таким образом, можно сделать вывод: объём продукции в стоимостном

выражении увеличился в целом на 25%, или на 5((25 – 20) тыс. руб., в том

числе за счет снижения цен на 16,7% (83,3 – 100) объем снизился на 5 тыс.

руб. (25 – 30), а за счет увеличения физического объема продукции на 50%

(150 – 100) объем продукции в стоимостном выражении увеличился на 10 тыс.

руб.

Тема 9. Взаимосвязи явлений

Первый этап изучения связи явлений - выделение основных причинно-

следственных связей и отделение их от второстепенных. Второй этап -

построение модели. Последний этап - интерпретация результатов.

Признаки-аргументы называются факторами, а признаки-функции -

результатами (результативными признаками).

Связи между явлениями делят по степени тесноты связи (полная или

функциональная связь, неполная или статистическая связь), по направлению

(прямая, обратная), по аналитическому выражению (линейная, нелинейная).

Для выявления связи, ее характера, направления используют методы

приведения параллельных данных, балансовый, аналитических группировок,

графический. Суть метода приведения параллельных данных: приводят два ряда

данных о двух признаках, связь между которыми хотят выявить, и по характеру

изменений делают заключение о наличии связи. Балансовый метод заключается в

построении балансов - таблиц, где итог одной части равен итогу другой.

Методы аналитических группировок и графический изложены в

соответствующих темах.

Удобная форма изложения данных - корреляционная таблица (табл. 9.1).

Таблица 9.1

Корреляционная таблица

|Часовая |Количество станков, обслуживаемых одной |

|выработк|работницей, шт. |

|а ткани,| |

|м | |

|c |d |c + d |

|a + c |b + d |a + b + c|

| | |+ d |

Для определения тесноты связи двух качественных признаков, каждый из

которых состоит только из двух групп, применяются коэффициенты ассоциации и

контингенции. Для их вычисления строится таблица, которая показывает связь

между двумя явлениями, каждое из которых должно быть альтернативным, т.е.

состоящим из двух качественно отличных друг от друга значений признака

(например, хороший, плохой).

Коэффициенты вычисляются по формулам:

A = [pic] - ассоциации;

K = [pic] - контингенции.

Коэффициент контингенции всегда меньше коэффициента ассоциации. Связь

считается подтвержденной, если A ( 0,5, или K ( 0,3.

Если каждый из качественных признаков состоит более чем из двух групп,

то для определения тесноты связи возможно применение коэффициента взаимной

сопряженности Пирсона. Этот коэффициент вычисляется по формуле:

C = [pic],

где (2 - показатель взаимной сопряженности.

Расчет коэффициента взаимной сопряженности проводится по следующей

схеме:

|Группа |Группа признака|Итого|

|признака|В | |

|A | | |

| |B1 |B2 |B3 | |

|A1 |f1 |f2 |f3 |n1 |

|A2 |f4 |f5 |f6 |n2 |

|A3 |f7 |f8 |f9 |n3 |

| |m1 |m2 |m3 | |

Расчет (2 проводится так:

по первой строке [pic] : n1 = L1;

по второй строке [pic] : n2 = L2;

по третьей строке [pic] : n3 = L3;

Следовательно, (2 = L1 + L2 + L3 – 1.

Интерпретация непараметрических коэффициентов связи в некоторых случаях,

особенно когда они имеют отрицательное значение, затруднительна. Их

абсолютные значения могут изменяться в пределах от 0 до 1. Чем ближе

абсолютные значения к единице, тем теснее связь между исследуемыми

признаками.

Корреляция и регрессия. Традиционные методы корреляционно-регрессионного

анализа позволяют не только оценить тесноту связи, но и выразить эту связь

аналитически. Применению корреляционно-регрессионного анализа должен

предшествовать качественный, теоретический анализ исследуемого социально-

экономического явления или процесса.

Связь между двумя факторами аналитически выражается уравнениями:

прямой [pic]= a0 + a1x;

гиперболы [pic]= a0 + [pic];

параболы [pic]= a0 + a1x + a2x2 (или другой ее степени);

степенной функции [pic].

Параметр a0 показывает усредненное влияние на результативный признак

неучтенных (не выделенных для исследования) факторов. Параметр a1 -

коэффициент регрессии показывает, на сколько изменяется в среднем значение

результативного признака при увеличении факторного на единицу. На основе

этого параметра вычисляются коэффициенты эластичности, которые показывают

изменение результативного признака в процентах в зависимости от изменения

факторного признака на 1%:

Э = a1?[pic].

Для определения параметров уравнений используется метод наименьших

квадратов, на основании которого строится соответствующая система

уравнений.

Теснота связи при линейной зависимости измеряется с помощью линейного

коэффициента корреляции:

r = [pic],

а при криволинейной зависимости с помощью корреляционного отношения:

( = [pic].

Расчет коэффициентов регрессии несколько осложняется, если ряды по

исследуемым факторам сгруппированы, а связь криволинейная.

Если зависимость между двумя факторами выражается уравнением гиперболы

[pic]= a0 + [pic],

то система уравнений для определения параметров a0 и a1 такова:

na0 + a1S[pic] = Sy;

a0S[pic] + a1S[pic] = Sy[pic].

Для определения параметров уравнения регрессии, выраженного степенной

функцией [pic], приводят функцию к линейному виду: lg[pic]= lga0 + a1lgx,

отсюда система уравнений для определения параметров запишется:

n?lga0 + a1Slgx = Slgy;

lga0Slgx + a1S(lgx)2 = Slgy?lgx.

Зависимость между тремя и более факторами называется множественной или

многофакторной корреляционной зависимостью. Линейная связь между тремя

факторами выражается уравнением:

[pic] = a0 + a1x + a2z,

а система нормальных уравнений для определения неизвестных параметров

a0, a1, a2 будет следующей:

na0 + a1Sx + a2Sz = Sy;

a0Sx + a1Sx2 + a2Szx = Syx;

a0Sz + a1Sxz + a2Sz2 = Syz.

Теснота связи между тремя факторами измеряется с помощью множественного

(совокупного) коэффициента корреляции:

R = [pic],

где rij - парные коэффициенты корреляции между соответствующими

факторами.

Для более углубленного анализа вычисляются частные коэффициенты

корреляции.

Дисперсионный анализ связи. При небольшом числе наблюдений исследовать

влияние одного или нескольких факторных признаков на результативный можно,

используя методы дисперсионного анализа. Дисперсионный анализ проводится

расчетом дисперсий: общей, межгрупповой и внутригрупповой. Общую дисперсию

называют дисперсией комплекса, межгрупповую - факторной, внутригрупповую -

остаточной.

Дисперсионный анализ заключается в сравнении факторной и остаточной

дисперсий. Если различие между ними значимо, то факторный признак, т.е.

признак, положенный в основание группировки, оказывает существенное влияние

на результативный. При исследовании воздействия на результативный признак

только одного факторного, т.е. однофакторного комплекса дисперсии

вычисляются:

дисперсия комплекса [pic];

факторная дисперсия [pic];

остаточная дисперсия [pic],

где n – 1, r – 1, n – r - соответствующие числа степеней свободы;

r - число уровней (групп).

На основании дисперсий проводится расчет критерия Фишера Fp. Если

расчетное значение больше табличного, т.е. Fp ( F(, то существенность

влияния факторного признака подтверждается.

Тема 10. Выборочное наблюдение

Главными вопросами теории выборочного наблюдения, требующими

практического закрепления на основе решения задач и выполнения упражнений,

являются:

- определение предела случайной ошибки репрезентативности для различных

типов выборочных характеристик с учетом особенностей отбора;

- определение объема выборки, обеспечивающего необходимую

репрезентативность выборочной характеристики, с учетом особенностей отбора.

Ошибка репрезентативности, или разность между выборочной и генеральной

характеристикой (средней, долей), возникающая в силу несплошного

наблюдения, в основе которого лежит случайный отбор, рассчитывается как

предел наивероятной ошибки. В качестве уровня гарантийной вероятности

обычно берется 0,954 или 0,997. Тогда предел ошибки определяется величиной

удвоенной или утроенной средней ошибки выборки: ( = 2( при P = 0,954; ( =

3( при P = 0,997, или в общем виде ( = t( (t - коэффициент, связанный с

вероятностью, гарантирующей результат).

Величина средней ошибки выборки различна для отдельных разновидностей

случайного отбора. При наиболее простой системе - собственно-случайном

повторном отборе - средняя ошибка определяется следующими формулами:

индивидуальный отбор:

( = [pic] = [pic],

где ?2 - общая дисперсия признака;

n - число отобранных единиц наблюдения;

групповой (гнездовой, серийный) отбор:

( = [pic] = [pic],

где ?2 - межгрупповая дисперсия;

r - число отобранных групп (гнезд, серий) единиц наблюдения.

При практических расчетах ошибок репрезентативности необходимо учитывать

следующее:

1. Вместо генеральной дисперсии используется соответствующая выборочная

дисперсия. Так, вместо общей дисперсии доли в генеральной совокупности

берется общая дисперсия частости:

[pic] = ((1 – () вместо [pic] = pq.

2. В случае бесповторного способа отбора (а также механического) следует

иметь в виду поправки (K) к ошибке повторной выборки на бесповторность

отбора:

K = [pic] ( 1 или K = [pic]( 1.

Очевидно, что пользоваться этой поправкой целесообразно лишь тогда,

когда относительный объем выборки составляет заметную часть генеральной

совокупности (не менее 10%, тогда K ( 0,95).

3. При районированном отборе из типических групп единиц генеральной

совокупности используется средняя из частных (групповых) дисперсий. Так,

при индивидуальном отборе, пропорциональном размерам типических групп,

имеем:

( = 2( = [pic]= [pic] при P = 0,954,

где [pic] - частная дисперсия i-й группы;

ni - объем выборки в i-й группе.

Определение ошибок выборочных характеристик позволяет установить

наивероятные границы нахождения соответствующих генеральных показателей:

для средней: [pic],

где [pic] - генеральная средняя;

[pic] - выборочная средняя;

[pic] - ошибка выборочной средней;

для доли: p = ( ( ((,

где p - генеральная доля;

( - выборочная доля (частость);

(( - ошибка выборочной доли.

Пример. С вероятностью 0,954 нужно определить границы среднего веса

пачки чая для всей партии, поступившей в торговую сеть, если контрольная

выборочная проверка дала следующие результаты (первые две графы табл.

10.1).

Таблица 10.1

Результаты взвешивания чая

|Вес, г |Количеств|Расчетные графы |

|(x) |о пачек | |

| |(m) | |

| |x( |m( |x(m( |(x()2m( | |48 - 49 |20 |-1 |2 |-2 |2 | |49 - 50 |50 |0 |5

|0 |0 | |50 - 51 |20 |+1 |2 |2 |2 | |51 - 52 |10 |+2 |1 |2 |4 | |Итого:

|100 |– |10 |2 |8 | |

1. Средний вес пачки чая по выборке:

[pic] = [pic]( K + x0 = [pic] ( 1 + 49,5 = 49,7 г.

2. Выборочная дисперсия веса пачки чая:

?2 = [pic]= [pic]= 0,76.

3. Средняя ошибка выборочной средней:

[pic]= [pic] = [pic] = 0,087 г.

4. Предел для ошибки с вероятностью 0,954:

( = 2( = 0,174 г ( 0,2 г.

5. Границы генеральной средней:

[pic] = [pic]( ( = 49,7 ( 0,2 г.

Таким образом, с вероятностью 0,954 можно утверждать, что вес пачки чая

в среднем для всей партии не более 49,9 г и не менее 49,5 г.

Определение объема выборки при заданной ее точности является проблемой,

обратной рассмотренной нами - определению ошибки выборки при данном ее

объеме. Формула объема выборки получается из соответствующей формулы

предельной ошибки. Так, получаем для индивидуального бесповторного отбора:

n =[pic];

группового бесповторного отбора:

r =[pic].

При решении задач на определение необходимого объема выборки следует

иметь в виду, что вместо генеральной дисперсии определенного вида берется

ее оценка - примерное значение, полученное из того или иного источника.

Рассмотрим следующий общий пример.

Пример. Нужно определить абсолютный и относительный объемы

индивидуального отбора для исследования генеральной доли, чтобы ошибка

частости с вероятностью 0,954 не превышала 0,02, если выборка производится

из генеральной совокупности объема: а) 1000; б) 100000 единиц.

Используя формулу n =[pic], в которой полагаем t = 2 (гарантийная

вероятность равна 0,954), а pq = 0,25, имеем:

а) n = [pic] = 714, или 71,4%;

б) n = [pic] = 2439, или 2,44%.

Тема 11. Законы распределения

Конечной целью обработки информации методами математической статистика,

если речь идет о больших выборках, является получение закона распределения

исследуемой случайной величины. Это связано с тем, что закон распределения

является фактически, тем аппаратом, который позволяет определить

вероятность появления (или, наоборот, непоявления) случайной величины в тот

или иной период времени или вероятность того, что случайная величина

попадет в тот или иной интервал ее возможных значении. Этот этап

статистической обработки является одним из наиболее важных, так как ошибка

при выборе того или иного закона распределения приводит к ошибкам при

дальнейшем решении практических задач.

Если проанализировать все этапы статистической обработки, то можно

сделать вывод, что влекущими за собой наиболее существенные ошибки, а,

следовательно, наиболее ответственными, являются этапы, на которых решаются

следующие задачи:

1. Возможно ли объединение нескольких малых или средних выборок в одну.

2. Отбрасывать или учитывать резко отличающиеся результаты.

3. Справедливо ли сделанное предположение о законе распределения

случайной величины.

Рассмотрим эти этапы более подробно.

1. Так как для установления закона распределения необходимы большие

выборки, то на практике часто встает вопрос об объединении нескольких

выборок, каждая из которых мала для решения поставленной задачи и получения

одной общей выборки, удовлетворяющей предъявленным к ней требованиям.

Поэтому, что вообще свойственно для статистической обработки, любое из

неправильных решений (как положительное, так и отрицательное) по поводу

объединения выборок приводит к нежелательным результатам, или к

невозможности установить закон распределения, если выборки не объединяются,

или к неправильному выводу о характере закона распределения.

Для решения этой задачи используют критерии, с помощью которых с разной

формулировкой фактически дается ответ на один и тот же вопрос: принадлежат

или не принадлежат исследуемые выборки одной генеральной совокупности, то

есть автоматически решается задача о возможности или невозможности их

объединения. Как правило, все эти критерии основаны на сравнении выборочных

характеристик (выборочных дисперсий или средних величин) между собой или с

соответствующими генеральными характеристиками. В большинстве случаев

использование этих критериев предполагает нормальный или логарифмически-

нормальный закон распределения для каждой выборки. При других же законах

распределения эти критерии некорректны и их использование может привести к

ошибочным результатам.

Наиболее используемыми являются следующие критерии:

а) критерии, основанные на сравнении дисперсий: критерий [pic], критерий

Фишера (F = [pic]), критерий Хартлея (Fmax = [pic]), критерий Кочрена (Gmax

= [pic]), критерий Бартлета (?2);

б) критерии, основанные на сравнениях средних величин: критерий

Стьюдента (t), критерий Z и другие.

Для всех критериев в качестве нулевой гипотезы (H0) выдвигается

предположение о принадлежности выборки генеральной совокупности или об

однородности выборок между собой.

2. При наличии выборки, удовлетворяющей требованиям относительно ее

пригодности для установления закона распределения перед тем, как приступить

к определению статистических характеристик, необходимо проверить,

принадлежат ли к данной выборке ее члены, резко отличающиеся от большинства

данных, если таковые имеются. Такая проверка строго обязательна, так как

любое неверное решение в отношении резко отличающихся результатов приводит

к искажению вида кривой закона распределения и к последующим ошибкам, о

которых уже говорилось выше. Описанная проверка также осуществляется с

помощью соответствующих критериев: критерия Груббса (для малых выборок),

критерия Ирвина и некоторых других. В качестве нулевой гипотезы во всех

случаях принимается предположение о том, что резко выделяющиеся результаты

принадлежат данной выборке.

3. Заключительной и самой трудоемкой проверкой является проверка гипотез

о виде функции распределения или, что то же, о соответствии предполагаемого

закона теоретического распределения эмпирическому. Эта проверка

осуществляется с помощью так называемых критериев согласия. Существуют

критерии для проверки соответствия как предполагаемому нормальному или

логарифмически-нормальному закону распределения, так и любому другому

закону распределения.

Наиболее используемыми при практических расчетах являются следующие

критерии:

а) критерий Пирсона (?2); он справедлив при больших объемах выборок и

для любых законов распределения;

б) критерий Колмогорова-Смирнова (Du); этот критерий используется для

проверки гипотезы о соответствии эмпирического распределения любому

теоретическому закону распределения с заранее известными параметрами, что

накладывает ограничения на его использование. В то же время Du является

более мощным, чем критерий ?2;

в) критерий Крамера-Мизеса ((2); данный критерий используется для

объемов выборок 50 ( n ( 200 и является более мощным, чем ?2, однако, при

его применении требуется больший объем вычислений. Поэтому при n > 200 этот

критерий целесообразно использовать только в тех случаях, когда проверки

гипотезы по другим критериям не приводят к безусловным результатам;

г) критерий Шапиро-Уилкса (W); он предназначен для проверки гипотезы о

нормальном или логарифмически нормальном законе распределения при

ограниченном объеме выборки (n ( 50) и является более мощным, чем другие

критерии.

Укрупненно порядок проведения статистической обработки информации можно

представить следующим образом: после решения вопроса об объеме выборки и

принадлежности к ней резко отличающихся результатов, строится гистограмма,

рассчитываются статистические характеристики исследуемой случайной

величины, и устанавливается закон ее распределения.

При решении технических и экономических задач существует достаточно

широкий круг законов распределения, которым подчиняются те или иные

процессы. К ним относятся законы Вейбулла, Релея, экспоненциальный, гамма-

распределения, однако, самыми распространенными являются нормальный

(Гаусса) и логарифмически-нормальный законы распределения. Получив

математическое выражение закона распределения, то есть соотношение,

устанавливающее связь между возможными значениями случайной величины и

соответствующими им вероятностями, можно утверждать, что с вероятностной

точки зрения, случайная величина описана полностью.

Страницы: 1, 2


ИНТЕРЕСНОЕ



© 2009 Все права защищены.