Математическая статистика

( [pic] 0.5(m((n+1)

{7–2}

Теперь можно оценить степень согласованности мнений экспертов по

отношению к шести факторам. Для каждого из факторов наблюдается отклонение

суммы рангов, указанных экспертами, от среднего значения такой суммы.

Поскольку сумма этих отклонений всегда равна нулю, для их усреднения

разумно использовать квадраты значений. В нашем случае сумма таких

квадратов составит S= 64, а в общем случае эта сумма будет наибольшей

только при полном совпадении мнений всех экспертов по отношению ко всем

факторам:

Smax[pic] m2 ( (n3– n) / 12

{7 –3} что в нашем примере

дает 280.

М. Кэндаллом предложен показатель согласованности или коэффициент

конкордации, определяемый как

W = S / Smax

{7–4} принимающий, в отличие от обычных (парных)

коэффициентов ранговой корреляции, значения от 1 (при наибольшей

согласованности) до 0.

В нашем примере значение коэффициента конкордации составляет около

0.23 и явно недостаточно для принятия гипотезы о согласованности мнений

экспертов.

Существуют специальные таблицы, позволяющие отыскивать значения сумм

S, настолько близких к Smax , что вероятность ошибки при принятии гипотезы

о полной согласованности мнений экспертов не превосходит 5%. Вот одна из

таких таблиц с критическими (достаточными) значениями сумм квадратов

отклонений рангов S для n=3…7 факторов при m= 3…15 экспертов.

|m \ n |3 |4 |5 |6 |7 |

|3 |– |– |64 |104 |157 |

|4 |– |50 |88 |143 |217 |

|5 |– |63 |112 |182 |276 |

|6 |– |76 |136 |221 |335 |

|8 |48 |102 |184 |299 |453 |

|10 |60 |128 |231 |377 |571 |

|15 |90 |193 |350 |571 |865 |

Для нашего примера указанная вероятность соответствует сумме квадратов

отклонений S= 143, что намного больше наблюдаемой суммы 64. Поэтому

гипотезу о согласованности мнений экспертов придется отбросить.

Материал семинарских занятий

1 Введение в комбинаторику

При изучении курса математической статистики приходится использовать

методы одного из разделов математики, который хотя формально и не

относится к высшей, вузовской математике, но, к сожалению, не изучается в

средней школе.

Этот раздел – комбинаторика, “наука о способах подсчета вариантов”.

Эта наука имеет тот же, примерно 300 летний возраст, что и сама статистика.

Комбинаторика – сверстница теории вероятностей, теоретического фундамента

прикладной статистики. Как и в древней, в современной статистике невозможно

обойтись без навыков просчитывать в уме или, по крайней мере, быстро, по

простым формулам, варианты событий, размещений предметов, значений величин

и т.п.

Замечание о расчетах в уме сделано не случайно. Знание основ

комбинаторики позволит хотя бы оценивать числа вариантов и соотношения

между ними также “профессионально” как и делаете это вы, оценивая возраст

встреченного человека.

В этом плане комбинаторику можно называть “логикой вариантов” и это

будет вполне резонно – в этой науке больше чистой логики, чем математики.

Для демонстрации необходимости знаний комбинаторики и в качестве

первой практической задачи рассмотрим несколько простых, практических

вопросов.

( Вам, очевидно, известно, что внутренний, “машинный” язык компьютера

люди построили по образу и подобия человеческого языка: буквы, слова,

предложения.

Обстоятельства надежности записи и чтения на этом языке привели к

решению сделать компьютерный язык предельно бедным. В нем всего две буквы

(“0” и “1”, “+ " и “–”, “да” и “нет”, – в зависимости от физического

процесса записи), всегда 8 букв в слове, отсутствует пробел между словами

(это была бы третья буква).

И вот возникает вопрос – а сколько вариантов у машинного слова, т.е. у

одного байта? Еще проще – если одним байтом записывать числа, то сколько

положительных целых чисел можно охватить 1 байтом? В поисках ответа можно

терпеливо выписывать все возможные варианты слов из 8 нулей и единиц:

00000000, 00000001, 00000010 и т.д. до 11111111. Но ведь это долго и надо

быть уверенным, что ничего не пропустили!

Так вот – законы комбинаторики позволяют мгновенно решить эту задачу и

получить ответ – вариантов записи байта ровно 256.

Это чисто практический вопрос – ведь компьютер с возможностью считать

в целых числах от –128 до 127 никто не купит.

Ну, если целые числа хранить в 2-х машинных словах, в 2-х байтах или в

16 “разрядах”.? Уж это новое число вариантов никто не согласится вычислять

простым перебором! А ответ комбинаторики все тот же прост – в этом случае

есть возможность работать с целыми числами от –32768 до 32767.

Оказывается, что эти числа не надо запоминать, поскольку алгоритм их

расчетов очень прост и посилен человеку, осилившему только арифметику.

( Рассмотрим второй пример решения практического вопроса с

использованием правил комбинаторики. Пусть решается вопрос об установлении

проводной связи между 25 предприятиями фирмы по следующему принципу –

каждое предприятие должно иметь отдельный канал связи со всеми остальными.

Сколько таких каналов придется установить в фирме?

Для решения вопроса можно нарисовать выпуклый 25–угольник и провести в

нем все диагонали, пересчитав в конце их число и не забыв добавить число

сторон. Человек, знающий комбинаторику, во-первых, не сделает ошибки

–25(24=600 каналов. Во-вторых, он мгновенно укажет верный ответ – всего

требуется 300 каналов. Комментарии излишни…

Для освоения наиболее популярных применений комбинаторики нам

потребуется использовать, по крайней мере, два ее основных понятия –

перестановки и сочетания.

Перестановками называют операции над упорядоченным рядом из n

различных объектов, в процессе которых “списочный состав” ряда не

изменяется, но “места” объектов в этом ряду изменяются от варианта к

варианту. Не будем тратить время на обоснование расчетной формулы для

произвольного n, а попробуем найти число перестановок в ряду из 1, 2 и 3

предметов.

Воспользуемся для этого простенькой схемой:

n=1 A

1 вариант.

n=2 AB BA

1(2= 2 варианта.

n=3 ABC ACB BCA BAC CAB CBA 1(2(3= 6

вариантов.

Можно доказать строго, что в общем случае число перестановок в ряду из

n элементов составит

[pic]

{8–1}

Сочетаниями называют операции над множеством из n различных

объектов, в процессе которых образуют подмножества из k элементов, взятых

из исходного множества, так, чтобы варианты подмножеств отличались друг от

друга хотя бы одним элементом.

Опустим доказательство формулы для расчета числа сочетаний из n по k в

общем виде и приведем лишь примеры для числа сочетаний из 3 по 2 и из 5 по

( Элементы исходного множества A, B, C.

Варианты подмножеств: AB, AC, BC – всего три.

( Элементы исходного множества A, B, C, D, E.

Варианты подмножеств: ABC, ABD, ABE, ACD, ACE, ADE, BCD, BCE, BDE,

CDE – всего десять.

В общем случае число вариантов сочетаний или просто – число сочетаний

из n по k определяется по формуле

[pic]=[pic] {8–2}

Существует еще один способ вычисления числа сочетаний из n по k – с

использованием коэффициентов в развернутой форме бинома (p+q)n. В самом

деле, например, при n=3 коэффициенты при степенях разложения составляют 1,

3, 3, 1 – а это и есть сочетания из 3 по 0, 1, 2, 3 и 4 элементов.

Известна также схема простого расчета биномиальных коэффициентов,

которая носит названия треугольника Паскаля:

Для n

| | | | | | | |1 | |1 | | | | | | | | |1 | | |

| | | | | | |1 | |2 | |1 | | | | | | | |2 | | |

| | | | | |1 | |3 | |3 | |1 | | | | | | |3 | | |

| | | | |1 | |4 | |6 | |4 | |1 | | | | | |4 | | |

| | | |1 | |5 | |10| |10| |5 | |1 | | | | |5 | | |

| | |1 | |6 | |15| |20| |15| |6 | |1 | | | |6 | | |

| |1 | |7 | |21| |35| |35| |21| |7 | |1 | | |7 | | |

Первый элемент любого основания равен 1, второй – номеру основания, а

все последующие – сумме двух "вышестоящих".

2 Методы вычисления моментов распределений

При вычислении моментов распределения случайных величин полезно

использовать некоторые удобные (как для прямого расчета, так и для

составления компьютерных программ) выражения.

( Пусть требуется просуммировать ряд чисел T1, T2, ……Tk, …Tm и мы

замечаем, что они отличаются друг от друга на одну и ту же величину d, т.е.

образуют арифметическую прогрессию. В этом случае полезна замена –

[pic]

{8–3}

Таким образом, среднее значение для ряда таких чисел составит:

[pic][pic].

{8–4}

( Для вычисления суммы чисел натурального ряда или суммы квадратов

этих чисел удобны формулы:

[pic]; [pic] . {8–5}

( Если некоторая случайная величина Y может быть выражена через

другую в виде

Y= a(X+b, то справедливы соотношения:

M(Y) = a(M(X)+b; D(Y) = a2 ( D(X).

{8–6}

( Если некоторая случайная величина X имеет математическое ожидание

M(X) и среднеквадратичное отклонение S(X) , то "нормированная" случайная

величина:

[pic]

{8–7} имеет нулевое математическое

ожидание и единичную дисперсию.

3 Алгоритмы простейших статистических расчетов

Несмотря на относительную простоту, статистические расчеты требуют

значительных затрат времени, повышенного внимания и, связанного с этим

риска ошибок. Кроме того, в большинстве случаев практики после расчетов

выборочных значений и выдвижения гипотез почти всегда приходится обращаться

к статистическим таблицам, т.е. к данным классических распределений.

Большую часть этих трудностей можно преодолеть – путем использования

специальных статистических программ (или целого набора – пакета прикладных

программ).

На сегодня программное обеспечение статистических расчетов выполнено,

как правило, на уровне глобальных задач прикладной статистики, системного

анализа и т.п. Надежных, простых в употреблении компьютерных программ

практически нет – считается, что писать и распространять такие программы не

престижно! С другой стороны, потребители таких программ – профессиональные

статистики не испытывают затруднений в самостоятельном написании удобных

(для себя) программ и даже пакетов. То, что есть – не хорошо и не плохо,

просто это традиция и нарушать ее нет желания ни у фирм, производящих

программы, ни у потенциальных пользователей.

Поэтому имеет смысл затратить некоторое время на анализ определенных

трудностей, которые наверняка будут проявляться при программировании

типовых статистических расчетов.

Оказывается, что здесь программиста поджидают "подводные камни",

тупики и прочие неприятности, связанные не только с реальными возможностями

компьютера, но и с самими формулами статистики, особенностями этой науки.

1 Вычисление моментов выборочных распределений

Пусть у нас имеется массив выборочных значений случайной величины и

соответствующие частости (числа наблюдений) этих значений, то есть матрица

из двух столбцов и m строк.

Обозначим такой массив W и рассмотрим вопрос о вводе исходных

данных. Конечно же, мы быстро сообразим, что ввод надо организовать для пар

значений Xi, ni – только в этом варианте можно снизить вероятность ошибок.

Вопрос об общем количестве наблюдений можно не ставить в начале

диалога – освободить пользователя от необходимости вычислять N = n1 + n2 +

… + nm. Организовать сигнал конца ввода не представляет проблем – скажем,

ввести отрицательное число наблюдений на очередном шаге.

Как организовать подготовку данных для расчета выборочных моментов –

например, выборочного среднего Mx и выборочной дисперсии Dx?

Среди многих вариантов наилучшим будет, пожалуй, следующий.

Приготовить три контрольных величины M1, M2 и NN, предварительно

присвоив им нулевые значения до начала ввода, что на языке Pascal будет

выглядеть так –

Var NN, I, X, Y: Integer;

W: Array [1…2,1…m] of Integer;

M1, M2, D, S, V: Real;

M1:=0; M2:=0; NN:=0; I:= 0;

Теперь можно организовать суммирование поступающих с клавиатуры (или

прямо из уже готового массива, записанного где–то на диске) выборочных

данных Xi и ni.

Пусть у нас такой массив уже есть, тогда с каждой очередной парой

чисел следует поступить так

Repeat

I:=I + 1; X:=W[I,1]; Y:=W[I,2];

NN:=NN+Y;

M1:=(M1+X(Y); M2:=M2+Sqr(X) (Y

Until I < m;

Операцию надо повторять до тех пор, пока мы не достигнем конца массива

(при вводе с клавиатуры – пока не будет введено отрицательное значение

очередного ni).

Если ввод окончен, то далее выборочные среднее, дисперсия и

коэффициент вариации

N:=NN; M1:=M1/N;

D:=M2/N – Sqr(M1); S:=Sqrt(D); If M1#0 Then V:=S/M1;

2 Проблема переполнения

В предыдущем примере программирования процедуры вычисления моментов

была не отмечена опасность "переполнения" – суммы M1 и M2 могут выйти за

"разрядную сетку" компьютера.

Если такая угроза очевидна, то простейший выход из положения –

вычислить предварительно общее число наблюдений N и потом выполнять

описанный выше алгоритм суммирования с использованием не частостей, а

частот.

Более надежным, однако, является другой подход к этой проблеме.

Достаточно на каждом шаге суммирования преобразовывать "старые" значения

сумм M1 и M2 в "новые".

Var N, NN, I, X, Y: Integer;

W: Array [1… 2,1… m] of Integer;

А, B, M1, M2, D, S, V: Real;

M1:=0; M2:=0; N:=0; I :=0;

Repeat

I:=I + 1;

X:=W[I,1]; NN:=N+W[I,2]:

A:=N/NN; B:=W[I,2]/NN;

M1:=M1(A+X(B;

M2:=M2(A+Sqr(X) (B; N:=NN

Until I< m;

D:=M2 – Sqr(M1); V:= Sqrt(D);

If M1#0 Then V:=S/M1;

Более остро стоит проблема переполнения при вычислении факториалов,

входящих в формулы вероятностей многих классических законов дискретных

случайных величин.

Продемонстрируем метод решения подобной проблемы при вычислении

биномиальных коэффициентов.

Если нам необходимо найти k–й коэффициент бинома n–й степени, то

вполне надежным будет следующий алгоритм.

A:=N; B:=K; C:=1;

Repeat

C:=C(A/B; A:=A-1; B:=B-1

Until B>0;

Полезно также знать, что при достаточно больших N вычисление

факториала можно производить по формуле Стирлинга , однако приведенный

алгоритм намного проще алгоритма использования этой формулы.

3 Моделирование законов распределения

Практика прикладной статистики невозможна без использования данных о

классических, стандартных законах распределения. Чтобы избежать

непосредственного использования статистических таблиц при выполнения

расчетов – особенно в части проверки гипотез, можно поступить двояко.

( Ввести содержание таблиц в память компьютера (непосредственно в

рабочую программу или в виде отдельного файла – приложения к этой

программе). Но этого мало. Надо научить компьютер "водить пальцем по

таблице", т.е. запрограммировать иногда не совсем элементарный алгоритм

пользования таблицей. Работа эта хоть и занудная, но зато не требующая

никаких знаний, кроме умения программировать решение корректно поставленных

задач – описания пользования таблицами составлены четко и алгоритмично.

( Можно поступить более рационально. Поскольку речь идет о

классических распределениях дискретных или непрерывных случайных величин,

то в нашем распоряжении всегда имеются формулы вычисления вероятности (или

интеграла вероятности). Бытует мнение, что программирование расчетов по

формулам является чуть ли не самым низким уровнем искусства

программирования. На самом же деле это не совсем так, а при

программировании законов распределения вероятностей – совсем не так!

Без понимания природы процесса, который порождает данную случайную

величину, без знания основ теории вероятностей и математической статистики

нечего и пытаться строить такие программы. Но если всё это есть, то можно

строить компьютерные программы с такими возможностями статистического

анализа, о которых не могли и мечтать отцы–основатели прикладной

статистики. Покажем это на нескольких простых примерах.

Нам уже известно, что выдвижение в качестве нулевой гипотезы о

некотором стандартном законе распределения связано только с одним

обстоятельством – мы можем предсказывать итоги наблюдения в условиях её

справедливости. Но это предсказание невозможно без использования

конкретных значений параметра (или нескольких параметров) закона. Во всех

"до–компьютерных" руководствах по прикладной статистике рано или поздно

приходится читать – "а теперь возьмем таблицу … и найдем для наших условий

…". Хочется проверить ту же гипотезу при другом значении параметра? Нет

проблем! Повтори все расчеты при этом новом значении и снова работай с

таблицей.

Иными словами, в "до–компьютерную" эпоху вопрос – а что вообще можно

получить из данного наблюдения (или серии наблюдений), какова максимальная

информация о случайной величине заключена в этих наблюдениях, – не

ставился.

Причина этого очевидна – сложность и большие затраты времени на

расчеты. Но дело еще и в том, что неопределенность статистических выводов

приводила к тупиковой ситуации, когда затраты на проведение сложных,

требующих особого внимания и безупречной логики расчетов, могли оказаться

куда больше возможного экономического выигрыша при внедрении результатов.

Поэтому сегодня, отдав должное изобретательности творцов прикладной

статистики, следует ориентировать практику статистических расчетов

исключительно на применение компьютерных программ.

Это могут быть, условно говоря, "параметрические" программы,

ориентированные на тот или иной тип распределения. Их назначение – найти по

данным имеющихся наблюдений статистическую значимость гипотез о параметрах

таких распределений или, наоборот, по заданным пользователем параметрам

рассчитать вероятности всех (!) заданных им ситуаций.

Вполне реально создание и использование "непараметрических" программ –

способных анализировать входные данные наблюдений и проверять гипотезы о

принадлежности случайной величины к любому из "известных этой программе"

закону распределения.

Наконец, использование компьютерной техники современного уровня

позволяет решать за вполне приемлемое время и небольшую цену еще один вид

задач – статистического моделирования. Сущность этого термина раскрывается

в специальной области кибернетики – системном анализе, но кратко может быть

раскрыта следующим образом.

Пусть некоторая случайная величина Z является, по нашим

представлениям, функцией двух других случайных величин – X и Y. При этом

оказывается, что X зависит от двух также случайных величин A и B, а Y

зависит от трех случайных событий C, D и E.

Так вот, в этом "простом" случае мы знаем или предполагаем, что знаем

вероятности всех событий и законы распределения всех случайных величин,

кроме "выходной" величины Z.

Для простоты будем считать функциональные зависимости также известными

(например, – вытекающими из некоторых законов природы):

Z = X – [pic]; X = A + [pic];

A = 1, 2 , … 16 и распределена по биномиальному закону с параметром p=

0.42;

B – распределена по нормальному закону с (=12 и ( =2;

Y = 42, если произошло событие C, а события D и E не произошли;

Y = 177, если произошли события D и E, независимо от того, произошло

ли C;

Y = –15 во всех остальных случаях.

Ясно, что попытка строить для этого примера–шутки логическую схему, по

которой можно было бы вычислять возможные значения Z и соответствующие

этим значениям вероятности, обречена на провал – слишком сложными и не

поддающимися аналитическому описанию окажутся наши выкладки.

Однако же, при наличии знаний хотя бы основных положений прикладной

статистики и умении программировать, вполне оправданно потратить некоторое

время на создание программы и ее обкатку, проверку по правилам статистики.

Далее можно будет "проигрывать" все возможные ситуации и буквально

через секунды получать "распределение случайной величины Z" в любом виде

(кроме, разумеется, формульного).

Итак, надо уметь программировать операции, дающие случайную величину с

заранее оговоренным законом распределения. Большинство языков

программирования высокого уровня имеют встроенные подпрограммы (процедуры

или функции в языке Pascal), обеспечивающие генерацию случайной величины

R, равномерно распределенной в диапазоне 0…1. Будем полагать, что в нашем

распоряжении имеется такой "датчик случайных чисел".

[pic]Покажем, как превратить такую величину R в дискретную с

биномиальным законом распределения. Пусть нам нужна случайная величина K, с

целочисленными значениями от 0 до N при значении заданном значении

параметра p. Один из вариантов алгоритма такой генерации мог бы выглядеть

так.

Var X, P: Real;

I, K, N: Integer;

K:=0;

For I:=1 to N Do

Begin

X:= R;

If X>(1– p)

Then K:=K+1

End;

После очередного цикла генерации мы получаем случайную величину K,

распределенную по биномиальному закону настолько надежно, насколько удачной

является функция генерации числа R. Во избежание сомнений стоит потратить

время на обкатку такого алгоритма – повторив цикл 100 или 1000 раз и

проверив надежность генерации по данным "наблюдений" с помощью

теоретических значений математического ожидания N(p и дисперсии N(p((1–p).

[pic]Несколько более сложно генерировать непрерывные случайные

величины, в частности для популярных распределений – нормального,

"хи–квадрат", Стьюдента и т.п.

Дело здесь в том, что непрерывная случайная величина имеет бесконечное

число допустимых значений, даже если интервал этих значений ограничен.

Но, вместе с тем, для конкретного закона распределения непрерывной

случайной величины известна плотность вероятности – предел, к которому

стремится вероятность попадания такой величины в заданный интервал при

сужении интервала до нуля.

Покажем эти трудности и пути их преодоления на примере нормального

распределения. Пусть нам требуется генерировать нормированную случайную

величину Z с нормальным законом распределения.

Для такой величины ( =0, ( =1, а попадание ее значений в диапазон

более 3 или менее –3 практически невероятно (около 0.0027).

Разобьем диапазон –3…+3 на 2N+1 интервалов, шириной 2d каждый. При

достаточно малом d= 3 / N, вероятность попадания Z в любой из них

вычисляется легко:

P(–d 50 6—29

6.3 Случай многозначной случайной величины 6—30

7. Выборочные распределения на шкале Ord 7—31

8. Материал семинарских занятий 8—34

8.1 Введение в комбинаторику 8—34

8.2 Методы вычисления моментов распределений 8—36

8.3 Алгоритмы простейших статистических расчетов 8—36

8.3.1 Вычисление моментов выборочных распределений 8—37

8.3.2 Проблема переполнения 8—37

8.3.3 Моделирование законов распределения 8—38

9. Литература 9—42

-----------------------

( (X)

99.73 %

( – 3( ( (+3(

Рис.4–1

Њ0:

Неверна

Верна

Принята

Отброшена

Нет ошибки

Ошибка

2 рода

Ошибка

1 рода

Њ0: дневная выручка имеет некоторый закон распределения

с математическим ожиданием в M(G)=207 гривен.

Страницы: 1, 2, 3

МЕНЮ

Математическая статистика

ИНТЕРЕСНОЕ