реферат, рефераты скачать
 

Дисперсионный анализ


известная или неизвестная дисперсия измерений одинакова по всей

совокупности данных, то задача однофакторного дисперсионного анализа

сводится к исследованию значимости различия средних в группах данных /1/.

1.3 Многофакторный дисперсионный анализ

Следует сразу же отметить, что принципиальной разницы между

многофакторным и однофакторным дисперсионным анализом нет. Многофакторный

анализ не меняет общую логику дисперсионного анализа, а лишь несколько

усложняет ее, поскольку, кроме учета влияния на зависимую переменную

каждого из факторов по отдельности, следует оценивать и их совместное

действие. Таким образом, то новое, что вносит в анализ данных

многофакторный дисперсионный анализ, касается в основном возможности

оценить межфакторное взаимодействие. Тем не менее, по-прежнему остается

возможность оценивать влияние каждого фактора в отдельности. В этом смысле

процедура многофакторного дисперсионного анализа (в варианте ее

компьютерного использования) несомненно более экономична, поскольку всего

за один запуск решает сразу две задачи: оценивается влияние каждого из

факторов и их взаимодействие /3/.

Общая схема двухфакторного эксперимента, данные которого

обрабатываются дисперсионным анализом имеет вид:

Рисунок 1.1 – Схема двухфакторного эксперимента

Данные, подвергаемые многофакторному дисперсионному анализу, часто

обозначают в соответствии с количеством факторов и их уровней.

Предположив, что в рассматриваемой задаче о качестве различных m

партий изделия изготавливались на разных t станках и требуется выяснить,

имеются ли существенные различия в качестве изделий по каждому фактору:

А - партия изделий;

B - станок.

В результате получается переход к задаче двухфакторного

дисперсионного анализа.

Все данные представлены в таблице 1.2, в которой по строкам - уровни

Ai фактора А, по столбцам — уровни Bj фактора В, а в соответствующих

ячейках, таблицы находятся значения показателя качества изделий xijk

(i=1,2,...,m; j=1,2,...,l; k=1,2,...,n).

Таблица 1.2 – Показатели качества изделий

| |B1 |B2 |… |Bj |… |Bl |

|A1 |x11l,…,x11k |x12l,…,x12k |… |x1jl,…,x1jk |… |x1ll,…,x1lk|

|A2 |x21l,…,x21k |x22l,…,x22k |… |x2jl,…,x2jk |… |x2ll,…,x2lk|

|… |… |… |… |… |… |… |

|Ai |xi1l,…,xi1k |xi2l,…,xi2k |… |xijl,…,xijk |… |xjll,…,xjlk|

|… |… |… |… |… |… |… |

|Am |xm1l,…,xm1k |xm2l,…,xm2k |… |xmjl,…,xmjk |… |xmll,…,xmlk|

Двухфакторная дисперсионная модель имеет вид:

xijk=?+Fi+Gj+Iij+?ijk, (15)

где xijk - значение наблюдения в ячейке ij с номером k;

? - общая средняя;

Fi - эффект, обусловленный влиянием i-го уровня фактора А;

Gj - эффект, обусловленный влиянием j-го уровня фактора В;

Iij - эффект, обусловленный взаимодействием двух факторов, т.е.

отклонение от средней по наблюдениям в ячейке ij от суммы первых трех

слагаемых в модели (15);

?ijk - возмущение, обусловленное вариацией переменной внутри

отдельной ячейки.

Предполагается, что ?ijk имеет нормальный закон распределения N(0;

с2), а все математические ожидания F*, G*, Ii*, I*j равны нулю.

Групповые средние находятся по формулам:

- в ячейке:

[pic],

по строке:

[pic]

по столбцу:

[pic]

общая средняя:

[pic]

В таблице 1.3 представлен общий вид вычисления значений, с помощью

дисперсионного анализа.

Таблица 1.3 – Базовая таблица дисперсионного анализа

|Компоненты |Сумма квадратов |Число |Средние |

|дисперсии | |степеней|квадраты |

| | |свободы | |

|Межгрупповая |[pic] |m-1 |[pic] |

|(фактор А) | | | |

|Межгрупповая |[pic] |l-1 |[pic] |

|(фактор B) | | | |

|Взаимодействи|[pic] |(m-1)(l-|[pic] |

|е | |1) | |

|Остаточная |[pic] |mln - ml|[pic] |

|Общая |[pic] |mln - 1 | |

Проверка нулевых гипотез HA, HB, HAB об отсутствии влияния на

рассматриваемую переменную факторов А, B и их взаимодействия AB

осуществляется сравнением отношений [pic], [pic], [pic] (для модели I с

фиксированными уровнями факторов) или отношений [pic], [pic], [pic] (для

случайной модели II) с соответствующими табличными значениями F – критерия

Фишера – Снедекора. Для смешанной модели III проверка гипотез относительно

факторов с фиксированными уровнями производится также как и в модели II, а

факторов со случайными уровнями – как в модели I.

Если n=1, т.е. при одном наблюдении в ячейке, то не все нулевые

гипотезы могут быть проверены так как выпадает компонента Q3 из общей суммы

квадратов отклонений, а с ней и средний квадрат [pic], так как в этом

случае не может быть речи о взаимодействии факторов.

С точки зрения техники вычислений для нахождения сумм квадратов Q1,

Q2, Q3, Q4, Q целесообразнее использовать формулы:

[pic]

[pic]

[pic]

[pic]

Q3 = Q – Q1 – Q2 – Q4.

Отклонение от основных предпосылок дисперсионного анализа —

нормальности распределения исследуемой переменной и равенства дисперсий в

ячейках (если оно не чрезмерное) — не сказывается существенно на

результатах дисперсионного анализа при равном числе наблюдений в ячейках,

но может быть очень чувствительно при неравном их числе. Кроме того, при

неравном числе наблюдений в ячейках резко возрастает сложность аппарата

дисперсионного анализа. Поэтому рекомендуется планировать схему с равным

числом наблюдений в ячейках, а если встречаются недостающие данные, то

возмещать их средними значениями других наблюдений в ячейках. При этом,

однако, искусственно введенные недостающие данные не следует учитывать при

подсчете числа степеней свободы /1/.

2 Применение дисперсионного анализа в различных процессах и

исследованиях

2.1 Использование дисперсионного анализа при изучении миграционных

процессов

Миграция - сложное социальное явление, во многом определяющее

экономическую и политическую стороны жизни общества. Исследование

миграционных процессов связано с выявлением факторов заинтересованности,

удовлетворенности условиями труда, и оценкой влияния полученных факторов на

межгрупповое движение населения.

?ij=ciqijaj,

где ?ij – интенсивность переходов из исходной группы i (выхода) в

новую j (входа);

ci – возможность и способности покинуть группу i (ci?0);

qij – привлекательность новой группы по сравнению с исходной

(0?qij?1);

aj – доступность группы j (aj?0).

Если считать численность группы i равной ni, то оценкой случайной

величины ?ij - числа переходов из i в j – будет niciqijaj:

?ij?

ni?ij=niciqijaj. (16)

На практике для отдельного человека вероятность p перехода в другую

группу мала, а численность рассматриваемой группы n велика. В этом случае

действует закон редких событий, то есть пределом ?ij является распределение

Пуассона с параметром ?=np:

[pic].

С ростом ? распределение приближается к нормальному. Преобразованную

же величину ??ij можно считать нормально распределенной.

Если прологарифмировать выражение (16) и сделать необходимые замены

переменных, то можно получить модель дисперсионного анализа:

ln??ij=Ѕln?ij=Ѕ(lnni+lnci+lnqij+lnaj)+?ij,

Xi,j=2ln??ij-lnni-lnqij,

Ci=lnci,

Aj=lnaj,

Xi,j=Ci+Aj+?.

Значения Ci и Aj позволяют получить модель двухфакторного

дисперсионного анализа с одним наблюдением в клетке. Обратным

преобразованием из Ci и Aj вычисляются коэффициенты ci и aj.

При проведении дисперсионного анализа в качестве значений

результативного признака Y следует взять величины:

Yij=Xi,j-X,

Х=(Х1,1+Х1,2+:+Хmi,mj)/mimj,

где mimj- оценка математического ожидания Хi,j;

Хmi и Хmj - соответственно количество групп выхода и входа.

Уровнями фактора I будут mi групп выхода, уровнями фактора J - mj

групп входа. Предполагается mi=mj=m. Встает задача проверки гипотез HI и HJ

о равенствах математических ожиданий величины Y при уровнях Ii и при

уровнях Jj, i,j=1,…,m. Проверка гипотезы HI основывается на сравнении

величин несмещенных оценок дисперсии sI2 и so2. Если гипотеза HI верна, то

величина F(I)= sI 2/so2 имеет распределение Фишера с числами степеней

свободы k1=m-1 и k2=(m-1)(m-1). Для заданного уровня значимости ? находится

правосторонняя критическая точка xпр,?кр. Если числовое значение F(I)чис

величины попадает в интервал (xпр,?кр, +?), то гипотеза HI отвергается и

считается, что фактор I влияет на результативный признак. Степень этого

влияния по результатам наблюдений измеряется выборочным коэффициентом

детерминации, который показывает, какая доля дисперсии результативного

признака в выборке обусловлена влиянием на него фактора I. Если же

F(I)чис 3), то логично и другое предположение - о существовании

плотных скоплений точек (признаков) в пространстве n объектов. При этом

новые оси обобщают уже не признаки Xj, а объекты ni, соответственно и

латентные факторы Fr будут распознаны по составу наблюдаемых объектов:

Fr = c1n1 + c2n2 + ... + cNnN,

где ci - вес объекта ni в факторе Fr.

В зависимости от того, какой из рассмотренных выше тип

корреляционной связи - элементарных признаков или наблюдаемых объектов -

исследуется в факторном анализе, различают R и Q - технические приемы

обработки данных.

Название R-техники носит объемный анализ данных по m признакам, в

результате него получают r линейных комбинаций (групп) признаков:

Fr=f(Xj), (r=1..m). Анализ по данным о близости (связи) n наблюдаемых

объектов называется Q-техникой и позволяет определять r линейных комбинаций

(групп) объектов: F=f(ni), (i = l .. N).

В настоящее время на практике более 90% задач решается при помощи

R-техники.

Набор методов факторного анализа в настоящее время достаточно велик,

насчитывает десятки различных подходов и приемов обработки данных. Чтобы в

исследованиях ориентироваться на правильный выбор методов, необходимо

представлять их особенности. Разделим все методы факторного анализа на

несколько классификационных групп:

- Метод главных компонент. Строго говоря, его не относят к

факторному анализу, хотя он имеет с ним много общего. Специфическим

является, во-первых, то, что в ходе вычислительных процедур одновременно

получают все главные компоненты и их число первоначально равно числу

элементарных признаков. Во-вторых, постулируется возможность полного

разложения дисперсии элементарных признаков, другими словами, ее полное

объяснение через латентные факторы (обобщенные признаки).

- Методы факторного анализа. Дисперсия элементарных признаков здесь

объясняется не в полном объеме, признается, что часть дисперсии остается

нераспознанной как характерность. Факторы обычно выделяются

последовательно: первый, объясняющий наибольшую долю вариации элементарных

признаков, затем второй, объясняющий меньшую, вторую после первого

латентного фактора часть дисперсии, третий и т.д. Процесс выделения

факторов может быть прерван на любом шаге, если принято решение о

достаточности доли объясненной дисперсии элементарных признаков или с

учетом интерпретируемости латентных факторов.

Методы факторного анализа целесообразно разделить дополнительно на

два класса: упрощенные и современные аппроксимирующие методы.

Простые методы факторного анализа в основном связаны с начальными

теоретическими разработками. Они имеют ограниченные возможности в выделении

латентных факторов и аппроксимации факторных решений. К ним относятся:

- однофакторная модель. Она позволяет выделить только один

генеральный латентный и один характерный факторы. Для возможно существующих

других латентных факторов делается предположение об их незначимости;

- бифакторная модель. Допускает влияние на вариацию элементарных

признаков не одного, а нескольких латентных факторов (обычно двух) и одного

характерного фактора;

- центроидный метод. В нем корреляции между переменными

рассматриваются как пучок векторов, а латентный фактор геометрически

представляется как уравновешивающий вектор, проходящий через центр этого

пучка. : Метод позволяет выделять несколько латентных и характерные

факторы, впервые появляется возможность соотносить факторное решение с

исходными данными, т.е. в простейшем виде решать задачу аппроксимации.

Современные аппроксимирующие методы часто предполагают, что первое,

приближенное решение уже найдено каким либо из способов, последующими

шагами это решение оптимизируется. Методы отличаются сложностью вычислений.

К этим методам относятся:

- групповой метод. Решение базируется на предварительно отобранных

каким-либо образом группах элементарных признаков;

- метод главных факторов. Наиболее близок методу главных компонент,

отличие заключается в предположении о существовании характерностей;

- метод максимального правдоподобия, минимальных остатков,

а-факторного анализа канонического факторного анализа, все

оптимизирующие.

Эти методы позволяют последовательно улучшить предварительно

найденные решения на основе использования статистических приемов оценивания

случайной величины или статистических критериев, предполагают большой объем

трудоемких вычислений. Наиболее перспективным и удобным для работы в этой

группе признается метод максимального правдоподобия.

Основной задачей, которую решают разнообразными методами факторного

анализа, включая и метод главных компонент, является сжатие информации,

переход от множества значений по m элементарным признакам с объемом

информации n х m к ограниченному множеству элементов матрицы факторного

отображения (m х r) или матрицы значений латентных факторов для каждого

наблюдаемого объекта размерностью n х r, причем обычно r < m.

Методы факторного анализа позволяют также визуализировать структуру

изучаемых явлений и процессов, а это значит определять их состояние и

прогнозировать развитие. Наконец, данные факторного анализа дают основания

для идентификации объекта, т.е. решения задачи распознавания образа.

Методы факторного анализа обладают свойствами, весьма привлекательными для

их использования в составе других статистических методов, наиболее часто в

корреляционно-регрессионном анализе, кластерном анализе, многомерном

шкалировании и др. /18/.

3.3 Парная регрессия. Вероятностная природа регрессионных моделей.

Если рассмотреть задачу анализа расходов на питание в группах с

одинаковыми доходами, например в $10.000(x), то это детерминированная

величина. А вот Y - доля этих денег, затрачиваемая на питание - случайна и

может меняться от года к году. Поэтому для каждого i-го индивида:

[pic]

где ?i - случайная ошибка;

? и ? - константы (теоретически), хотя могут меняться от модели к

модели.

Предпосылки для парной регрессии:

- X и Y связаны линейно;

- Х - неслучайная переменная с фиксированными значениями;

- ? - ошибки нормально распределены N(0,?2);

- [pic];

- [pic].

На рисунке 3.1 представлена модель парной регрессии.

[pic]

Рисунок 3.1 – Модель парной регрессии

Эти предпосылки описывают классическую линейную регрессионную

модель.

Если ошибка имеет ненулевое среднее, исходная модель будет

эквивалентна новой модели и другим свободным членом, но с нулевым средним

для ошибки.

Если выполняются предпосылки, то МНК оценки [pic] и [pic] являются

эффективными линейными несмещенными оценками

[pic]

Если обозначить:

[pic]

то что математическое ожидание и дисперсии коэффициентов [pic] и [pic]

будут следующие:

[pic]

[pic]

[pic]

[pic]

Ковариация коэффициентов:

[pic]

Если [pic] то [pic]и [pic] распределены тоже нормально:

[pic]

[pic]

[pic]

Отсюда следует, что:

- Вариация ? полностью определяется вариацией ?;

- Чем выше дисперсия X - тем лучше оценка ?.

Полная дисперсия определяется по формуле:

[pic]

Дисперсия отклонений в таком виде - несмещенная оценка и называется

стандартной ошибкой регрессии. N-2 - может быть интерпретировано как число

степеней свободы.

Анализ отклонений от линии регрессии может представить полезную меру

того, насколько оцененная регрессия отражает реальные данные. Хорошая

регрессия та, которая объясняет значительную долю дисперсии Y и наоборот

плохая регрессия не отслеживает большую часть колебаний исходных данных.

Интуитивно ясно, что всякая дополнительная информация позволит улучшить

модель, то есть уменьшить необъясненную долю вариации Y. Для анализа

регрессионной модели проводят разложение дисперсии на составляющие,

определяют коэффициент детерминации R2.

Отношение двух дисперсий распределено по F-распределению, т. е. если

проверить на статистическую значимость отличия дисперсии модели от

дисперсии остатков, можно сделать вывод о значимости R2.

Проверка гипотезы о равенстве дисперсий этих двух выборок:

[pic]

[pic]

Если гипотеза Н0 (о равенстве дисперсий нескольких выборок) верна, t

имеет F-распределение с (m1,m2)=(n1-1,n2-1) степенями свободы.

Посчитав F – отношение как отношение двух дисперсий и сравнив его с

табличным значением, можно сделать вывод о статистической значимости R2

/2/, /19/.

Заключение

Современные приложения дисперсионного анализа охватывают широкий круг

задач экономики, биологии и техники и трактуются обычно в терминах

статистической теории выявления систематических различий между результатами

непосредственных измерений, выполненных при тех или иных меняющихся

условиях.

Благодаря автоматизации дисперсионного анализа исследователь может

проводить различные статистические исследования с применение ЭВМ,

затрачивая при этом меньше времени и усилий на расчеты данных. В настоящее

время существует множество пакетов прикладных программ, в которых

реализован аппарат дисперсионного анализа. Наиболее распространенными

являются такие программные продукты как:

- MS Excel;

- Statistica;

- Stadia;

- SPSS.

В современных статистических программных продуктах реализованы

большинство статистических методов. С развитием алгоритмических языков

программирования стало возможным создавать дополнительные блоки по

обработке статистических данных.

Дисперсионный анализ является мощным современным статистическим

методом обработки и анализа экспериментальных данных в психологии,

биологии, медицине и других науках. Он очень тесно связан с конкретной

методологией планирования и проведения экспериментальных исследований.

Дисперсионный анализ применяется во всех областях научных

исследований, где необходимо проанализировать влияние различных факторов на

исследуемую переменную.

Список используемых источников

1 Кремер Н.Ш. Теория вероятности и математическая статистика. М.:

Юнити – Дана, 2002.-343с.

2 Гмурман В.Е. Теория вероятностей и математическая

статистика. – М.: Высшая школа, 2003.-523с.

3 www.sutd.ru

4 www.conf.mitme.ru

5 www.pedklin.ru

6 www.webcenter.ru

7 www.infections.ru

8 www.encycl.yandex.ru

9 www.infosport.ru

10 www.medtrust.ru

11 www.flax.net.ru

12 www.jdc.org.il

13 www.big.spb.ru

14 www.bizcom.ru

15 Гусев А.Н. Дисперсионный анализ в экспериментальной психологии. –

М.: Учебно-методический коллектор «Психология», 2000.-136с.

16 www.gpss.ru

17 www.econometrics.exponenta.ru

18 www.optimizer.by.ru

19 www2.econ.msu.ru

-----------------------

Взаимодействие факторов A и B

Фактор B:

3 уровня

Зависимая переменная xi

Фактор А:

2 уровня

Прочие неучитываемые (случайные) факторы

Страницы: 1, 2


ИНТЕРЕСНОЕ



© 2009 Все права защищены.