Дисперсионный анализ

Тема 13. Дисперсионный анализ (Часть 1)

Глава 3. Методы проверки статистических гипотез. Дисперсионный и

Регрессионный анализы

Дисперсионный анализ (Analysis Of Variance или сокращенно ANOVA) применяется для

исследования влияния одной или нескольких качественных переменных (факторов) на одну

зависимую количественную переменную.

В основе дисперсионного анализа лежит предположение о том, что одни переменные могут

рассматриваться как причины (факторы, независимые переменные), а другие как следствия

(зависимые переменные). Таким образом, исходя из этого, при описании результатов ANOVA

мы будем говорить о наличие зависимости между зависимой и независимой переменной.

Основной целью ANOVA является исследование значимости различия между средними с

помощью сравнения дисперсий. Разделение общей дисперсии на несколько источников,

позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией,

вызванной внутригрупповой изменчивостью. Сравнивая компоненты дисперсии друг с другом

посредством F-критерия Фишера, можно определить, какая доля общей вариативности

результативного признака обусловлена действием регулируемых факторов.

Исходя из вышесказанного, целью дисперсионного анализа является проверка статистической

значимости различия между средними (для групп или переменных). Эта проверка проводится с

помощью разбиения суммы квадратов на компоненты, т.е. с помощью разбиения общей

дисперсии на части, одна из которых обусловлена случайной ошибкой (то есть

внутригрупповой изменчивостью), а вторая связана с различием средних значений. Последняя

компонента дисперсии затем используется для анализа статистической значимости различия

между средними значениями. Если это различие значимо, то принимается гипотеза о

существовании различия между средними.

Исходным материалом для дисперсионного анализа служат данные исследования трех и более

выборок, которые могут быть как равными, так и неравными по численности, как связными, так

и несвязными.

Типичная схема эксперимента сводится к изучению влияния независимой переменной (одной

или нескольких) на зависимую переменную.

Обязательным условием ANOVA является то, чтоб зависимая переменная была представлена в

шкале отношений, интервалов или порядка, а влияющие (независимые) переменные имели бы

нечисловую природу (номинальная или категориальная шкала). Зависимая переменная

рассматривается как изменяющаяся под влиянием независимых переменных. Независимая

переменная представляет собой качественно определенный (номинальный) признак, имеющий

две и более градаций. Каждой градации независимой переменной соответствует выборка

объектов, для которых определены значения зависимой переменной.

Выделяют однофакторный ANOVA, многофакторный ANOVA, ANOVA с повторными

измерениями и многомерный ANOVA (или MANOVA).

Тема 14. Дисперсионный анализ (Часть 2)

Глава 3. Методы проверки статистических гипотез. Дисперсионный и

Регрессионный анализы

Однофакторный ANOVA

Этот вид дисперсионного анализа позволяет проверить гипотезу о существовании влияния

изучаемого фактора на зависимую переменную.

Математическая модель однофакторного ANOVA предполагает выделение в общей

изменчивости зависимой переменной двух ее составляющих: межгрупповая составляющая

изменчивости обусловлена различием средних значений под влиянием фактора;

внутригрупповая составляющая изменчивости обусловлена влиянием неучтенных причин.

Соотношение этих двух составляющих изменчивости и есть основной показатель,

определяющий статистическую значимость влияния фактора.

При выявлении уровня ошибки выше или равно 5% (т.е. р≥0,05), подтверждается гипотеза о

равенстве средних значений.

А при уровне ошибки меньше 5% (т.е. р<0,05) подтверждается

гипотеза о различие по крайней мере двух средних значений.

Ограничения метода: 1) дисперсии выборок должны быть однородны; для этого смотрят на

результаты критерия Ливена, направленный на выявление однородности дисперсий (т.е. если

при проведении теста Ливена p≥0,05, значит Вы можете смело применять для своих данных

дисперсионный анализ); 2) формально численность выборок не должно быть меньше двух

объектов.

Альтернатива – сравнение независимых выборок по критерию H-Краскела-Уоллеса.

Основным показателем для принятия решения является F-критерий Фишера и, конечно же,

его уровень достоверности.

Если Ваш фактор состоит из более 2-х градаций, то Вам необходимо дополнительно проводить

множественные сравнения средних значений, чтобы можно было сделать вывод о том, как

различаются друг от друга средние значения для разных градаций фактора. Это касается не

только однофакторного ANOVA, но и других видов дисперсионного анализа, если Ваш фактор

имеет более 2-х градаций.

Одним из актуальных вопросов на этапе множественных сравнений становится выбор критерия.

В программе Statistica представлены следующие методы: LSD (Least Significant Difference)

Fisher, поправка Бонферрони, метод Шеффе, метод Tukey HSD (Honestly Significant Differences),

метод HSD для неравных размеров выборок, метод Ньюмана-Кеулса, метод Дункана и Даннет.

Здесь все зависит от Вас самих, какой метод множественного сравнения Вам использовать.

Однако, необходимо 1085 „{отметить следующие моменты. Так, среди исследователей распространены

методы Шеффе и LSD Фишера. Здесь необходимо учитывать то, что критерий Шеффе является

грубым критерием и особенно пригоден в тех случаях, когда имеется подозрение о неравенстве

дисперсий выборок между собой, а при использовании критерия LSD Фишера возникает

вероятность ошибки первого рода (т.е. ложноположительный результат, выявление различий,

даже если их нет). Та же ситуация с увеличением ошибки первого рода наблюдается и с

использованием метода Tukey HSD. Метод Бонферрони работает, если число сравнений

невелико, обычно не больше 8. При большем числе сравнений критерий Ньюмана-Кеулса и

Тьюки дают более точную оценку вероятности альфа. Критерий Дункана, как и критерий

Ньюмена-Кеулса, основан на статистике размаха. Соответственно, если Вы используете в

анализе неравные выборки, тогда выбрать можно метод HSD для неравных размеров выборок.

Многофакторный ANOVA

Данный дисперсионный анализ предназначен для изучения влияния нескольких независимых

факторов (переменных) на зависимую переменную. Отличительной особенностью

многофакторного ANOVA от однофакторного является возможность оценить не только

влияние каждой независимой переменной в отдельности, но и взаимодействие факторов –

зависимость влияния одних факторов от уровней других факторов.

Таким образом, в результате мы получаем влияние 1-ой независимой переменной, влияние 2-ой

независимой переменной, …., взаимовлияние независимых переменных.

При использовании многофакторного анализа порой получаются достаточно интересные

результаты, которые невозможно было бы получить с помощью предыдущего дисперсионного

анализа.

Ограничениями метода выступают однородность дисперсий и выборки не должны заметно

различаться по численности.

Дата добавления: 2016-10-30; просмотров: 707 | Нарушение авторских прав

Рекомендуемый контект:


Похожая информация:


Поиск на сайте:


Понятие дисперсионного анализа

Дисперсионный анализ — это анализ изменчивости признака под влиянием каких-либо контролируемых переменных факторов. В зарубеж­ной литературе дисперсионный анализ часто обозначается как ANOVA, что переводится как анализ вариативности (Analysis of Variance). Авто­ром метода является Р. А. Фишер (Fisher R.A., 1918, 1938).

Задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака вычленить вариативность троякого рода:

а) вариативность, обусловленную действием каждой из исследуемых независимых переменных;

б) вариативность, обусловленную взаимодействием исследуемых неза­висимых переменных;

в) случайную вариативность, обусловленную всеми другими неизвест­ными переменными.

Вариативность, обусловленная действием исследуемых перемен­ных и их взаимодействием, соотносится со случайной вариативностью. Показателем этого соотношения является критерий F Фишера1.

В формулу расчета критерия F входят оценки дисперсий, то есть параметров распределения признака, поэтому критерий F является па­раметрическим критерием.

1 Критерии F Фишера и метод углового преобразования Фишера, дающий нам критерий φ*, — это совершенно различные методы, имеющие разное предназначе­ние и разные способы вычисления.

Чем в большей степени вариативность признака обусловлена ис­следуемыми переменными (факторами) или их взаимодействием, тем выше эмпирические значения критерия F.

В дисперсионном анализе исследователь исходит из предположе­ния, что одни переменные могут рассматриваться как причины, а другие — как следствия. Переменные первого рода считаются факторами, а пере­менные второго рода — результативными признаками. В этом отличие дисперсионного анализа от прямолинейного корреляционного анализа, в котором мы исходим из предположения, что изменения одного признака просто сопровождаются определенными изменениями другого.

В дисперсионном анализе возможны два принципиальных пути разделения всех исследуемых переменных на независимые переменные (факторы) и зависимые переменные (результативные признаки).

Первый путь состоит в том, что мы совершаем какие-либо воз­действия на испытуемых или учитываем какие-либо не зависящие от нас воздействия на них, и именно эти воздействия считаем независи­мыми переменными, или факторами, а исследуемые признаки рассмат­риваем как зависимые переменные, или результативные признаки. На­пример, возраст испытуемых или способ предъявления им информации считаем факторами, а обучаемость или эффективность выполнения за­дания — результативными признаками.

Второй путь предполагает, что мы, не совершая никаких воздей­ствий, считаем, что при разных уровнях развития одних психологиче­ских признаков другие проявляются тоже по-разному. По тем или иным причинам мы решаем, что одни признаки могут рассматриваться скорее как факторы, а другие — как результат действия этих факторов. Например, уровень интеллекта или мотивации достижения начинаем считать факторами, а профессиональную компетентность или социомет­рический статус — результативными признаками.

Второй путь весьма уязвим для критики. Допустим, мы предпо­ложили, что настойчивость — значимый фактор учебной успешности студентов. Мы принимаем настойчивость за воздействующую перемен­ную (фактор), а учебную успешность — за результативный признак. Против этого могут быть выдвинуты сразу же два возражения. Во-первых, успех может стимулировать настойчивость; во-вторых, как, собственно, измерялась настойчивость? Если она измерялась с помо­щью метода экспертных оценок, а экспертами были соученики или пре­подаватели, которым известна учебная успешность испытуемых, то не исключено, что это оценка настойчивости будет зависеть от известных экспертам показателей успешности, а не наоборот.

Допустим, что в другом исследовании мы исходим из предполо­жения, что фактор социальной смелости (фактор Н) из 16-факторного личностного опросника Р.Б. Кеттелла — это та независимая переменная, которая определяет объем заключенных торговым представителем дого­воров на поставку косметических товаров. Но если объем договоров определялся по какому-то периоду работы, скажем трехмесячному, а личностное обследование проводилось в конце этого периода или даже после его истечения, то мы не можем со всей уверенностью отделить здесь причину от следствия. Есть очень сильное направление в психо­логии и психотерапии, которое утверждает, что личностные изменения начинаются с действий и поступков: «Начни действовать, и постепенно станешь таким, как твои поступки». Таким образом, психолог, пред­ставляющий это направление, возможно, стал бы утверждать, что при­чиной должен считаться достигнутый объем договорных поставок, а результатом — повышение социальной смелости.

Только наше исследовательское чутье может подсказать нам, что должно рассматриваться как причина, а что — как результат. Однако не всегда эти ощущения у разных исследователей совпадают, поэтому нужно быть готовым к тому, что наши выводы могут быть оспорены другими специалистами, которые рассматривают данный предмет с иной точки зрения и видят в нем иные перспективы. Впрочем, спорность выводов — постоянный спутник психологического исследования.

Постараемся быть оптимистичными и представим себе, что суще­ствует все же какое-то совпадение взглядов на психологические причи­ны и следствия. На Рис. 7.1 представлены два варианта рассеивания показателей учебной успешности в зависимости от уровня развития кратковременной памяти. Из Рис. 7.1(а) мы видим, что при низком уровне развития кратковременной памяти оценки по английскому языку, похоже, несколько ниже, чем при среднем, а при высоком уровне вы­ше, чем при среднем. Похоже, что кратковременная память может рас­сматриваться как фактор успешности овладения английским языком. С другой стороны, Рис. 7.1(6) свидетельствует о том, что успешность в чистописании вряд ли так же определенно зависит от уровня развития кратковременной памяти.

О том, верны ли наши предположения, мы сможем судить только после вычисления эмпирических значений критерия F.

Рис. 7.1. Рассеивание индивидуальных средних оценок по английскому языку (а) и чистописа­нию (б) у учеников с низким, средним и высоким уровнями развития кратковременной памяти

Низкий, средний и высокий уровни развития кратковременной памя­ти можно рассматривать как градации фактора кратковременной памяти.

Нулевая гипотеза в дисперсионном анализе будет гласить, что средние величины исследуемого результативного признака во всех гра­дациях одинаковы.

Альтернативная гипотеза будет утверждать, что средние вели­чины результативного признака в разных градациях исследуемого фак­тора различны.

В зарубежных руководствах чаще говорят о переменных, дейст­вующих в разных условиях, а не о факторах и их градациях (Greene J., D’Olivera M, 1982, р. 91-93).

Дело в том, что градация подразумевает ступень, стадию, уро­вень развития. Говоря о градациях фактора, мы явно или неявно подра­зумеваем, что сила его возрастает при переходе от градации к градации. Между тем, схема дисперсионного анализа применима и в тех случаях, когда градации фактора представляют собой номинативную шкалу, то есть отличаются лишь качественно. Например, градациями фактора могут быть: параллельные формы экспериментальных заданий; цвет окраски стимулов; жанр музыкальных произведений, сопровождающих процесс работы; традиционные или специально подобранные православ­ные тексты в сеансах аутогенной тренировки; разные формы заболева­ния; разные экспериментаторы; разные психотерапевты и т. д.

Если градации фактора различаются лишь качественно, их лучше называть условиями действия фактора или переменной.

Например, дей­ствие аутогенной тренировки при условии использования текстов право­славных молитв или эффективность психокоррёкционных воздействий при разных формах хронических заболеваний у детей3.

Экспериментальные данные, представленные по градациям фак­тора, называются дисперсионным комплексом. Данные, относящиеся к отдельным градациям — ячейками комплекса.

Дисперсионный анализ позволяет нам констатировать изменение признака, но при этом не указывает направление этих изменений. Нам необходимо специально графически представлять полученные данные по градациям фактора, чтобы получить наглядное представление о направ­лении изменений.

Подобного рода задачи, как мы помним, позволяют решать непа­раметрические методы сравнения выборок или условий измерения, а именно критерий Н. Крускала-Уоллиса и критерий χ2rФридмана (см. параграфы 2.4 и 3.4). Однако это касается только тех задач, в кото­рых исследуется действие одного фактора, или одной переменной. За­дачи однофакторного дисперсионного анализа, действительно, могут эффективным образом решаться с помощью непараметрических методов. Метод дисперсионного анализа становится незаменимым только когда мы исследуем одновременное действие двух (или более) факторов, по­скольку он позволяет выявить взаимодействие факторов в их влиянии на один и тот же результативный признак. Именно эти возможности двухфакторного дисперсионного анализа послужили причиной, по кото­рой изложение этого метода включено в настоящее руководство.

Несмотря на то, что нас интересует прежде всего двухфакторный дисперсионный анализ, который нельзя заменить другими методами, начнем рассмотрение мы с однофакторного дисперсионного анализа: во-первых, для того, чтобы выдержать определенную последовательность и логику в изложении; во-вторых, для того, чтобы на реальном примере продемонстрировать возможность замены этого метода непараметриче­скими методами.

См. исследование Е. Б. Кулевой, 1991. См. исследование Н.В.Корольковой, 1994.

Итак, начнем рассмотрение дисперсионного анализа с простей­шего случая, когда исследуется действие только одной переменной (одного фактора). Исследователя интересует, как изменяется опреде­ленный признак в разных условиях действия этой переменной. Напри­мер, как изменяется время решения задачи при разных условиях моти­вации испытуемых (низкой, средней, высокой) или при разных спосо­бах предъявления задачи (устно, письменно, в виде текста с графиками и иллюстрациями), в разных условиях работы с задачей (в одиночестве, в одной комнате с экспериментатором, в одной комнате с эксперимен­татором и другими испытуемыми) и т.п. В первом случае переменной, влияние которой исследуется, является мотивация, во втором — степень наглядности, в третьем — фактор публичности.

Преимущество однофакторного дисперсионного анализа по срав­нению с непараметрическими методами Н Крускала-Уоллиса и χ2rФридмана — неограниченность в объемах выборок. Ограничения дис­персионного анализа достаточно условны. Например, требование нор­мальности распределения признака можно обойти по крайней мере дву­мя путями: при слишком скошенном, островершинном или плосковер­шинном распределении можно, во-первых, нормализовать данные, а во-вторых… просто вообще по этому поводу «не волноваться», как советуют, например, А.К. Kurtz и S.T. Мауо (1979, р.417).

Дата добавления: 2016-06-05; просмотров: 1079;

Дисперсионный анализ в Excel

Условно цель дисперсионного метода можно сформулировать так: вычленить из общей вариативности параметра 3 частные вариативности:

  • 1 – определенную действием каждого из изучаемых значений;
  • 2 – продиктованную взаимосвязью между исследуемыми значениями;
  • 3 – случайную, продиктованную всеми неучтенными обстоятельствами.

В программе Microsoft Excel дисперсионный анализ можно выполнить с помощью инструмента «Анализ данных» (вкладка «Данные» — «Анализ»). Это надстройка табличного процессора. Если надстройка недоступна, нужно открыть «Параметры Excel» и включить настройку для анализа.

Работа начинается с оформления таблицы. Правила:

  1. В каждом столбце должны быть значения одного исследуемого фактора.
  2. Столбцы расположить по возрастанию/убыванию величины исследуемого параметра.

Рассмотрим дисперсионный анализ в Excel на примере.

Психолог фирмы проанализировал с помощью специальной методики стратегии поведения сотрудников в конфликтной ситуации. Предполагается, что на поведение влияет уровень образования (1 – среднее, 2 – среднее специальное, 3 – высшее).

Внесем данные в таблицу Excel:

  1. Открываем диалоговое окно нашего аналитического инструмента. В раскрывшемся списке выбираем «Однофакторный дисперсионный анализ» и нажимаем ОК.
  2. В поле «Входной интервал» ввести ссылку на диапазон ячеек, содержащихся во всех столбцах таблицы.
  3. «Группирование» назначить по столбцам.
  4. «Параметры вывода» — новый рабочий лист. Если нужно указать выходной диапазон на имеющемся листе, то переключатель ставим в положение «Выходной интервал» и ссылаемся на левую верхнюю ячейку диапазона для выводимых данных. Размеры определятся автоматически.
  5. Результаты анализа выводятся на отдельный лист (в нашем примере).

Значимый параметр залит желтым цветом. Так как Р-Значение между группами больше 1, критерий Фишера нельзя считать значимым. Следовательно, поведение в конфликтной ситуации не зависит от уровня образования.



Факторный анализ в Excel: пример

Факторным называют многомерный анализ взаимосвязей между значениями переменных. С помощью данного метода можно решить важнейшие задачи:

  • всесторонне описать измеряемый объект (причем емко, компактно);
  • выявить скрытые переменные значения, определяющие наличие линейных статистических корреляций;
  • классифицировать переменные (определить взаимосвязи между ними);
  • сократить число необходимых переменных.

Рассмотрим на примере проведение факторного анализа. Допустим, нам известны продажи каких-либо товаров за последние 4 месяца. Необходимо проанализировать, какие наименования пользуются спросом, а какие нет.

  1. Посмотрим, за счет, каких наименований произошел основной рост по итогам второго месяца. Если продажи какого-то товара выросли, положительная дельта – в столбец «Рост». Отрицательная – «Снижение». Формула в Excel для «роста»: =ЕСЛИ((C2-B2)>0;C2-B2;0), где С2-В2 – разница между 2 и 1 месяцем. Формула для «снижения»: =ЕСЛИ(J3=0;B2-C2;0), где J3 – ссылка на ячейку слева («Рост»). Во втором столбце – сумма предыдущего значения и предыдущего роста за вычетом текущего снижения.
  2. Рассчитаем процент роста по каждому наименованию товара.

    Формула: =ЕСЛИ(J3/$I$11=0;-K3/$I$11;J3/$I$11).

    Где J3/$I$11 – отношение «роста» к итогу за 2 месяц, ;-K3/$I$11 – отношение «снижения» к итогу за 2 месяц.

  3. Выделяем область данных для построения диаграммы. Переходим на вкладку «Вставка» — «Гистограмма».
  4. Поработаем с подписями и цветами. Уберем накопительный итог через «Формат ряда данных» — «Заливка» («Нет заливки»). С помощью данного инструментария меняем цвет для «снижения» и «роста».

Теперь наглядно видно, продажи какого товара дают основной рост.

МЕТОД ДИСПЕРСИОННОГО АНАЛИЗА

В настоящее время метод дисперсионного анализа, часть разработки основ которого принадлежит Р.Фишеру, многими ис­следователями признается одним из лучших методов определе­ния коэффициента наследуемости в широком смысле. Сущность дисперсионного анализа состоит в изучении влияния одного или нескольких факторов на результативный признак. Применительно к рассматриваемой проблеме, результативный признак есть се­лекц-ионируемый признак, на степень количественного проявления которого влияют, как уже указывалось, две основных группы факторов: организованных (индивидуальные различия особей или клонов, входящих в состав популяции) и неорганизованных (слу-чайных, возникающих вследствие неоднородности среды обита­ния этих особей или клонов. Дисперсионный анализ позволяет четки разграничить степень влияния этих факторов на уровень обшей (фенотипической) изменчивости признака и популяции, при этом здесь используется известное в теории вероятностей свой­ство суммы центральных отклонений, согласно которому сумма частных дисперсий нескольких полностью независимых источни­ков разнообразия признака всегда равна общей дисперсии, ха­рактеризующей общее разнообразие признака, возникшее под действием всех источников варьирования. В нашей частной за­даче использования дисперсионного анализа это положение ва­риационной статистики нашло отражение в формулах (l ) и (2).

Для изучения наследственной гетерогенности популяций при­меняются три основных способа. Основанных на методе диспер-сионного анализа:

1) наследуемость в широком смысле опреде­ляется по отношению факториальной суммы квадратов к общей сумме квадратов, т.е.

(11)

2) для определения коэффициента наследуемости вычисляются средние квадраты (вариансы) между классами (факториальная) и внутри классов (случайная варианса):

(12)

(13)

где r – число классов, N – общее число наблюдений, из которых состоит дисперсионный комплекс. Средний квадрат внутри классов оценивает случайную дисперсию признака, возникающую под влиянием экологических условий, т.е. Для вычисления дисперсии, обусловленной наследственными различиями особей, применяют следующую формулу:

(14)

где n0– при разном числе наблюдений среднее их число рассчитывают по формуле:

(15)

где ri – число классов, ni– число наблюдений в каждом классе. При одинаковом числе наблюдений в классе n0 = ni , дальнейший расчет проводится по формуле (3);

3) для метамерных организмов с пространственно–топографической повторяемостью приз­наков, к которым относятся древесные растения, хорошим кри­терием наследственной обусловленности признака служит коэффициент повторяемости:

(16)

где – генотипическая компонента обшей фенотипической вариансы,

– межиндивидуальная средовая компонента, обусловленная специфическими для каждой особи внешними или внутренними наследственными факторами. Из формулы (16) видно, что коэффициент повторяемости является верхним пределом коэффициента наследуемости в широком смыс­ле, т.е. при , r>H2, а при r=H2.

Пример.Определить наследуемость количественного содер­жания хлорофилла в листьях в экспериментальной популяции, состоящей из следующих пяти клонов (табл.5).

Порядок выполнения расчетов сводится к следующему:

1. Общая средняя

2. Сумма квадратов отклонений от общей среднеймеждуклонами

3. Сумма квадратов отклонений от средних внутри клонов (т.е. между отдельными растениями клона и среднимзначениемпризнака в клоне)

=1,4696 + 0,2835 + 0,1906 + 0,9014 + 0,1905 = 3,035

4. Средний квадрат между клонами

Средний квадрат внутри клонов

6. Критерий Фишера

7. Стандартный критерий

8. Экологическая варианса признака

9. Среднее число наблюдений в клоне:

10. Генотипическая варианса:

11. Наследуемость признака по формуле (11):

12. Наследуемость признака по формуле (3):

Как видно, значения коэффициентов наследуемостипризнака,определенные двумя различными способами, практически совпа­ли. Первый способ значительно более прост в употребление, од­нако в последнее время он подвергается критике вследствие недостаточного его теоретического обоснования, хотя он имеетодновременно много сторонников его использования. Прирасчетекоэффициента наследуемости по второму способу (с разложе­нием средних квадратов) нужно принять во внимание тообстоятельство, что определение наследуемости будет иметьсмысллишь при условии F> Fst.

Таблица 5. Изменчивость содержания хлорофилла (а+b) в листьях различных клонов тополей (мг/г сырого веса)

Добавить комментарий

Закрыть меню