Дискриминантный анализ

При дискриминантном анализе происходит создание прогностической модели для принадлежности к группе. Данная модель строит дискриминантную функцию (или, когда групп больше двух, набор дискриминантных функций) в виде линейной комбинации предикторных переменных, обеспечивающую наилучшее разделение групп. Эти функции строятся по набору наблюдений, для которых их принадлежность к группам известна, и могут в дальнейшем применяться к новым наблюдениям с известными значениями предикторных переменных, но неизвестной групповой принадлежностью.

Примечание: У группирующей переменной не может быть больше двух значений. Коды для группирующей переменной должны быть целыми, однако вам необходимо задать их максимальное и минимальное значения. Наблюдения со значениями вне этих границ исключаются из анализа.

Пример. Люди в странах с умеренным климатом ежедневно потребляют в среднем больше калорий, чем живущие в тропиках, а большая часть населения в странах с умеренным климатом живет в городах.

Исследователь желает построить на основе данной информации функцию для определения того, насколько хорошо можно разделить индивидуумов по этим двум группам стран (на основе данной информации). Исследователь считает, что также важными факторами могут явиться количество населения в стране и ее экономические показатели. Дискриминантный анализ позволяет оценить коэффициенты линейной дискриминантной функции, напоминающей правую часть уравнения множественной линейной регрессии. Если обозначить коэффициенты дискриминантной функции как a , b , c и d , то ее можно записать в следующем виде:

Если данные переменные являются существенными для разделения двух климатических зон, значения D будут различными для стран с умеренным и тропическим климатом. При использовании метода пошагового отбора переменных может оказаться, что нет необходимости включать в функцию все четыре переменные.

Статистика. Для каждой переменной: средние значения, стандартные отклонения, однофакторный дисперсионный анализ. Для каждого анализа: M — статистика Бокса, внутригрупповая корреляционная матрица, внутригрупповая ковариационная матрица, ковариационные матрицы для отдельных групп, общая ковариационная матрица. Для каждой канонической дискриминантной функции: собственное значение, процент дисперсии, каноническая корреляция, лямбда Уилкса, хи-квадрат. Для каждого шага: априорные вероятности, коэффициенты функции Фишера, нестандартизованные коэффициенты функции, лямбда Уилкса для каждой канонической функции.

Данные для дискриминантного анализа

Данные. Группирующая переменная должна иметь ограниченное число различных категорий, кодированных целыми числами. Независимые переменные, являющиеся номинальными, должны быть перекодированы в фиктивные переменные или переменные контрастов.

Допущения. Наблюдения должны быть независимыми. Предикторные переменные должны подчиняться многомерному нормальному распределению, а внутригрупповые ковариационные матрицы должны совпадать для всех групп. Групповая принадлежность предполагается взаимоисключающей (т.е. ни одно наблюдение не принадлежит более чем одной группе) и совместно исчерпывающей (т.е. каждое наблюдение принадлежит какой-либо группе). Процедура наиболее эффективна в ситуации, когда группирующая переменная является истинно категориальной; если принадлежность к группе определяется значениями непрерывной переменной (например, высокий IQ (коэффициент интеллекта) низкий IQ ), то имеет смысл обратиться к линейной регрессии, чтобы воспользоваться преимуществом большей информативности непрерывной переменной.

Для выполнения дискриминантного анализа

Для этой функциональной возможности требуется модуль База статистики.

  1. Выберите в меню:
  2. Выберите целочисленную группирующую переменную и нажмите кнопку Задать диапазон , чтобы задать нужные категории.
  3. Выберите независимые или предикторные переменные. (Если у группирующей переменной нет целых значений, то переменная с целыми значениями может быть создана с помощью пункта Автоматическая перекодировка меню Преобразовать.)
  4. Выберите метод ввода независимых переменных.
    • Вводить независимые вместе. Одновременно вводятся все независимые переменные, удовлетворяющие критериям допуска (толерантности).
    • Шаговый отбор. Для включения и исключения переменных используется шаговый метод.
  5. При желании вы можете осуществить отбор наблюдений при помощи переменной отбора.

Эта процедура вставит синтаксис команды DISCRIMINANT.

Cодержание

1.Введение

2.Назначение дискриминантного анализа

3.Математико-статистические идеи метода

4.Основные результаты дискриминантного анализа

5.Заключение

6.Список литературы

Введение

Дuскрuмuнантный анализ — это раздел математической статистики, содержанием которого является разработка методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам. Например, разбиение совокупности предприятий на несколько однородных групп по значениям каких-либо показателей производственно-хозяйственной деятельности.

Методы дискриминантного анализа находят применение в различных областях: медицине, социологии, психологии, экономике и т.д. При наблюдении больших статистических совокупностей часто появляется необходимость разделить неоднородную совокупность на однородные группы (классы). Такое расчленение в дальнейшем при проведении статистического анализа дает лучшие результаты моделирования зависимостей между отдельными признаками.

Дискриминантный анализ оказывается очень удобным и при обработке результатов тестирования отдельных лиц. Например, при выборе кандидатов на определенную должность можно всех опрашиваемых претендентов разделить на две группы: «подходит» и «не подходит».

Можно привести еще один пример применения дискриминантного анализа в экономике. Для оценки финансового состояния своих клиентов при выдаче им кредита банк классифицирует их на надежных и не надежных по ряду признаков.

Таким образом, в тех случаях, когда возникает необходимость отнесения того или иного объекта к одному из реально существующих или выделенных определенным способом классов, можно воспользоваться дискриминантным анализом.

Назначение дискриминантного анализа

Дискриминантный анализ представляет собой альтернативу множественного регрессивного анализа для случая, когда зависимая переменная представляет собой не количественную (номинативную) переменную. При этом дискриминантный анализ решает те же задачи, что и множественный регрессивный анализ (МРА): предсказание значений «зависимой» переменной, в данном случае – категорий номинативного признака; определение того, какие «независимые» переменные лучше всего подходят для такого предсказания. Структуры исходных данных для дискриминантного и множественного регрессионного анализа практически идентичны:

X1 X2 XP Y
1 x11 x12 x1P y1
2 x21 x22 x2P y2
N xN1 xN2 xNP yN

Строки этой таблицы соответствуют объектам (испытуемым), а столбцы – переменным. Переменные Х1, …, Хр представлены в количественной шкале. Различие исходных данных для дискриминантного и множественного регрессивного методов заключается лишь в том, что представляет собой «зависимая» переменная Y: для МРА она является количественной, а для дискриминантного анализа – номинативной (классифицирующей) переменной.

В то же время дискриминантный анализ можно определить и как метод классификации, так как «зависимая» переменная – номинативная, то есть она классифицирует испытуемых на группы, соответствующие разным ее градациям. В этом смысле исходными данными для дискриминантного анализа является группа N объектов (испытуемых), разделенная на G классов так, что каждый объект отнесен к одному и только одному классу (градации номинативной переменной). Допускается при этом, что некоторые объекты не отнесены к какому-либо из этих классов (являются «неизвестными»). Для каждого из объектов имеются данные по Р количественным признакам, одним и тем же для этих объектов. Эти количественные признаки называются дискриминантными переменными. Задачами дискриминантного анализа являются: определение решающих правил, позволяющих по значениям дискриминантных переменных отнести каждый объект (в том числе и «неизвестный») к одному из известных классов; определение «веса» каждой дискриминантной переменной для разделения объектов на классы.

ПРИМЕР

В качестве объектов могут выступать студенты, сгруппированные по успешности обучения, а в качестве дискриминантных переменных – результаты их вступительных испытаний, социально-демографические характеристики и пр. При помощи дискриминантного анализа мы можем выделить переменные, наиболее важные для предсказания успешности обучения. Кроме того, по этим показателям мы можем предсказать успешность обучения абитуриентов.

Испытуемыми могут быть клиенты психотерапевта, сгруппированные по эффекту оказанной помощи. Переменными – симптомы, различные социальные и психологическое показатели, а так же характеристики вводов помощи (длительность и характер терапии и пр.) При помощи дискриминантного анализа исследователь может определить переменные, наиболее существенные для эффекта психотерапии, а также предсказать результативность терапии для данного клиента при использовании данного вида помощи.

Таким образом, дискриминантный анализ позволяет решить две группы проблем:

  1. Интерпретировать различия между классами, то есть ответить на вопросы: насколько хорошо можно отличить один класс от другого, используя данный набор переменных; какие из этих переменных наиболее существенны для различения классов. Сходную задачу решает дисперсионный анализ.
  2. Квалифицировать объекты, то есть отнести каждый объект к одному из классов, исходя только из значений дискриминантных переменных. Задача классификации связана с получением по данным об «известных» объектах дискриминантных функций «решающих правил», позволяющих по значениям дискриминантных переменных отнести с известной вероятностью каждый объект к одному из классов.

В решении задачи классификации дискриминантный анализ является не заменимым другими методами. Часто дискриминантный анализ называют еще «классификацией с обучением» или «распознаваем образов». В первом случае предполагают, что мы «учимся» классифицировать «неизвестные» объекты по дискриминантным переменным, используя данные об «известных» объектах. Во втором случае по «образом» объекта подразумевается совокупность измеренных для него значений дискриминантных переменных. И дискриминантный анализ позволяет в этом смысле распознать образ «нового» объекта путем отнесения его к известному классу объектов.

Дискриминантный анализ имеет общие черты с многомерным дисперсионным анализом (MANOVA). По сути, дискриминантные переменные можно рассматривать как многомерную зависимую переменную, а классифицирующую переменную — как фактор. Этот подход применяется для определения достоверности различения классов по совокупности всех переменных ( по λ – Вилкса) и по каждой из дискриминантных переменных в отдельности (по критерию F – Фишера) – как в дисперсионном, так и дискриминантном анализе.

Сравнивая дискриминантный и множественный регрессионный анализ, можно отметить их сходство в отношении решаемой задачи – предсказания. Однако дискриминантный анализ, являясь более сложным методом, имеет свои преимущества. В качестве «зависимой» переменной в дискриминантном анализе выступает классификация, что делает метод более универсальным: любое измерение можно свести к шкале наименований и избежать требования нормальности распределения «зависимой» переменной. Прогностическая эффективность дискриминантного анализа обычно выше, чем МРА, а, как правило, несколько.

Математико-статистические идеи метода

Классы, на которые разбито множество объектов, можно представить как значения некоторой классифицирующей («зависимой») переменной, измеренной в шкале наименований. Дискриминантные переменные представлены в числовой шкале. Основная задача дискриминантного анализа заключается в том, чтобы по значениям дискриминантных переменных для объектов получить значения классифицирующей переменной, то есть определить классы, в которые попадают эти объекты.

Дискриминантные переменные, количество которых равно Р, можно представить себе как ортогональные оси р-мерного евклидова пространства. Тогда каждый объект будет являться точкой в этом пространстве, положение которой задано значениями дискриминантных переменных для этого объекта как его координатами. Так, если переменных две, то объект может быть изображен на плоскости в месте пересечения координат, соответствующих значениям этих двух переменных для данного объекта. Если переменных три, то объект представляет собой точку в трехмерном пространстве, и т. д.

Множество объектов в пространстве Р признаков можно представить как скопление точек. Чем более объекты похожи друг на друга по данным признакам, тем плотнее будет скопление точек. Если несколько классов объектов отличаются друг от друга по дискриминантным переменным, то их можно представить как. соответствующие классам скопления точек в некоторых областях Р-мерного пространства признаков. Чем больше объекты внутри каждого класса похожи друг на друга и отличаются от объектов из другого класса, тем меньше пересечений соответствующих классам «территорий»,

Для каждого класса в пространстве признаков можно определить положение центроида — точки, координаты которой есть средние значения дискриминантных переменных для данного класса. Центроид — это место типичных наблюдений для данного класса, его можно использовать как для описания различий между классами, так и для определения принадлежности «неизвестных» объектов к одному из классов.

Из геометрической интерпретации задачи дискриминантного анализа следует правило классификации объектов: объект приписывается к тому классу, к центроиду которого он ближе всего. Соответственно, сама задача классификации объектов сводится к определению расстояний от каждого объекта до центроидов каждого класса по известным значениям дискриминантных переменных.

В современных компьютерных программах задача классификации решается с помощью канонических дискриминантных функций. Канонические функции — это ортогональные оси, в максимальной степени различающие центроиды классов. Началом координат для канонических функций является «главный центроид» — точка, координаты которой есть средние значения всех дискриминантных переменных. Первая каноническая ось ориентирована в направлении, в котором центроиды классов различаются в максимальной степени. Если классов больше двух, то вторая ось ориентирована перпендикулярно первой в направлении максимального различия классов и т. д.

Максимальное число таких функций равно числу классов за вычетом единицы. Так, для различения двух центроидов (классов) достаточно одной оси, для различения трех классов — двух канонических функций, и т.д. Таким образом, канонические функции позволяют преобразовать Р-мерное пространство исходных признаков в Q-мерное пространство дискриминантных функций (Q = G — 1, где G — число классов).

Канонические функции и дискриминантные переменные связывают стандартизированные канонические коэффициенты, которые позволяют оценить относительный вклад переменных в каждую каноническую функцию. В отличие от них, структурные коэффициенты канонических функций — это корреляции канонических функций и дискриминантных переменных. Как и факторные нагрузки в факторном анализе, структурные коэффициенты отражают связь дискриминантных переменных с каноническими функциями. Структурные коэффициенты канонических функций показывают вклад каждой дискриминантной переменной в различительную способность соответствующей функции. Таким образом, каждая каноническая функция может быть интерпретирована через переменные, вносящие в нее наибольший по абсолютной величине вклад — подобно интерпретации факторов по факторным нагрузкам в факторном анализе.

Анализ канонических функций сопровождается получением важных статистических показателей качества классификации. Основными из них являются: собственное значение канонической функции, λ-Вилкса и χ2-тест.

Собственное значение канонической функции, как и в факторном анализе, есть показатель информативности функции. Сумма всех собственных значений равна числу классов. Соответственно, собственное значение для данной канонической функции, деленное на количество классов, есть показатель ее информативности — доли суммарной дисперсии всех объектов по всем переменным, которая исчерпывается этой канонической функцией.

Интерпретация результатов
Интерпретация дискриминантных весов, или коэффициентов, аналогична интерпретации результатов множественного регрессионного анализа. Значение коэффициента для конкретного предиктора зависит от других предикторов, включенных в дискриминантную функцию. Знаки коэффициентов условны, но они указывают, какие значения переменной приводят к большим и маленьким значениям функции, и связывают их с конкретными группами.

При наличии мультиколлинеарности между независимыми переменными не существует однозначной меры относительной важности предикторов для дискриминации между группами.

Помня об этом предостережении, можно получить некоторое представление об относительной важности переменных, изучив абсолютные значения нормированных коэффициентов дискриминантной функции. Как правило, предикторы с относительно большими нормированными коэффициентами вносят больший вклад в дискриминирующую мощность функции по сравнению с предикторами, имеющими меньшие коэффициенты.

Некоторое представление об относительной важности предикторов можно также получить, изучив структурные коэффициенты корреляции, которые также называют каноническими , или дискриминантными ,нагрузками . Эти линейные коэффициенты корреляции между каждым из предикторов и дискриминантной функцией представляют дисперсию, которую предиктор делит вместе с функцией. Как и нормированные коэффициенты, эти коэффициенты корреляции следует использовать осторожно.

Полезно исследовать нормированные коэффициенты дискриминантной функции в примере с отпуском на курорте. С данными низкими коэффициентами корреляции между предикторами можно использовать значения нормированных коэффициентов, чтобы предположить, что доход — наиболее важный предиктор при дискриминации между группами, а за ним следуют размер семьи и значение, придаваемое семейному отдыху.

Аналогичное наблюдение получено из проверки структурных корреляций. Эти коэффициенты линейной корреляции между предикторами и дискриминантной функцией перечислены в порядке их убывания.

Также даны и ненормированные коэффициенты дискриминантной функции. Для классификации данных их можно применить к необработанным значениям переменных в проверочной выборке. Кроме того, показаны групповые центроиды, дающие значения дискриминантной функции, оцененные по групповым средним. Центроид группы 1 (семьи, отдыхающие на курорте) имеет положительное значение, а центроид группы 2 — равное ему, но отрицательное. Знаки коэффициентов соответствующих предикторов положительны. Это означает, что чем выше доход семьи, ее размер, значение, придаваемое семейному отдыху, а также отношение к путешествию и возраст, тем выше вероятность семейной поездки на курорт. Разумно создать профиль двух групп с точки зрения трех предикторов, которые кажутся наиболее важными: доход, размер семьи и значение, придаваемое семейному отдыху.

При интерпретации результатов дискриминантного анализа также может помочь разработкахарактеристической структуры (characteristic profile) для каждой группы с помощью описания каждой группы через групповые средние для предикторов.

Характеристическая структура (characteristic profile). Средство интерпретации результатов дискриминантного анализа описанием каждой группы через групповые средние для предикторов.

Если важные предикторы установлены, то сравнение групповых средних по этим переменным поможет понять межгрупповые различия. Однако прежде чем интерпретировать какие-либо факты, необходимо убедиться в достоверности результатов.

Оценка достоверности дискриминантного анализа
Как уже говорилось, данные разбивают случайным образом на две подвыборки. Анализируемую часть выборки используют для вычисления дискриминантной функции, а проверочную — для построения классификационной матрицы. Дискриминантные веса, определенные анализируемой выборкой, умножают на значения независимых переменных в проверочной выборке, чтобы получить дискриминантные показатели для случаев в этой выборке. Затем случаи распределяют по группам исходя из дискриминантных показателей и соответствующего правила принятия решения. Например, при дискриминантном анализе двух групп случай может быть отнесен к группе с самым близким по значению центроидом. Затем, сложив элементы, лежащие на диагонали матрицы, и разделив полученную сумму на общее количество случаев, можно определить коэффициент результативности (hit ratio), или процент верно классифицированных случаев.

Коэффициент результативности (hit ratio). Процент случаев, верно классифицированных с помощью дискриминантного анализа. Полезно сравнить процент случаев, верно классифицированных с помощью дискриминантного анализа, с процентом случаев, который можно получить случайным образом. Для равных по размеру групп процент случайной классификации равен частному от деления единицы на количество групп. Превысит ли и на сколько количество верно классифицированных случаев их случайное количество? Здесь нет общепринятого подхода, хотя некоторые считают, что точность классификации, достигнутая с помощью дискриминантного анализа, должна быть, по крайней мере, на 25% выше, чем точность, которую можно достичь случайным образом.

Многие программы для выполнения дискриминантного анализа также определяют классификационную матрицу исходя из анализируемой выборки. Поскольку программы учитывают даже случайные вариации в данных, полученные результаты всегда точнее, чем классификация данных на основе проверочной выборки.

Коэффициент результативности, или процент верно классифицированных случаев, равен (12 + 15)/30 = = 0,90, или 90%. Могут возникнуть сомнения, что этот коэффициент результативности искусственно завышен, поскольку данные, использованные для вычисления, использовались и для проверки. Выполнение классификационного анализа по независимому набору данных приводит к классификационной матрице с немного меньшим коэффициентом результативности (4 + 6)/12 = 0,833, или 83,3%. Задав случайным образом две группы равного размера, можно ожидать, что коэффициент результативности равен 1/2 = 0,50, или 50%. Однако превышение точности классификации над случайной классификацией составляет свыше 25%, и поэтому достоверность дискриминантного анализа оценивают как удовлетворительную.

Пошаговый дискриминантный анализ аналогичен пошаговому множественному регрессионному анализу в том отношении, что предикторы вводят последовательно, исходя из их способности различать (дискриминировать) группы. Значение F-статистики рассчитывают для каждого предиктора, выполняя одномерный дисперсионный анализ, в котором группы рассматривают как категориальную переменную, а предиктор — как критериальную переменную. Предиктор с самым высоким значением F-статистики первым отбирают для включения в дискриминантную функцию, если он удовлетворяет определенной значимости и допустимому критерию. Второй предиктор вводят исходя из самого высокого скорректированного или частного значения F, с учетом уже выбранного предиктора.

Для того чтобы каждый выбранный предиктор оставить в уравнении, его проверяют исходя из его связи с другими предикторами. Процесс введения и исключения продолжают до тех пор, пока все предикторы не будут удовлетворять критерию значимости — условию, необходимому для их введения в дискриминантную функцию. На каждой стадии рассчитывают несколько статистик. Кроме того, в заключение подводят итог введенным или исключенным предикторам. Пошаговый метод приводит к тому же стандартному выводу, который вытекает из прямого метода.

Выбор пошагового метода основан на оптимизации принятого критерия.

Метод Махаланобиса (Mahalanobis procedure) основан на максимизации обобщенной меры расстояния между двумя самыми близкими группами. Этот метод позволяет маркетологам-исследователям извлечь максимальную пользу из имеющейся информации.

Метод Махаланобиса (Mahalanobis procedure)
Пошаговый метод, используемый в дискриминантном анализе для максимизации обобщенной меры расстояния между двумя самыми близкими группами.

Первой выбранной переменной был доход, за ним следовали размер семьи и отдых. Порядок введения переменных указывает на их значимость в дискриминации двух групп. Впоследствии это подтвердила проверка нормированных коэффициентов дискриминантной функции и структура коэффициентов корреляции. Обратите внимание, что результаты пошагового анализа согласуются с выводами, ранее полученными прямым методом.

Врезки «Практика маркетинговых исследований» — примеры применения дискриминантного анализа в международных маркетинговых исследованиях и при исследование этических проблем в маркетинге.

Добавить комментарий

Закрыть меню