Двумерные таблицы

К наиболее часто используемым инструментам изучения взаимосвязи двух переменных относятся методы анализа таблицы сопряжен­ности. Анализ таблицы является весьма простым и наглядным, и вме­сте с тем эффективным инструментом изучения одновременно двух переменных. Двумерная таблица сопряженности для переменных ql2 и q2 (табл. 2.1) составлена по данным исследования «Мониторинг социальных и экономических перемен в России», которые получены из ответов на вопросы:

qlO Как бы вы оценили в настоящее время материальное поло­жение вашей семьи ?

4. Хорошее, очень хорошее.

5. Среднее.

6. Плохое, очень плохое.

7. Затрудняюсь ответить.

q12 Как бы вы оцениkb в целом политическую обстановку в России ?

1. Благополучная, спокойная.

2. Напряженная.

3. Критическая, взрывоопасная.

4. Затрудняюсь ответить.

Таблица 2.1. Таблица сопряженности для переменных q10 n q12

q10 Как бы вы оценили в настоящее время материаль­ное положение вашей семьи? q12 Как бы вы оценили в целом политическую обстановку в России? Все­ го
благопо­ лучная. спокойная напря­ женная критическая, взрыво­ опасная затрудняюсь ответить
Хорошее, очень хорошее
Среднее
Плохое, очень плохое И
Затрудняюсь ответить
Всего

В табл. 2.1 на пересечении строк и столбцов находятся числа, пока­зывающие, какое количество единиц анализа (в данном случае — рес­пондентов) обладают одновременно данными градациями по перемен­ным q10 и q12. Например, на пересечении первой строки и второго столбца стоит число 48 — это значит, что градацию «1» переменной q10 (считают материальное положение своей семьи хорошим или очень хорошим) и градацию «2» переменной q12 (считают политическую обстановку в России напряженной) одновременно отметили 48 человек.

Внизу таблицы сопряженности располагаются суммарные дан­ные по всем колонкам, а с правого края таблицы — аналогичные суммы по всем строкам. Иными словами, сбоку справа и снизу находятся одномерные частотные распределения для переменных, использован­ных в таблице.

Можно ли по данным табл. 2.1 сразу дать ответ на вопрос о наличии зависимости между переменными q10 и q12? По всей веро­ятности, нет — стоящие в клетках таблицы числа ничего особенного не демонстрируют. Поставим вопрос иначе — а что, собственно, мы ищем? По всей видимости, при наличии зависимости между пере­менными q10 и q12 при разных значениях переменной q10 поведение данных по переменной q12 будет различным. Если говорить о приме­ре табл.

2.1 — это значит, что респонденты, по-разному оцениваю­щие свое материальное положение, будут по-разному оценивать по­литическую обстановку в России.

Если бы количество респондентов, имеющих различные значе­ния переменной q10, было одинаковым, в табл. 2.1 можно было бы сравнивать между собой строки и оценить, насколько схожи значения в клетках, располагающихся в одной колонке. Однако количество рес­пондентов по строкам сильно разнится, поэтому для такого сравне­ния построим таблицу, в клетках которой располагаются не абсолют­ные количества единиц анализа, а процент от сумм по строкам. Дру­гими словами, число респондентов в каждой строке берется за 100% и от этого числа считается процент в каждой клетке таблицы. Таким образом, мы как бы нормируем каждую строку таблицы и получаем возможность сравнения распределений по строкам (табл. 2.2).

Таблица 2.2 показывает, что оценка политической ситуации в России значительно отличается по группам респондентов, по-разному оценивающих материальное положение своей семьи, и, следовательно, имеется определенная зависимость между переменными q10 и q12.

При анализе зависимостей двух переменных важнейшим является вопрос о том, какую из переменных считать зависимой, т.е. подвер­женной влиянию, а какую — независимой, т.е. влияющей. В табл. 2.1 и в последующих рассуждениях предполагалось, что оценка матери­ального положения семьи — независимая переменная, иными слова­ми. она влияет на оценку политической ситуации, которая, следова­тельно, выступает зависимой переменной. Если мы поменяем места­ ми переменные в модели и будем считать, что оценка политической ситуации оказывает влияние на оценку материального положения се­мьи, целесообразно изменить таблицу и проводить нормирование не от сумм по строкам, а от сумм по колонкам. Таблица 2.3 построена именно таким образом, т.е. использованы данные табл. 2.1, но нор­мированные по колонкам.

Таблица 2.2. Таблица сопряженности переменных q10 и q12, %

q10 Как бы вы q12 Как бы вы оценили в целом Все­
оценили политическую обстановку в России? го
в настоящее время материаль­ное положение вашей семьи? благопо­ лучная. спокойная напря­ женная критическая. взрыво­ опасная затруд­ няюсь отвеппъ i
Хорошее, очень 9,7 38,7 37,9 13,7 100,0
хорошее
Среднее 1,5 36,7 51,2 10,6 100,0
Плохое, очень 1,2 16,8 73,6 8,5 100.0
плохое
Затрудняюсь 21,4 53,6 25,0 100.0
ответить
Всего 1,8 28,7 59,4 10,1 100.0

Очевидно, что при решении вопроса о зависимости между пере­менными q10 и q12 при анализе табл. 2.3 необходимо сравнивать рас­пределения по разным колонкам таблицы, а не по строкам, как при анализе таблицы, представленной на рис. 2.2. Такое сравнение показы­вает, что среди респондентов, оценивающих политическую ситуацию в России как критическую, материальное положение своей семьи оце­нивают как плохое 49,1% респондентов (колонка 3, строка 3 табл. 2.3). В то же время среди оценивающих политическую ситуацию опти­мистичнее, как напряженную, материальное положение своей семьи считают плохим 23,1% респондентов (колонка 3, строка 2 табл. 2.3).

Таблица 2.3. Таблица сопряженности переменных q10 n q12, %

q10 Как бы вы оценили q12 Как бы вы оценили в целом политическую обстановку в России? Все­ го
в настоящее время материаль­ное положение вашей семьи? благопо­ лучная. спокойная напря­ женная критическая, взрыво­ опасная затруд­ няюсь ответить
Хорошее, очень хорошее 27,9 6,9 3,3 7,0 5,2
Среднее 46,5 69,1 46,6 56,8 54,1
Плохое, очень плохое 25,6 23,1 49,1 33,3 39,6
Затрудняюсь ответить 0,9 1,0 2,9 1,2
Всего 100,0 100,0 100,0 100,0 100.0

Рис. 2.2. Меню команды Crosstabs пакета SPSS

При анализе таблиц сопряженности крайне важно помнить, что мы, по сути дела, ищем наличие (или отсутствие) определенных ста­тистических, а не причинно-следственных зависимостей. Вопрос о том, какая из переменных является причиной, т.е. оказывает влияние, а какая меняется вследствие этой причины, не может быть решен не только с помощью анализа таблиц, но и любым другим формально- статистическим методом. Это вопрос понимания той модели, кото­рую мы проверяем методами построения таблиц либо другими стати­стическими приемами. Но результатом такой проверки не может быть утверждение: «наша модель верна», либо «наша модель неверна». Утверждать мы можем лишь то, что данные не противоречат (или, наоборот, противоречат) построенной модели, что само по себе от­нюдь не является гарантией ее справедливости.

Иллюстрацию этой мысли можно найти у О. Генри. В рассказе «Вождь краснокожих» главный герой предложит изящную модель для ответа на вопрос о том, почему дует ветер — потому, что деревья качаются. Если собрать данные о ветре и поведении деревьев во вре­мя ветра, любой статистический метод покажет, что данные ни в коем случае не противоречат этой модели, что. видимо, и послужило Джи­му основанием для столь глубокомысленного вывода.

Ряд распределения – упорядоченное распределение единиц совокупности оп определенному варьирующему признаку; это простая группировка, в кот известна численность едениц в группировках или удельный вес каждой группы в общем итоге. Ряды распр имеют 2 осн признака: 1. значение груп.признака (вариант Х), 2. частота- f или частость –w. Частота- f- численность отдельных вариантов, т.е.число, показывающее какое число раз (как часто встречается те или иные варианты. сумм f=N (N общий объем выборки). Частость— относи­тельнымичастотами.–w-частота выраженная в % к итогу. W= f/ сумм f. Т.е. Относительные частоты – отношение частоты к объему выборки. Для создания частотной табл в SPSS: Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies (Частоты) Появится диалоговое окно Frequencies.

Пр.: Задано распределение частот выборки объема = 20:

2 6 12

3 10 7

Написать распределение относительных частот.

Решение. Найдем относительные частоты, для чего разделим частоты на объем выборки:

=3/20 = 0,15, W2= 10/20 = 0,50, W3 = 7/20 = 0,35.

Напишем распределение относительных частот:

xi2 6 12

Wi0,15 0,50 0,35

Проверка: 0,15+0,50+ 0,35= 1.

В SPSS:Тест хи-квадрат (X2)

При проведении теста хи-квадрат проверяется взаимная независимость двух переменных таблицы сопряженности и благодаря этому косвенно выясняется зависимость обоих переменных. Две переменные считаются взаимно независимыми, если наблюдаемые частоты (f0) в ячейках совпадают с ожидаемыми частотами (fe).

Для того, чтобы провести тест хи-квадрат с помощью SPSS, выполните следующие действия:

· Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs… (Таблицы сопряженности)

· Кнопкой Reset (Сброс) удалите возможные настройки.

· Перенесите переменную sex в список строк, а переменную psyche — в список столбцов.

· Щелкните на кнопке Cells… (Ячейки). В диалоговом окне установите, кроме предлагаемого по умолчанию флажка Observed, еще флажки Expected и Standardized. Подтвердите выбор кнопкой Continue.

· Щелкните на кнопке Statistics… (Статистика).

Откроется описанное выше диалоговое окно Crosstabs: Statistics.

· Установите флажок Chi-square (Хи-квадрат). Щелкните на кнопке Continue, а в главном диалоговом окне — на ОК.

Вы получите следующую таблицу сопряженности.

Пол * Психическое состояние Таблица сопряженности

Психическое состояние Total
Крайне неустой-чивое Неустой-чивое Устой-чивое Очень устойчивое
Пол женский Count
Expected Count 7,9 16,6 17,0 2,5 44,0
Std. Residual 2,9 ,3 -1,9 -.9
Мужской Count
Expected Count 11,1 23,4 24,0 3,5 62,0
Std. Residual -2,4 -,3 1,6 ,8
Total Count
Expected Count 19,0 40,0 41,0 6,0 106,0

Кроме того, в окне просмотра будут показаны результаты теста хи-квадрат:

Chi-Square Tests (Тесты хи-квадрат)

Value (Значение) df Asymp. Sig. (2-sided) (Асимптотическая значимость (двусторонняя))
Pearson Chi-Square (Хи-квадрат по Пирсону) 22,455 (а) ,000
Likelihood Ratio (Отношение правдоподобия) 23,688 ,000
Linear-by-Linear Association (Зависимость линейный-линейный) 20,391 ,000
N of Valid Cases (Кол-во допустимых случаев)

а. 2 cells (25,0%) have expected count less than 5. The minimum expected count is 2,49 (2 ячейки (25%) имеют ожидаемую частоту менее 5. Минимальная ожидаемая частота 2,49.)

Для вычисления критерия хи-квадрат применяются три различных подхода: формула Пирсона, поправка на правдоподобие и тест Мантеля-Хэнзеля. Если таблица сопряженности имеет четыре поля и ожидаемая вероятность менее 5, дополнительно выполняется точный тест Фишера.

Двумерная таблица

Cтраница 1

Двумерные таблицы широко распространены в физике и технике; например, таковыми являются таблицы термодинамических функций газов, где независимыми переменными обычно являются температура и плотность. Трехмерные таблицы составляют и используют значительно реже, но не потому, что таких зависимостей нет, а потому, что таблицы слишком громоздки. Четырехмерных таблиц практически нет, хотя в физике немало задач с большим числом параметров; так, проводимость плазмы а ( Т, р, Е, Н) зависит от ее температуры и плотности, и напряженностей электрического ( если сказываются нелинейные эффекты) и магнитного полей.  

Для формирования двумерных таблиц в качестве исходных параметров выбираются удельный объем и температура ( V, Т), которые являются естественными для термодинамического потенциала свободной энергии.  

Вместо применения двумерной таблицы можно употребить другой прием; он заключается в том, что к значению хеш-индекса прибавляется константа каждый раз, когда обнаруживается непустой или не совпадающий с данным элемент.

Этот прием позволяет после вычисления хеш-индекса выполнять поиск линейно и расширять таблицу.  

При пользовании двумерными таблицами, записанными на бумаге, у человека, знакомого с существом дела, обычно не возникает сомнений относительно характера смысловых связей между различными их элементами.  

Ясно, что двумерной таблицей может быть задана только булева функция не менее чем от двух аргументов.  

Отношения правдоподобия получаются из простой двумерной таблицы, показывающей, насколько часто случается каждое событие при каждой из гипотез.  

Один из методов анализа двумерных таблиц сопряженности заключается в том, чтобы приписать градациям классификационных переменных численные значения так, чтобы максимизировать некоторый функционал. Оказывается, что ряд известных под различными названиями и максимизирующих различные функционалы методов таких, как метод взаимных усреднений, аддитивное или оптимальное шкалирование, метод максимизации коэффициента корреляции и др., приводит к приписыванию одних и тех же численных значений.  

Матрица инциденций графа представляет собой двумерную таблицу, каждой строке которой взаимно однозначно соответствует дуга графа, столбцу — вершина, и элемент равен 1, если соответствующая ему дуга положительно инцидентна соответствующей вершине, — 1, если отрицательно инцидентна, и 0 при отсутствии инииденции.  

Мы знаем, что структуру двумерной таблицы образуют столбцы и строки. Их аналогами в структуре простейшей базы данных являются поля и записи. Если записей в таблице пока нет, значит, ее структура образована только набором полей. Изменив состав полей базовой таблицы ( или их свойства), мы изменяем структуру базы данных и, соответственно, получаем новую базу данных.  

Каждый столбец таблицы программ порождает двумерную таблицу устройств ( табл. 14.5); именно поэтому полную таблицу устройств называют трехмерной. В табл. 14.5 показана часть таблицы устройств, соответствующая столбцу VSOS 4 в табл. 14.4. Из нее можно определить, сколько устройств каждого типа требуется для работы VSOS 4 и каждого элемента этого семейства программных изделий. Такая таблица крайне полезна при определении конфигурации системы, соответствующей нуждам пользователя.  

Приведение любой игры к этой простой двумерной таблице вызывает трудности, которые мы не будем обсуждать.  

Наиболее часто проверяемая гипотеза в двумерных таблицах состоит в предположении независимости распределения первого и второго признаков.  

Заданы неупорядоченный список столиц государств и двумерная таблица, элементами которой являются буквенные символы. Составить программу печати названия каждого города из списка, которое присутствует в таблице, если читать по горизонтали, или по вертикали ( в любом направлении), или по диагоналям ( в четырех возможных направлениях), задавшись номерами некоторых строки и столбца и направлением. Для заданного направления один элемент таблицы может быть использован в качестве начального не более чем для одного названия.  

Добавить комментарий

Закрыть меню