Уравнение регрессии

Последовательность этапов регрессионного анализа

Основы анализа данных.

Типичной задачей, возникающей на практике, является определение зависимостей или связей между переменными. В реальной жизни переменные связаны друг с другом. Например, в маркетинге количество денег, вложенных в рекламу, влияет на объемы продаж; в медицинских исследованиях доза лекарственного препарата влияет на эффект; в текстильном производстве качество окрашивания ткани зависит от температуры, влажности и др. параметров; в металлургии качество стали зависит от специальных до­бавок и т.д. Найти зависимости в данных и использовать их в своих целях — задача ана­лиза данных.

Предположим, вы наблюдаете значения пары переменных X и Y и хотите найти за­висимость между ними. Например:

• X — количество посетителей интернет магазина, Y — объем продаж;

• X — диагональ плазменной панели, Y — цена;

• X — цена покупки акции, Y- цена продажи;

• X — стоимость алюминия на Лондонской бирже, Y – объемы продаж;

• X — количеством прорывов на нефтепроводах, Y — величина потерь;

• X — «возраст» самолета, Y — расходы на его ремонт;

• X — торговая площадь, Y — оборот магазина;

• X — доход, Y — потребление и т. д.

Переменная X обычно носит название независимой переменной (англ. independent variable), переменная Y называется зависимой переменной (англ. dependent variable). Иногда переменную X называют предиктором, переменную Y — откликом.

Мы хотим определить именно зависимость от X или предсказать, какими будут значения Y при данных значениях X. В данном случае мы наблюдаем значения X и соответствую­щие им значения Y. Задача состоит в том, чтобы построить модель, позволяющую по значениям X, отличным от наблюдаемых, определить Y. В статистике подобные задачи решаются в рамках регрессионного анализа.

Существуют различные регрессионные модели, определяемые выбором функции f(x1,x2,…,xm):

1) Простая линейная регрессия

2) Множественная регрессия

3) Полиномиальная регрессия

Коэффициенты называются параметрами регрессии.

Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет зависимость между исследуемыми переменными.

Последовательность этапов регрессионного анализа

1. Формулировка задачи. На этом этапе формируются предварительные гипотезы о зависимости исследуемых явлений.

2. Определение зависимых и независимых (объясняющих) переменных.

3. Сбор статистических данных. Данные должны быть собраны для каждой из переменных, включенных в регрессионную модель.

4. Формулировка гипотезы о форме связи (простая или множественная, линейная или нелинейная).

5. Определение функции регрессии (заключается в расчете численных значений параметров уравнения регрессии)

6. Оценка точности регрессионного анализа.

7. Интерпретация полученных результатов. Полученные результаты регрессионного анализа сравниваются с предварительными гипотезами. Оценивается корректность и правдоподобие полученных результатов.

8. Предсказание неизвестных значений зависимой переменной.

При помощи регрессионного анализа возможно решение задачи прогнозирования и классификации. Прогнозные значения вычисляются путем подстановки в уравнение регрессии параметров значений объясняющих переменных. Решение задачи классификации осуществляется таким образом: линия регрессии делит все множество объектов на два класса, и та часть множества, где значение функции больше нуля, принадлежит к одному классу, а та, где оно меньше нуля, — к другому классу.

Основные задачи регрессионного анализа: установление формы зависимости, определение функции регрессии, оценка неизвестных значений зависимой переменной.

Линейная регрессия

Линейная регрессия сводится к нахождению уравнения вида

или . (1.1)

где

x — называется независимой переменной или предиктором.

Y – зависимая переменная или переменная отклика. Это значение, которое мы ожидаем для y (в среднем), если мы знаем величину x, т.е. это «предсказанное значение y»

· a – свободный член (пересечение) линии оценки; это значение Y, когда x=0 (Рис.1).

· b – угловой коэффициент или градиент оценённой линии; она представляет собой величину, на которую Y увеличивается в среднем, если мы увеличиваем x на одну единицу.

· a и b называют коэффициентами регрессии оценённой линии, хотя этот термин часто используют только для b.

· e — ненаблюдаемые случайные величины со средним 0, или их еще называют ошибками наблюдений, предполагается что ошибки не коррелированы между собой.

Рис.1. Линия линейной регрессии, показывающая пересечение a и угловой коэффициент b (величину возрастания Y при увеличении x на одну единицу)

Уравнение вида позволяет по заданным значениям фактора х иметь теоретические значения результативного признака, подставляя в него фактические значения фактора х.

На графике теоретические значения представляют линию регрессии.

В большинстве случав (если не всегда) наблюдается определенный разброс наблюдений относительно регрессионной прямой.

Теоретической линией регрессии называется та линия, вокруг которой группируются точки корреляционного поля и которая указывает основное направление, основную тенденцию связи.

Важным этапом регрессионного анализа является определение типа функции, с помощью которой характеризуется зависимость между признаками. Главным основанием для выбора вида уравнения должен служить содержательный анализ природы изучаемой зависимости, ее механизма.

Для нахождения параметров а и b уравнения регрессии используем метод наименьших квадратов (МНК). При применении МНК для нахождения такой функции, которая наилучшим образом соответствует эмпирическим данным, считается, что сумма квадратов отклонений (остаток) эмпирических точек от теоретической линии регрессии должна быть величиной минимальной.

Подгонка оценивается, рассматривая остатки (вертикальное расстояние каждой точки от линии, например, остаток = наблюдаемому y – предсказанный y, Рис. 2).

Линию лучшей подгонки выбирают так, чтобы сумма квадратов остатков была минимальной.

Рис. 2. Линия линейной регрессии с изображенными остатками (вертикальные пунктирные линии) для каждой точки.

После несложных преобразований получим систему нормальных уравнений способа наименьших квадратов для определения величины параметров a и b уравнения прямолинейной корреляционной связи по эмпирическим данным:

. (1.2)

Решая данную систему уравнений относительно b, получим следующую формулу для определения этого параметра:

(1.3)

Где и — средние значения y, x.

Значение параметра а получим, разделив обе части первого уравнения в данной системе на n:

(1.4)

Параметр b в уравнении называют коэффициентом регрессии. При наличии прямой корреляционной зависимости коэффициент регрессии имеет положительное значение, а в случае обратной зависимости коэффициент регрессии – отрицательный.

Если знак при коэффициенте регрессии — положительный, связь зависимой переменной с независимой будет положительной.

Если знак при коэффициенте регрессии — отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).

Коэффициент регрессии показывает, на сколько в среднем изменяется величина результативного признака y при изменении факторного признака х на единицу, геометрический коэффициент регрессии представляет собой наклон прямой линии, изображающей уравнение корреляционной зависимости, относительно оси х (для уравнения ).

Из-за линейного соотношения и мы ожидаем, что изменяется, по мере того как изменяется , и называем это вариацией, которая обусловлена или объясняется регрессией. Остаточная вариация должна быть как можно меньше.

Если это так, то большая часть вариации будет объясняться регрессией, а точки будут лежать близко к линии регрессии, т.е. линия хорошо соответствует данным.

Количественной характеристикой степени линейной зависимости между случайными величинами X и Y является коэффициент корреляции r (Показатель тесноты связи между двумя признаками).

Коэффициент корреляции:

где x — значение факторного признака;

y — значение результативного признака;

n — число пар данных.

Рис.3 — Варианты расположения «облака» точек

Если коэффициент корреляции r=1, то между X и Y имеет место функциональная линейная зависимость, все точки (xi,yi) будут лежать на прямой.

Если коэффициент корреляции r=0 (r~0), то говорят, что X и Y некоррелированы, т.е. между ними нет линейной зависимости.

Связь между признаками (по шкале Чеддока) может быть сильной, средней и слабой.Тесноту связи определяют по величине коэффициента корреляции, который может принимать значения от -1 до +1 включительно. Критерии оценки тесноты связи показаны на рис. 1.

Рис. 4. Количественные критерии оценки тесноты связи

Любая зависимость между переменными обладает двумя важными свойствами: величиной и надежностью. Чем сильнее зависимость между двумя переменными, тем больше величина зависимости и тем легче предсказать значение одной переменной по значению другой переменной.Величину зависимости легче измерить, чем надежность.

Надежность зависимости не менее важна, чем ее величина. Это свойство связано с представительностью исследуемой выборки. Надежность зависимости характеризует, насколько вероятно, что эта зависимость будет снова найдена на других данных.

С ростом величины зависимости переменных ее надежность обычно возрастает.

Долю общей дисперсии , которая объясняется регрессией называют коэффициентом детерминации, обычно выражают через процентное соотношение и обозначают R2 (в парной линейной регрессии это величина r2, квадрат коэффициента корреляции), позволяет субъективно оценить качество уравнения регрессии.

Коэффициент детерминации измеряет долю раз­броса относительно среднего значения, которую «объясняет» построенная регрессия.

Коэффициент детерминации лежит в пределах от 0 до 1. Чем ближе коэффициент детер­минации к 1, тем лучше регрессия «объясняет» зависимость в данных, значение близкое к нулю, означает плохое качество построенной модели.Коэффициент де­терминации может максимально приближаться к 1, если все предикторы различны.

Разность представляет собой процент дисперсии, который нельзя объяснить регрессией.

Множественная регрессия

Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и необходимо учитывать влияние нескольких факторов. Например, объем выпуска продукции определяется величиной основных и оборотных средств, численностью персонала, уровнем менеджмента и т. д., уровень спроса зависит не только от цены, но и от имеющихся у населения денежных средств.

Основная цель множественной регрессии – построить модель с несколькими факторами и определить при этом влияние каждого фактора в отдельности, а также их совместное воздействие на изучаемый показатель.

Множественной регрессией называют уравнение связи с несколькими независимыми переменными:

Где Y – зависимая переменная, x1, x2, xk-1 – независимые переменные (факторные признаки), коэффициенты называются параметрами регрессии, свободный член.

Постановка задачи множественной регрессии: по имеющимся данным n наблюдений за совместным изменением k-1 параметра Y и xi, i=0,1,…,k-1 необходимо определить аналитическую зависимость Y= f(x1,x2,…,xi), наилучшим образом описывающую данные наблюдений.

Регрессионный анализ простой линейной регрессии обобщается на случай множественной регрессии. Для нахождения оценок параметров , i=0,1,…,k-1 по результатам наблюдений используется метод наименьших квадратов (МНК).

Коэффициенты регрессии. Линии регрессии.

Коэффициенты регрессии показывают интенсивность влияния факторов на результативный показатель. Если проведена предвари­тельная стандартизация факторных показателей, то b0 равняется сред­нему значению результативного показателя в совокупности. Коэффици­енты b1, b2, …, bn показывают, на сколько единиц уровень результативно­го показателя отклоняется от своего среднего значения, если значения факторного показателя отклоняются от среднего, равного нулю, на одно стандартное отклонение. Таким образом, коэффициенты регрессии ха­рактеризуют степень значимости отдельных факторов для повышения уровня результативного показателя. Конкретные значения коэффициен­тов регрессии определяют по эмпирическим данным согласно методу наименьших квадратов (в результате решения систем нормальных урав­нений).

Линия регрессии — линия, которая точнее всего отражает распределение экспериментальных точек на диаграмме рассеяния и крутизна наклона которой характеризует зависимость между двумя интервальными переменными.

Линия регрессии чаще всего ищется в виде линейной функции (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых от их оценок (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

(M — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда .
57.

Основные задачи теории корреляции.

Теория корреляции представляет собой аппарат, оценивающий тесноту связей между явлениями, которые находятся не только в причинно-следственных отношениях. С помощью теории корреляции оцениваются стохастические, но не причинные связи. Автором совместно с Лукацкой М. Л. предпринята попытка получить оценки для причинных связей. Однако вопрос о причинно-следственных отношениях явлений, о том, как опознать причину и следствие, остается открытым, и кажется, что на формальном уровне он принципиально не разрешим.

Теория корреляции и ее применен к анализу производства.

Теория корреляции, являющаяся одним из разделов математической статистики, позволяет сделать обоснованные предположения о возможных пределах, в которых с известной степенью надежности будет находиться исследуемый параметр, если другие статистически связанные с ним параметры получат определенные значения.

В теории корреляции принято выделять две основные задачи.

Первая задача теории корреляции — установить форму корреляционной связи, т.е. вид функции регрессии (линейная, квадратичная и т.д.).

Вторая задача теории корреляции — оценить тесноту (силу) корреляционной связи.

Теснота корреляционной связи (зависимости) У на X оценивается по величине рассеивания значений У вокруг условного среднего. Большое рассеивание свидетельствует о слабой зависимости У от X, малое рассеивание указывает на наличие сильной зависимости.
58. Корреляционная таблица и ее числовые характеристики.

На практике в результате независимых наблюдений над величинами X и Y, как правило, имеют дело не со всей совокупностью всех возможных пар значений этих величин, а лишь с ограниченной выборкой из генеральной совокупности, причем объем n выборочной совокупности определяется как количество имеющихся в выборке пар.

Пусть величина Х в выборке принимает значения x1, x2,….xm, где количество различающихся между собой значений этой величины, причем в общем случае каждое из них в выборке может повторяться. Пусть величина Y в выборке принимает значения y1, y2,….yk, где k — количество различающихся между собой значений этой величины, причем в общем случае каждое из них в выборке также может повторяться. В этом случае данные заносят в таблицу с учетом частот встречаемости. Такую таблицу с группированными данными называют корреляционной.

Первым этапом статистической обработки результатов является составление корреляционной таблицы.

Y\X x1 x2 xm ny
y1 n12 n21 nm1 ny1
y2 n22 nm2 ny2
yk n1k n2k nmk nyk
nx nx1 nx2 nxm n

В первой строке основной части таблицы в порядке возрастания перечисляются все встречающиеся в выборке значения величины X. В первом столбце также в порядке возрастания перечисляются все встречающиеся в выборке значения величины Y. На пересечении соответствующих строк и столбцов указываются частоты nij (i=1,2,…,m; j=1,2,…,k) равные количеству появлений пары (xi;yi) в выборке. Например, частота n12 представляет собой количество появлений в выборке пары (x1;y1).

Так же nxi nij, 1≤i≤m, сумма элементов i-го столбца, nyj nij, 1≤j≤k, — сумма элементов j-ой строки и nxi= nyj=n

Аналоги формул , полученные по данным корреляционной таблицы, имеют вид:

59. Эмпирическая и теоретическая линии регрессии.

Теоретическая линия регрессии может быть рассчитана в этом случае по результатам отдельных наблюдений. Для решения системы нормальных уравнений нам потребуются те же данные: х, у, ху и хг. Мы располагаем данными об объеме производства цемента и объеме основных производственных фондов в 1958 г. Ставится задача: исследовать зависимость между объемом производства цемента ( в натуральном выражении) и объемом основных фондов.

Чем меньше теоретическая линия регрессии ( рассчитанная по уравнению) отклоняется от фактической ( эмпиричной), тем меньше средняя ошибка аппроксимации.

Процесс нахождения теоретической линии регрессии представляет собой выравнивание эмпирической линии регрессии на основе метода наименьших квадратов.

Процесс нахождения теоретической линии регрессии называется выравниванием эмпирической линии регрессии и заключается в выборе и обосновании типа; кривой и расчете параметров ее уравнения.

Эмпирическая регрессия строится по данным аналитической или комбинационной группировок и представляет собой зависимость групповых средних значений признака-результата от групповых средних значений признака-фактора. Графическим представлением эмпирической регрессии – ломаная линия, составленная из точек, абсциссами которых являются групповые средние значения признака-фактора, а ординатами – групповые средние значения признака-результата. Число точек равно числу групп в группировке.

Эмпирическая линия регрессии отражает основную тенденцию рассматриваемой зависимости. Если эмпирическая линия регрессии по своему виду приближается к прямой линии, то можно предположить наличие прямолинейной корреляционной связи между признаками. А если линия связи приближается к кривой, то это может быть связано с наличием криволинейной корреляционной связи.
60. Выборочные коэффициенты корреляции и регрессии.

Если зависимость между признаками на графике указывает на линейную корреляцию, рассчитывают коэффициент корреляцииr, который позволяет оценить тесноту связи переменных величин, а также выяснить, какая доля изменений признака обусловлена влиянием основного признака, какая – влиянием других факторов. Коэффициент варьирует в пределах от –1 до +1. Если r=0, то связь между признаками отсутствует. Равенство r=0 говорит лишь об отсутствии линейной корреляционной зависимости, но не вообще об отсутствии корреляционной, а тем более статистической зависимости. Если r = ±1, то это означает наличие полной (функциональной) связи. При этом все наблюдаемые значения располагаются на линии регрессии, которая представляет собой прямую.
Практическая значимость коэффициента корреляции определяется его величиной, возведенной в квадрат, получившая название коэффициента детерминации.
Регрессия, аппроксимируемая (приближенно описывающаяся) линейной функцией y = kX + b. Для регрессии У на X уравнение регрессии: `y x = ryx X + b; (1). Угловой коэффициент ryx прямой регрессии Y на X называется коэффициентом регрессии Y на X.

Если уравнение (1) отыскивается по выборочным данным, то оно называется выборочным уравнением регрессии. Соответственно, ryx — выборочный коэффициент регрессии Y на X, а b — выборочный свободный член уравнения. Коэффициент регрессии измеряет вариацию Y, приходящуюся на единицу вариации X. Параметры уравнения регрессии (коэффициенты ryx и b) находятся методом наименьших квадратов.
61. Оценка значимости коэффициента корреляции и тесноты корреляционной связи в генеральной совокупности

Значимость коэффициентов корреляции проверяемся по критерию Стьюдента:

где — среднеквадратическая ошибка коэффициента корреляции, которая определяется по формуле:

Если расчетное значение ( выше табличного, то можно сделать заключение о том, что величина коэффициента корреляции является значимой. Табличные значения t находят по таблице значений критериев Стьюдента. При этом учитываются количество степеней свободы (V = п — 1)и уровень доверительной вероятности (в экономических расчетах обычно 0,05 или 0,01). В нашем примере количество степеней свободы равно: п — 1 = 40 — 1 = 39. При уровне доверительной вероятности Р = 0,05; t = 2,02. Поскольку (фактическое во всех случаях выше t-табличного, связь между результативным и факторными показателями является надежной, а величина коэффициентов корреляции — значимой.

Оценка коэффициента корреляции, вычисленная по ограниченной выборке, практически всегда отличается от нуля. Но из этого еще не следует, что коэффициент корреляции генеральной совокупности также отличен от нуля. Требуется оценить значимость выборочной величины коэффициента или, в соответствии с постановкой задач проверки статистических гипотез, проверить гипотезу о равенстве нулю коэффициента корреляции. Если гипотеза Н0 о равенстве нулю коэффициента корреляции будет отвергнута, то выборочный коэффициент значим, а соответствующие величины связаны линейным соотношением. Если гипотеза Н0 будет принята, то оценка коэффициента не значима, и величины линейно не связаны друг с другом (если по физическим соображениям факторы могут быть связаны, то лучше говорить о том, что по имеющимся ЭД эта взаимосвязь не установлена). Проверка гипотезы о значимости оценки коэффициента корреляции требует знания распределения этой случайной величины. Распределение величины  ik изучено только для частного случая, когда случайные величины Uj и Uk распределены по нормальному закону.

В качестве критерия проверки нулевой гипотезы Н0 применяют случайную величину . Если модуль коэффициента корреляции относительно далек от единицы, то величина t при справедливости нулевой гипотезы распределена по закону Стьюдента с n – 2 степенями свободы. Конкурирующая гипотеза Н1 соответствует утверждению, что значение  ik не равно нулю (больше или меньше нуля). Поэтому критическая область двусторонняя.
62. Вычисление выборочного коэффициента корреляции и построение выборочного уравнения прямой линии регрессии.

Выборочный коэффициент корреляциинаходится по формуле

где — выборочные средние квадратические отклонения величин и .

Выборочный коэффициент корреляции показывает тесноту линейной связи между и : чем ближе к единице, тем сильнее линейная связь между и .

Простая линейная регрессия позволяет найти линейную зависимость между одной входной и одной выходной переменными. Для этого определяется уравнение регрессии — это модель, отражающая зависимость значений Y, зависимой величины Y от значений х, независимой переменной х и генеральной совокупности, описывается уровнением:

где А0 — свободный член уравнения регрессии;

А1 — коэффициент уравнения регрессии

Затем строится соответствующая прямая, называемая линией регрессии. Коэффициенты А0 и А1, называемые также параметрами модели, выбираются таким образом, чтобы сумма квадратов отклонений точек, соответствующих реальным наблюдениям данных, от линии регрессии, была бы минимальной. Подбор коэффициентов производится по методу наименьших квадратов. Иными словами, простая линейная регрессия описывает линейную модель, которая наилучшим образом аппроксимирует зависимость между одной входной и одной выходной переменными.

Параметры уравнения регрессии и их оценки, необходимые свойства оценок

Для нахождения параметров а и b уравнения регрессии используют метод наименьших квадратов. При применении метода наименьших квадратов для нахождения такой функции, которая наилучшим образом соответствует эмпирическим данным, считается, что сумма квадратов отклонений эмпирических точек от теоретической линии регрессии должна быть величиной минимальной.
Критерий метода наименьших квадратов можно записать таким образом:

или

Следовательно, применение метода наименьших квадратов для определения параметров a и b прямой, наиболее соответствующей эмпирическим данным, сводится к задаче на экстремум.
Относительно оценок можно сделать следующие выводы:
1. Оценки метода наименьших квадратов являются функциями выборки, что позволяет их легко рассчитывать.
2. Оценки метода наименьших квадратов являются точечными оценками теоретических коэффициентов регрессии.
3. Эмпирическая прямая регрессии обязательно проходит через точку x, y.
4. Эмпирическое уравнение регрессии построено таким образом, что сумма отклонений .
Графическое изображение эмпирической и теоретической линии связи представлено на рисунке 1.

рис. 1.
Параметр b в уравнении – это коэффициент регрессии. При наличии прямой корреляционной зависимости коэффициент регрессии имеет положительное значение, а в случае обратной зависимости коэффициент регрессии – отрицательный. Коэффициент регрессии показывает на сколько в среднем изменяется величина результативного признака «y» при изменении факторного признака «x» на единицу. Геометрически коэффициент регрессии представляет собой наклон прямой линии, изображающей уравнение корреляционной зависимости, относительно оси «x» (для уравнения ).

Наиболее часто для определения формы корреляционной связи используют уравнение прямой

yх=a0+a1х

где ух — теоретические значения результативного признака;

х — факторный признак;

а0 и а1, — параметры уравнения связи.

Уравнением связи называется уравнение регрессии, а анализ, производимый с помощью уравнения регрессии, называется регрессионным анализом.

После установления вида функции для модели связи определяются параметры уравнения регрессии а0 и а1. Параметры уравнения регрессии определяются методом наименьших квадратов, суть которого состоит в том, что теоретическая линия регрессии должна быть проведена так, чтобы сумма квадратов отклонений эмпирических данных от теоретических была величиной минимальной. Исчисляя первые производные по а0 и а1 от функции Σ(у -а0 –а1х)2 —> min и приравнивая их к нулю, получаем систему нормальных уравнений вида:

Решая систему нормальных уравнений, определяем параметры а0 и а1 :

Параметр а1 называется коэффициентом регрессии и показывает изменения результативного признака при изменении факторного признака на единицу. Параметр а0 не имеет экономического содержания, так как может принимать отрицательные значения.

Очень часто исследуемые признаки имеют разные единицы измерения, поэтому для оценки влияния факторного признака на результативный применяется коэффициент эластичности. Он вычисляется для каждой точки и в среднем для всей совокупности.

Несмещенность оценки означает, что математическое ожидание остатков равно нулю. Если оценки обладают свойством несмещенности, то их можно сравнивать по разным исследованиям.

Оценки считаются эффективными, если они характеризуются наименьшей дисперсией. В практических исследованиях это означает возможность перехода от точечного оценивания к интервальному.

Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки.

16. Понятие о методе наименьших квадратов (= в тетради и в статистике)

МЕТОД НАИМЕНЬШИХ КВАДРАТОВ — математический (математико-статистический) прием, служащий для выравнивания динамических рядов, выявления формы корреляционной связи между случайными величинами и др. Состоит в том, что функция, описывающая данное явление, аппроксимируется более простой функцией. Причем последняя подбирается с таким расчетом, чтобы среднеквадратичное отклонение фактических уровней функции в наблюдаемых точках от выровненных было наименьшим.

Напр., по имеющимся данным (xi,yi) (i = 1, 2, …, n) строится такая кривая y = a +bx, на которой достигается минимум суммы квадратов отклонений

т.

е. минимизируется функция, зависящая от двух параметров: a — отрезок на оси ординат и b — наклон прямой.

Уравнения, дающие необходимые условия минимизации функции S(a,b), называются нормальными уравнениями.

В качестве аппроксимирующих функций применяются не только линейная (выравнивание по прямой линии), но и квадратическая, параболическая, экспоненциальная и др.

Метод наименьших квадратов(МНК, англ. Ordinary Least Squares, OLS) является одним из основных методов определения параметров регрессионных уравнений, Он заключается в том, чтобы определить вид кривой, характер которой в наибольшей степени соответствует выраженной эмпирическими данными зависимости. Такая кривая должна обеспечить наименьшее значение суммы квадратов отклонений эмпирических значений величин показателя от значений, вычисленных согласно уравнению этой кривой. Меняя вид теоретических кривых, приближенно отображающих динамику рассматриваемого показателя, пытаются добиться как можно меньшего значения этой разности.

Сущность обоснования Н. к. м. (по Гауссу) заключается в допущении, что «убыток» от замены точного (неизвестного) значения физической величины и её приближённым значением X, вычисленным по результатам наблюдений, пропорционален квадрату ошибки: (X — μ)2. В этих условиях оптимальной оценкой естественно признать такую лишённую систематической ошибки величину X, для которой среднее значение «убытка» минимально. Именно это требование и составляет основу Н. к. м. В общем случае отыскание оптимальной в смысле Н. к. м. оценки Х — задача весьма сложная, поэтому практически эту задачу сужают и в качестве Х выбирают линейную функцию от результатов наблюдений, лишённую систематической ошибки, и такую, для которой среднее значение «убытка» минимально в классе всех линейных функций. Если случайные ошибки наблюдений подчиняются нормальному распределению (См. Нормальное распределение) и оцениваемая величина μ зависит от средних значений результатов наблюдений линейно (случай, весьма часто встречающийся в приложениях Н. к. м.), то решение этой задачи будет одновременно являться и решением общей задачи. При этом оптимальная оценка Х также подчиняется нормальному распределению со средним значением μ и, следовательно, плотность вероятности случайной величины Х

при х = Х достигает максимума в точке μ = Х (это свойство и выражает точное содержание распространённого в теории ошибок утверждения «оценка X, вычисленная согласно Н. к. м., — наиболее вероятное значение неизвестного параметра μ»).

УРАВНЕНИЕ РЕГРЕССИИ, ОПРЕДЕЛЕНИЕ ЕГО ПАРАМЕТРОВ

Уравнение регрессии — это уравнение, описывающее корреляционную зависимость между признаком-результатом Y и признаками факторами (одним или несколькими).

Наиболее часто для описания статистической связи признаков используется линейное уравнение регрессии. Внимание к линейной форме связи объясняется четкой экономической интерпретацией параметров линейного уравнения регрессии, ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчетов преобразуют (путем логарифмирования или замены переменных) в линейную форму.

Линейное парное уравнение регрессии имеет вид

, где n —объем совокупности (число наблюдений).

Оценки параметров линейной регрессии (а и b) могут быть найдены разными методами. Наиболее распространенным является метод наименьших квадратов (МНК).

МНК позволяет получить такие оценки параметров а и b, при которых сумма квадратов отклонений фактических значений результативного признака — Y от расчетных (теоретических) значений — (рассчитанных по уравнению регрессии) минимальна:

В случае линейной парной зависимости:

Значения Y и Y i=1, п нам известны, это данные наблюдений. В функции S они представляют собой константы. Переменными в данной функции являются искомые оценки параметров — а и b. Чтобы найти минимум функции двух переменных, необходимо вычислить частные производные данной функции по каждому из параметров и приравнять их к нулю, т.е.

В результате получим систему из двух нормальных линейных уравнений:

Решая данную систему, найдем искомые оценки параметров:

Правильность расчета параметров уравнения регрессии может быть проверена сравнением сумм (возможно некоторое расхождение из-за округления расчетов).

Параметр b может быть рассчитан также через коэффициент корреляции:

Знак коэффициента регрессии b указывает направление связи (если b > О, то связь прямая, если b < О, то связь обратная). Величина b показывает, на сколько единиц изменится в среднем признак-результат Y при изменении признака-фактора X на 1 единицу своего измерения.

Формально значение параметра а — среднее значение признака-результата Y при значении признака-фактора Х равном нулю. Если признак-фактор не имеет и не может иметь нулевого значения, то вышеуказанная трактовка параметра а не имеет смысла.

Дата добавления: 2016-06-18; просмотров: 3412;

Регрессионные модели

Моделирование процессов

Для исследования вида и формы зависимостей вида Y(X) широко применяется регрессионный анализ, который является методическим инструментарием при решении разнообразных задач управления (прогнозирования, планирования, анализа результатов и т.д.). В большинстве случаев функция Y или аргумент X — случайные ве­личины, подверженные действию многочисленных факторов. Если на случайную величину X действуют факторы Z1,Z2,…,V1,V2,…, а на Y дейст­вуют Z0,Z1, V1, V3,…, то наличие двух общих факторов Z2 и V1 позволяет говорить об определенной зависимости (регрессии) между X и Y.

Различают следующие виды регрессий:

1. Регрессия относительно числа переменных:

· простая регрессия — регрессия между двумя переменными;

· множественная регрессия между зависимой переменной y и несколькими объясняющими переменными x1,x2,…,xm. В общем случае множественная регрессия (модель) имеет вид:

y=a0+a1∙x1+a2∙x2+…+am∙xm,

где:y — функция регрессии;

x1,x2,…,xm — независимые переменные;

a1, a2,…,am — коэффициенты регрессии;

a0 — свободный член уравнения;

m — число факторов, включенных в модель.

2. Регрессия относительно формы зависимостей:

· линейная регрессия — выражаемая линейной функцией;

· нелинейная регрессия — выражаемая нелинейной функцией.

3. В зависимости от характера регрессии различают:

· положительную регрессию.

Она имеет место, если с увеличе­нием (уменьшением) объясняющей переменной значения за­висимой переменной также соответственно увеличиваются (уменьшаются);

· отрицательную регрессию. В этом случае с увеличением или уменьшением объясняющей переменной зависимая перемен­ная уменьшается или увеличивается.

4. Относительно типа явлений различают:

· непосредственную регрессию — когда зависимая и объясняю­щая переменные непосредственно связаны друг с другом;

· ложную регрессию. Она возникает при формальном подходе к исследуемым явлениям без уяснения того, какие причины обусловливают данную связь.

Регрессия тесно связана с корреляцией, однако, если в корреляци­онном анализе оценивается сила связи, то в регрессионном — форма связи.

Задачами регрессионного анализа являются:

· установление формы зависимости (линейная, нелинейная, по­ложительная, отрицательная);

· определение функции регрессии;

· определение влияния на функцию регрессии отдельных фак­торов;

· решение задач экстраполяции и интерполяции (определение значений функций в неисследованных участках, например, — при решении задач прогнозирования).

Рассмотрим простейший вариант регрессии — линейной регрессии.

Линейная регрессия. Пусть задана система случайных величин X и Y и они зависимы. Представим одну из случайных величин Y как линейную функцию другой случайной величины X:

Y=y*(x) =α+β∙x, (3.1)

где α,β- параметры регрессии, которые подлежат определению. В общем случае эти параметры могут быть определены различными способами, например,методом наименьших квадратов (МНК).

Функцию g(x) называют наилучшим приближением, если математи­ческое ожидание квадрата разности M2 принимает наименьшее возможное значение. Для отыскания такой функции (называемой «средней квадратической регрессией Y на X»), помимо инструментария МНК, необходим двумерный массив данных — с координатами точек, полученным в ходе наблюдений: (x1,y1),(x2,y2),…,(xn,yn). Тогда постав­ленная задача сводится к задаче оптимальной аппроксимации «облака» точек кривой (3.1). Данная ситуация представлена на рис. 3.1.

Рис. 3.1. Схема отыскания линейной регрессии

Добавить комментарий

Закрыть меню