Тема 5. Парная линейная регрессия

5. 0. Парная линейная регрессия. Обсуждение

Предмет регрессионного анализа – построение функциональных зависимостей между двумя группами числовых переменных.

Пусть требуется найти зависимость , причем величины y и x измеряются в одних и тех же экспериментах. Без ограничения общности можно считать, что величина x измеряется точно, в то время как измерение величины y  содержит случайные погрешности.

Это означает, что погрешность измерения величины x пренебрежимо мала по сравнению с погрешностью измерения величины y. Таким образом, результаты эксперимента можно рассматривать как выборочные значения случайной величины , зависящей от x как от параметра.

Переменную x называют фактором, регрессором, объясняющей переменной, переменную y — откликом, предиктором, объясняемой переменной.

Регрессией называют зависимость условного математического ожидания величины  от :

.

Задача регрессионного анализа состоит в восстановлении функциональной зависимости  по результатам измерений, i =1, 2, …, n.

Аппроксимируем искомую зависимость  функцией  f(x; a0, a1, …, ak).

Это означает, что результаты измерений можно представить в виде

yi = f(xi; a0, a1, …, ak) + ei,

где a0, a1, …, ak  — неизвестные параметры регрессии, а ei — случайные величины, характеризующие погрешности эксперимента.

Обычно предполагается, что ei —  независимые нормально распределенные случайные величины с M(ei) = 0 и одинаковыми дисперсиями D(ei) = s2.

Первый шаг в решении задачи — предположение о виде функциональной связи yi = f(x; a0, a1, …, ak).

Иногда вид функциональной зависимости известен из теоретических предположений.

Иногда — поможет график разброса (график, на котором изображены точки с координатами , i =1, 2, …, n).

Следующий шаг — оценка параметров a0, a1, …, ak .

 Параметры a0, a1, …, ak  следует выбирать таким образом, чтобы отклонение значений предложенной функции от результатов эксперимента было минимальным.

Часто в качестве меры отклонения выбирают сумму квадратов отклонений — величину

.

Такой метод построения оценок называют методом наименьших квадратов.

После того как оценка параметров модели получена, подобрана регрессионная модель, следует оценить качество модели, понять насколько хорошо модель описывает имеющиеся данные.

Для оценки качества модели чаще всего используют некоторые численные характеристики модели:

доверительные интервалы для параметров a0, a1, …, ak,          

коэффициент детерминации R2.

Другой способ оценки качества модели — анализ остатков.

Остатками называют случайные величины .

Остатки — независимые, нормально распределенные случайные величины с нулевым математическим ожиданием и одинаковыми дисперсиями

M(ei) = 0 и D(ei) = s2.

Происхождение термина регрессия

Создатели корреляционного анализа  Ф. Гальтон и К. Пирсон исследовали связь между ростом отцов и их сыновей.

Изучив более  200 семей,  Гальтон обнаружил,что в группе семей с высокорослыми отцами сыновья в среднем ниже ростом,чем их отцы,а в группе семей с низкорослыми отцами наоборот — сыновья в среднем выше отцов. В следующем поколении отклонение роста сыновей от среднего уменьшается регрессирует.

 

Примеры

Пример 1

Восстановить функциональную зависимость  по приведенным в таблице результатам измерений , i =1, 2, …, n.

x

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

y

1.156

1.382

1.553

1.705

1.831

2.204

2.388

2.656

x

0.9

1.0

1.1

1.2

1.3

1.4

1.5

 

y

3.019

3.081

3.299

3.486

3.692

3.867

3.896

 

Ниже приведен фрагмент листа Excel, содержащий решение задачи.

Пример 2

Управляющий сетью магазинов планирует открыть несколько новых магазинов. Он полагает, что объёмы продаж напрямую зависит от величин торговых площадей. Вы располагаете данными о размере годовых продаж десяти магазинов и знаете величины торговых площадей этих магазинов (данные приведены в таблице).

Ваша задача разработать статистическую модель, позволяющую прогнозировать объёмы продаж в зависимости от величины торговых площадей новых магазинов.

Номер магазина

1

2

3

4

5

6

7

8

9

10

Площадь (м2)

170

160

280

560

130

220

130

110

320

170

Объём продаж

(млн. рублей)

370

390

670

950

340

560

370

270

550

290

Ниже приведен фрагмент листа Excel, содержащий решение задачи.

Хостинг от uCoz