Тема 5. Парная линейная регрессия

5. 1. Точечные оценки коэффициентов регрессии

В некотором эксперименте измерены значения пары случайных величин y и x

(x1, y1), (x2, y2), …(xn, yn).

Без ограничения общности можно считать, что величина x измерена точно, в то время как измерение величины y содержит случайные погрешности.

Это означает, что погрешность измерения величины x пренебрежимо мала по сравнению с погрешностью измерения величины y. Таким образом, результаты эксперимента можно рассматривать как выборочные значения случайной величины h(x), зависящей от x  как от параметра.

Пусть требуется построить зависимость y(x).

 Регрессией называют зависимость условного математического ожидания величины h(x)  от x:

.

Задача регрессионного анализа состоит в восстановлении функциональной зависимости y(x) по результатам измерений {(xi,yi)}, i = 1, 2, …, n.

Аппроксимируем искомую зависимость y(x) функцией f(x; a0, a1, …, ak).

Это означает, что результаты измерений можно представить в виде

,

где a0, a1, …, ak — неизвестные параметры регрессии, а ei — случайные величины, характеризующие погрешности эксперимента.

Обычно предполагается, что ei — это независимые нормально распределенные случайные величины с M(ei) = 0  и одинаковыми дисперсиями D(ei) = s2.

Параметры a0, a1, …, ak следует выбирать таким образом, чтобы отклонение значений предложенной функции от результатов эксперимента было минимальным. В качестве меры отклонения выберем величину

,

— параметры a0, a1, …, ak определим методом наименьших квадратов.

Рассмотрим простейший случай линейной регрессии.

Пусть выдвинута гипотеза о том, что функция f(x; a0, a1, …, ak) имеет вид

f(x; a, b)= ax + b.

Оценки параметров a и b находим из необходимого условия минимума функции  :

приравняв нулю частные производные функции ,

,

получаем точечные оценки параметров (коэффициентов) регрессииa и b:

, .

Здесь использованы принятые для точечных оценок обозначения .

Примеры

Пример 1

Пример 1. В таблице приведены некоторые экспериментальные данные:

x

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

y

1.156

1.382

1.553

1.705

1.831

2.204

2.388

2.656

x

0.9

1.0

1.1

1.2

1.3

1.4

1.5

 

y

3.019

3.081

3.299

3.486

3.692

3.867

3.896

 

Будем искать зависимость y(x) в виде линейной функции  y (x)= ax + b — найдём точечные оценки параметров (коэффициентов регрессии) a и b.

В Excel точечные оценки коэффициентов регрессии a и b можно вычислить одним из трёх способов: вычислением по формуле, использованием функции ЛИНЕЙН (возвращает значения a и b, вычисленные методом наименьших квадратов), используя процедуру «Регрессия» пакета «Анализ данных».

Первый способ — вычисление точечных оценок по формулам . Ниже приведено изображение фрагмента листа Excel с решением задачи.

Получили a = 2.10,  b  = 0.93 и, следовательно, искомая линия регрессии

y = ax + b  = 2.10x + 0.93.

Второй способ — использование функции ЛИНЕЙН (возвращает значения a и b, вычисленные методом наименьших квадратов).

Этот способ требует аккуратного выполнения правил работы с функцией ЛИНЕЙН.

Ниже приведено изображение фрагмента листа Excel с решением задачи.

Получили a = 2.10,  b  = 0.93 и, следовательно, искомая линия регрессии

y = ax + b  = 2.10x + 0.93.

Третий способ — использование процедуры «Регрессия» пакета «Анализ данных» обсудим позже, поскольку эта процедура автоматически вычисляет статистические свойства точечных оценок коэффициентов регрессии и характеристики качества модели, которые  обсуждаются разделе «Доверительные интервалы коэффициентов регрессии».

Пример 2

Пример 2.

Управляющий сетью магазинов планирует открыть несколько новых магазинов. Он полагает, что объёмы продаж напрямую зависит от величин торговых площадей. Ваша задача разработать статистическую модель, позволяющую прогнозировать объёмы продаж в зависимости от величины торговых площадей новых магазинов.

Вы располагаете данными (данные приведены в таблице, площадь указана в сотнях квадратных метров, объём годовых продаж — в млн. рублей) о размере годовых продаж четырнадцати магазинов и знаете величины торговых площадей этих магазинов.

 

Номер магазина

1

2

3

4

5

6

7

8

9

10

11

12

13

14

Площадь

1.7

1.6

2.8

5.6

1.3

2.2

1.3

1.1

3.2

1.5

5.2

4.6

5.8

2.3

Объём продаж

3.7

3.9

6.7

9.5

3.4

5.6

3.7

2.7

5.5

2.9

10.7

7.6

11.8

4.1

 

Ниже приведено изображение фрагмента листа Excel с решением задачи.

Получили

Объём годовых продаж = 1.69* (размеры торговых площадей) + 1, объёмы продаж измерены в миллионах рублей,  размеры торговых площадей — в сотнях квадратных метров,

 или: y =  1.69x + 1.00, где  yобъёмы продаж в миллионах рублей,  xразмеры торговых площадей — в сотнях квадратных метров.

Хостинг от uCoz