Тема 5. Парная линейная регрессия

5. 2. Доверительные интервалы для коэффициентов регрессии

В некотором эксперименте измерены значения пары случайных величин y и x

(x1, y1), (x2, y2), …(xn, yn).

Без ограничения общности можно считать, что величина x измерена точно, в то время как измерение величины y содержит случайные погрешности. Это означает, что погрешность измерения величины x пренебрежимо мала по сравнению с погрешностью измерения величины y. Таким образом, результаты эксперимента можно рассматривать как выборочные значения случайной величины h(x), зависящей от x  как от параметра.

Пусть требуется построить зависимость y(x).

 Регрессией называют зависимость условного математического ожидания величины h(x)  от x:

.

Задача регрессионного анализа состоит в восстановлении по результатам измерений {(xi,yi)}, i = 1, 2, …, n  функциональной зависимости y(x).

Аппроксимируем искомую зависимость y(x) функцией f(x; a0, a1, …, ak).

Это означает, что результаты измерений можно представить в виде

,

где a0, a1, …, ak — неизвестные параметры регрессии, а ei — случайные величины, характеризующие погрешности эксперимента.

Обычно предполагается, что ei — это независимые нормально распределенные случайные величины с M(ei) = 0  и одинаковыми дисперсиями D(ei) = s2.

В случае простейшей линейной регрессии выдвигается  гипотеза о том, что функция f(x; a0, a1, …, ak) зависит от двух параметров и имеет вид  , .

Точечные оценки параметров регрессии известны, они вычисляются по формулам

, .

M(ei) = 0,   D(ei) = sобычно неизвестна, её оценку s2 можно получить, например, методом максимального правдоподобия:

.

 

Оценки  — несмещенные состоятельные оценки параметров регрессии .

Важно понимать, что точечные оценки — случайные величины, о которых известно, что они распределены нормально с  математическими ожиданиями  и дисперсиями .

 

Используя информацию о статистических свойствах оценок , можно построить доверительные интервалы для оцениваемых параметров  s2, a, b.

Доверительный интервал для  константы b

Если дисперсия s2 известна, то случайная величина

 имеет стандартное нормальное распределение и доверительный интервал

 

накрывает неизвестный параметр b с вероятностью 1– a. Здесь критическая точка xa  — решение уравнения , где — функция Лапласа.

Если дисперсия sнеизвестна, то используем её оценку , в качестве критерия можно взять величину

,

 

она имеет распределение Стьюдента с (n – 2) степенями свободы и доверительный интервал

 

накрывает неизвестный параметр b с вероятностью 1– a.

Здесь критическая точка tn- 2, a  — корень уравнения , Fn-2(tn- 2, a )— функция распределения Стьюдента с (n – 2) степенями свободы. Величину  —  стандартную ошибку регрессии, вычисляют по формуле :

.

Для того чтобы найти границы доверительного интервала, задаём малое значение a,

находим соответствующую критическую точку, затем вычисляем точечную оценку параметра b и  наконец — границы соответствующего доверительного интервала.

 

Доверительный интервал для  наклона a

Если дисперсия s2 известна, то случайная величина

 

имеет стандартное нормальное распределение.

Если a — доверительная вероятность, и критическая точка xa  — решение уравнения

, где Φ(x) — функция Лапласа, то доверительный интервал

 

накрывает оцениваемый параметр a с вероятностью 1– a.

 

Если же дисперсия неизвестна, то в качестве критерия можно взять величину

,

 

она имеет распределение Стьюдента с (n – 2)  степенями свободы и поэтому интервал

 

накрывает оцениваемый параметр a с доверительной вероятностью 1– a.

Здесь  критическая точка tn- 2, a — корень уравнения , где F(tn- 2, a) — функция распределения Стьюдента с (n – 2) степенями свободы.

Для того чтобы найти границы доверительного интервала, задаём малое значение a,

находим соответствующую критическую точку, затем вычисляем точечную оценку параметра a и  наконец — границы доверительного интервала.

 

Доверительный интервал для  дисперсии

Интервал  накрывает неизвестную дисперсию  s2 с доверительной вероятностью 1– a.

Здесь критические точки  и  — решения уравнений   и , где Fn-2(x)— функция распределения  с (n – 2) степенями свободы.

Для того чтобы найти границы доверительного интервала, задаём малое значение a, находим критические точки, затем вычисляем точечную оценку параметра  и  наконец — границы соответствующего доверительного интервала.

Внимание!

Функция Excel СТЬЮДРАСПОБР(p, k)  возвращает значение t, при котором P(|x| > t) = p, xзначение случайной величины, имеющей распределение Стьюдента с k  степенями свободы. Поэтому решение уравнения  в Excel возвращает функция СТЬЮДРАСПОБР(a/2, n – 2). 

В Excel функция распределения случайной величины определена нестандартно: Fx(x) = P(x >x). Поэтому решение уравнения  возвращает  функция ХИ2ОБР(1–a/2, n – 2) , а решение уравнения  — ХИ2ОБР(a/2, n – 2).

 

Пример 1

Пример 1. В таблице приведены некоторые экспериментальные данные:

x

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

y

1.156

1.382

1.553

1.705

1.831

2.204

2.388

2.656

x

0.9

1.0

1.1

1.2

1.3

1.4

1.5

 

y

3.019

3.081

3.299

3.486

3.692

3.867

3.896

 

 

Требуется найти доверительные интервалы параметров a и b регрессии y (x)= ax + b  и доверительный интервал для дисперсии s2.

В Excel доверительные интервалы параметров регрессии a и b можно вычислить двумя способами: вычислением по формуле или с помощью процедуры «Регрессия» пакета «Анализ данных».

Первый способ — вычисление доверительных интервалов  по формулам.

Внимание!

Функция Excel СТЬЮДРАСПОБР(p, k)  возвращает значение t, при котором P(|x| > t) = p, xзначение случайной величины, имеющей распределение Стьюдента с k  степенями свободы. Поэтому решение уравнения  в Excel возвращает функция СТЬЮДРАСПОБР(a/2, n – 2). 

В Excel функция распределения случайной величины определена нестандартно: Fx(x) = P(x >x). Поэтому решение уравнения  возвращает  функция ХИ2ОБР(1–a/2, n – 2) , а решение уравнения  — ХИ2ОБР(a/2, n – 2).

 

. Ниже приведено изображение фрагмента листа Excel с решением задачи.

Получили: с доверительной вероятностью 0.95 интервал (1.96, 2.24) накрывает значение параметра регрессии a;

                   с доверительной вероятностью 0.95 интервал (0.81, 1.06) накрывает значение параметра регрессии b;

                   с доверительной вероятностью 0.95 интервал (0.045, 0.0223) накрывает значение дисперсии s2.

Второй способ — вычисление доверительных интервалов  с помощью процедуры «Регрессия» пакета «Анализ данных».

Ниже приведено изображение фрагмента листа Excel с решением задачи.

Получили: с доверительной вероятностью 0.95 интервал (1.977, 2.216) накрывает значение параметра регрессии a;

                   с доверительной вероятностью 0.95 интервал (0.828, 1.046) накрывает значение параметра регрессии b.

Пример 2

Пример 2. Управляющий сетью магазинов планирует открыть несколько новых магазинов. Он полагает, что объёмы продаж напрямую зависит от величин торговых площадей. Ваша задача разработать статистическую модель, позволяющую прогнозировать объёмы продаж в зависимости от величины торговых площадей новых магазинов.

Вы располагаете данными (данные приведены в таблице, площадь указана в сотнях квадратных метров, объём годовых продаж — в млн. рублей) о размере годовых продаж четырнадцати магазинов и знаете величины торговых площадей этих магазинов.

 

Номер магазина

1

2

3

4

5

6

7

8

9

10

11

12

13

14

Площадь

1.7

1.6

2.8

5.6

1.3

2.2

1.3

1.1

3.2

1.5

5.2

4.6

5.8

2.3

Объём продаж

3.7

3.9

6.7

9.5

3.4

5.6

3.7

2.7

5.5

2.9

10.7

7.6

11.8

4.1

 

Ниже приведено изображение фрагмента листа Excel с решением задачи.

 

 

Получили: с доверительной вероятностью 0.8 интервал (1.5, 1.9) накрывает значение параметра регрессии a.

Это означает, что с вероятностью 0.8 можно утверждать: при увеличении торговых площадей на 100 м2  объём продаж возрастёт не менее чем на 1.5 и не более чем на 1.9 миллионов рублей.

Хостинг от uCoz