Тема 4. Корреляционный анализ

Парная корреляция

Для измерения тесноты статистической связи между случайными величинами  и  введён коэффициент корреляции , который можно вычислить, если известна функция распределения системы из двух случайных величин (совместная функция распределения).

Поскольку на практике истинная совместная функция корреляции неизвестна, задача состоит не в вычислении, а в получении оценки коэффициента корреляции по результатам эксперимента, по выборке.

Получив оценку,  следует ответить на вопрос «значимо ли оцененный коэффициент корреляции отличен от нуля», и если это отличие значимо, то для формулировки содержательного и точного утверждения о присутствии или отсутствии статистической связи между случайными величинами, следует построить доверительный интервал для коэффициента корреляции.

Итак, для исследования тесноты стохастической связи случайных величин  и  в нашем распоряжении выборка значений случайных величин, полученная в серии из  одинаковых экспериментов:

Номер эксперимента

Значения

Значения

1

2

 

Выборочный коэффициент корреляции (точечная оценка коэффициента корреляции) вычисляется по формуле

,

где, как обычно, ,  – выборочные средние, ,  – стандартные отклонения, квадратные корни из выборочных дисперсий.

Когда оценка  получена, проверяем значимость коэффициента корреляции.

Формулируем нулевую гипотезу  против альтернативы .

Если известно, что двумерный вектор , система случайных величин  и , распределён по двумерному нормальному закону, то критерием для проверки гипотезы служит «агрегат»

.

Этот «агрегат», эта случайная величина,  в предположении о справедливости нулевой гипотезы, имеет распределение Стьюдента с -мя степенями свободы.

Зададимся уровнем значимости   и вычислим критическую точку , решение уравнения .

Если , то событие   представляется вполне возможным, с уровнем значимости  не отвергаем гипотезу  о нулевом значении коэффициента корреляции. Коэффициент корреляции полагаем незначимым. Полагаем, что никакой статистической связи между случайными величинами  и  нет.

Если же , то событие   маловероятно, отвергаем с уровнем значимости  гипотезу  о нулевом значении коэффициента корреляции, принимаем альтернативу, . Коэффициент корреляции полагаем значимым. Допускаем существование статистической связи между случайными величинами  и . Переходим к построению доверительного интервала для коэффициента корреляции.

Воспользуемся методикой Фишера. Он показал, что при  величина

распределена практически нормально с математическим ожиданием  и дисперсией .

Тогда, если , доверительная вероятность, а точки  – границы критической двусторонней области для стандартного нормального распределения, то доверительный интервал для случайной величины  записывается в виде , обозначим его .

Отсюда, выполнив несложные алгебраические вычисления (решив систему неравенств), получим доверительный интервал для коэффициента корреляции :

,

где  решения уравнений , ,   – тангенс гиперболический.

И тогда можно утверждать, что с доверительной вероятностью  интервал  накрывает истинное значение коэффициента корреляции .

По величине значений границ этого интервала мы сможем формулировать утверждения относительно тесноты статистической связи между случайными величинами  и .  О том, что эта связь существует, мы утверждаем на основании проверенной нами значимости коэффициента корреляции.

Замечание. Исторически так сложилось, что гиперболические функции были не «в почете» у представителей гуманитарных наук и Фишер дал своё имя функции , которая есть не что иное, как обычный  гиперболический арктангенс (ареатангенс). Компьютеров тогда не было и для практической работы были составлены таблицы функции Фишера и обратной. Разработчики Excel, следуя традиции, включили в число функций пакета одинаковые функции под разными именами, т.е. есть одинаковые функции ATANH и ФИШЕР, а также одинаковые функции TANH и ФИШЕРОБР

Пример 1

Пример 1.Исследовать тесноту статистической связи между случайными величинами  и , представленными выборочными значениями

37

39

33

40

15

35

36

48

26

53

24

42

15

54

33

54

44

50

34

53

63

46

8

50

44

43

43

55

31

51

На приведенном ниже рисунке изображён фрагмент листа Excel с вычислениями.

Пример 2

Пример 2.Исследовать тесноту статистической связи между случайными величинами  и , представленными выборочными значениями

39

26

40

33

35

24

48

29

53

42

42

24

54

52

54

56

50

26

53

45

46

27

50

54

43

34

55

48

51

45

На приведенном ниже рисунке изображён фрагмент листа Excel с вычислениями.

 

Хостинг от uCoz