Тема 4. Корреляционный анализ

Корреляционный анализ. Обсуждение

Предмет корреляционного анализа – выявление стохастических зависимостей между случайными величинами.

В практических задачах достаточно часто встречаются объекты, изменчивость поведения  (характеристик) которых происходит под влиянием  не одной, а нескольких случайных причин (признаков). Например, в социологии объектом изучения часто является человек-гражданин, в менеджменте – человек-клиент и т.п. Поведение случайного человека часто определяется такими признаками, как пол, возраст, образование, место рождения, вес, рост, уровень доходов, политические пристрастия  и т.п.

Вопрос состоит в том, можно ли судить о величине одного признака, по величине другого, или их проявления совершенно независимы.

Мы ограничимся здесь анализом признаков, которые можно «измерить», так называемых количественных признаков. Например, наверняка  как-то связаны рост и вес человека. И несмотря на то, что мы встречаем низкорослых толстяков и худощавых великанов, здравый смысл говорит о том, что по росту человека можно высказывать какое-то суждение о его росте. Т.е. эти признаки как-то связаны.

Умение распознать и измерить такую связь чрезвычайно важно для практических задач. Если, например, установлено, что вес и рост человека связаны, зависимы, то при планировании закупок в магазинах одежды можно учитывать эту связь, формируя ассортимент по размерам и ростам.

Следовательно, наша задача – определить, что собственно следует понимать под зависимостью признаков, и, что самое важное пожалуй,  научиться эту зависимость измерять (вычислять). Речь здесь ни в коем случае не идёт о функциональной зависимости. Мы не говорим: «вес зависит от роста», мы говорим «они связаны», мы не говорим «по росту вычислим вес», мы говорим «по росту можно высказать суждение о весе», а ещё лучше, «по изменению роста мы можем судить об изменении веса». А поскольку рост и вес человека, как известно, являются случайными величинами, то речь здесь может идти о статистической, стохастической  связи, статистической зависимости.

Таким образом, наша первоочередная задача: перенести понятие зависимости и независимости на случайные величины.

Естественно вводить понятия зависимости и независимости случайных величин через понятия зависимости и независимости случайных событий.

Ограничимся здесь парой случайных величин. Для множества (более чем двух) признаков конструкция более сложная и требует более громоздких выкладок.

Возьмём произвольное числовое множество  и свяжем с ним событие . Это событие состоит в том, что случайная величина  приняла значение из числового множества . Например,  – число очков при случайном бросании кости,  – множество чисел, больших 4.5. Тогда событие  состоит из двух элементарных событий  (выпало 5, ) и  (выпало 65, ),  .

Теперь понятие зависимости и независимости случайных величин естественно «вырастает» из зависимости и независимости случайных событий.

 Две случайные величины  и  называются независимыми,  если для любых двух числовых множеств  и  события  и  независимы, т.е. если .

Если же хотя бы для одной какой-то пары числовых множеств ,

то случайные величины  и –  зависимы.

Такое определение наглядно, но не конструктивно – не поверишь равенство вероятностей для всех мыслимых пар числовых множеств.

Но к счастью, в теории вероятностей доказано, что если случайные величины  и  независимы, то их совместная функция распределения  представима в виде

, где ,  – функции распределения соответственно  и .

Верно и обратное: если , то – совместная функция распределения двух независимых случайных величин.

Для системы двух независимых случайных величин справедливы соотношения  и .

В общем случае .

Новая в этом тексте величина  называется ковариацией случайных величин  и , она вычисляется по формуле .

Отличие этой величины от нуля указывает на зависимость  и . Отсюда естественное желание выбрать ковариацию в качестве инструмента измерения тесноты, «силы», зависимости между  и . Однако, простые соображения уберегают нас от такого соблазна, поскольку  – размерный параметр. Если, например,  и  измеряются в метрах, то в метрах же измеряются  и ,  и уже в квадратных метрах измеряется . При переходе к сантиметрам величина возрастёт в 10 000 раз. А это означает, что по величине  нельзя судить о тесноте связи между  и .

В современной теории вероятностей и математической статистике для измерения тесноты связи используют безразмерный коэффициент корреляции

.

Можно доказать, что .

Доказано, что если , то стохастическая, случайная связь между  и превращается в функциональную.

Если , то случайные величины  и связаны линейной зависимостью ,

а при  – зависимостью .

Таким образом, чем ближе значение коэффициента корреляции по абсолютной величине к единице, тем больше, теснее, «сильнее» статистическая связь между случайными величинами, тем больше она похожа на линейную связь.

Теперь нам предстоит научиться оценивать коэффициент корреляции по выборке и, поскольку его оценка – случайная величина, изучить статистические свойства этой случайной величины.

Хостинг от uCoz