Корреляционный анализ. Обсуждение
Предмет корреляционного анализа – выявление стохастических зависимостей между случайными величинами.
В практических задачах достаточно часто встречаются объекты, изменчивость поведения (характеристик) которых происходит под влиянием не одной, а нескольких случайных причин (признаков). Например, в социологии объектом изучения часто является человек-гражданин, в менеджменте – человек-клиент и т.п. Поведение случайного человека часто определяется такими признаками, как пол, возраст, образование, место рождения, вес, рост, уровень доходов, политические пристрастия и т.п.
Вопрос состоит в том, можно ли судить о величине одного признака, по величине другого, или их проявления совершенно независимы.
Мы ограничимся здесь анализом признаков, которые можно «измерить», так называемых количественных признаков. Например, наверняка как-то связаны рост и вес человека. И несмотря на то, что мы встречаем низкорослых толстяков и худощавых великанов, здравый смысл говорит о том, что по росту человека можно высказывать какое-то суждение о его росте. Т.е. эти признаки как-то связаны.
Умение распознать и измерить такую связь чрезвычайно важно для практических задач. Если, например, установлено, что вес и рост человека связаны, зависимы, то при планировании закупок в магазинах одежды можно учитывать эту связь, формируя ассортимент по размерам и ростам.
Следовательно, наша задача – определить, что собственно следует понимать под зависимостью признаков, и, что самое важное пожалуй, научиться эту зависимость измерять (вычислять). Речь здесь ни в коем случае не идёт о функциональной зависимости. Мы не говорим: «вес зависит от роста», мы говорим «они связаны», мы не говорим «по росту вычислим вес», мы говорим «по росту можно высказать суждение о весе», а ещё лучше, «по изменению роста мы можем судить об изменении веса». А поскольку рост и вес человека, как известно, являются случайными величинами, то речь здесь может идти о статистической, стохастической связи, статистической зависимости.
Таким образом, наша первоочередная задача: перенести понятие зависимости и независимости на случайные величины.
Естественно вводить понятия зависимости и независимости случайных величин через понятия зависимости и независимости случайных событий.
Ограничимся здесь парой случайных величин. Для множества (более чем двух) признаков конструкция более сложная и требует более громоздких выкладок.
Возьмём произвольное числовое множество и свяжем с ним событие . Это событие состоит в том, что случайная величина приняла значение из числового множества . Например, – число очков при случайном бросании кости, – множество чисел, больших 4.5. Тогда событие состоит из двух элементарных событий (выпало 5, ) и (выпало 65, ), .
Теперь понятие зависимости и независимости случайных величин естественно «вырастает» из зависимости и независимости случайных событий.
Две случайные величины и называются независимыми, если для любых двух числовых множеств и события и независимы, т.е. если .
Если же хотя бы для одной какой-то пары числовых множеств ,
то случайные величины и – зависимы.
Такое определение наглядно, но не конструктивно – не поверишь равенство вероятностей для всех мыслимых пар числовых множеств.
Но к счастью, в теории вероятностей доказано, что если случайные величины и независимы, то их совместная функция распределения представима в виде
, где , – функции распределения соответственно и .
Верно и обратное: если , то – совместная функция распределения двух независимых случайных величин.
Для системы двух независимых случайных величин справедливы соотношения и .
В общем случае .
Новая в этом тексте величина называется ковариацией случайных величин и , она вычисляется по формуле .
Отличие этой величины от нуля указывает на зависимость и . Отсюда естественное желание выбрать ковариацию в качестве инструмента измерения тесноты, «силы», зависимости между и . Однако, простые соображения уберегают нас от такого соблазна, поскольку – размерный параметр. Если, например, и измеряются в метрах, то в метрах же измеряются и , и уже в квадратных метрах измеряется . При переходе к сантиметрам величина возрастёт в 10 000 раз. А это означает, что по величине нельзя судить о тесноте связи между и .
В современной теории вероятностей и математической статистике для измерения тесноты связи используют безразмерный коэффициент корреляции
.
Можно доказать, что .
Доказано, что если , то стохастическая, случайная связь между и превращается в функциональную.
Если , то случайные величины и связаны линейной зависимостью ,
а при – зависимостью .
Таким образом, чем ближе значение коэффициента корреляции по абсолютной величине к единице, тем больше, теснее, «сильнее» статистическая связь между случайными величинами, тем больше она похожа на линейную связь.
Теперь нам предстоит научиться оценивать коэффициент корреляции по выборке и, поскольку его оценка – случайная величина, изучить статистические свойства этой случайной величины.