Корреляционный анализ. Обсуждение
Предмет корреляционного анализа – выявление стохастических зависимостей между случайными величинами.
В практических задачах достаточно часто встречаются объекты, изменчивость поведения (характеристик) которых происходит под влиянием не одной, а нескольких случайных причин (признаков). Например, в социологии объектом изучения часто является человек-гражданин, в менеджменте – человек-клиент и т.п. Поведение случайного человека часто определяется такими признаками, как пол, возраст, образование, место рождения, вес, рост, уровень доходов, политические пристрастия и т.п.
Вопрос состоит в том, можно ли судить о величине одного признака, по величине другого, или их проявления совершенно независимы.
Мы ограничимся здесь анализом признаков, которые можно «измерить», так называемых количественных признаков. Например, наверняка как-то связаны рост и вес человека. И несмотря на то, что мы встречаем низкорослых толстяков и худощавых великанов, здравый смысл говорит о том, что по росту человека можно высказывать какое-то суждение о его росте. Т.е. эти признаки как-то связаны.
Умение распознать и измерить такую связь чрезвычайно важно для практических задач. Если, например, установлено, что вес и рост человека связаны, зависимы, то при планировании закупок в магазинах одежды можно учитывать эту связь, формируя ассортимент по размерам и ростам.
Следовательно, наша задача – определить, что собственно следует понимать под зависимостью признаков, и, что самое важное пожалуй, научиться эту зависимость измерять (вычислять). Речь здесь ни в коем случае не идёт о функциональной зависимости. Мы не говорим: «вес зависит от роста», мы говорим «они связаны», мы не говорим «по росту вычислим вес», мы говорим «по росту можно высказать суждение о весе», а ещё лучше, «по изменению роста мы можем судить об изменении веса». А поскольку рост и вес человека, как известно, являются случайными величинами, то речь здесь может идти о статистической, стохастической связи, статистической зависимости.
Таким образом, наша первоочередная задача: перенести понятие зависимости и независимости на случайные величины.
Естественно вводить понятия зависимости и независимости случайных величин через понятия зависимости и независимости случайных событий.
Ограничимся здесь парой случайных величин. Для множества (более чем двух) признаков конструкция более сложная и требует более громоздких выкладок.
Возьмём произвольное числовое множество и свяжем с ним событие
. Это событие состоит в том, что случайная величина
приняла значение из числового множества
. Например,
– число очков при случайном бросании кости,
– множество чисел, больших 4.5. Тогда событие
состоит из двух элементарных событий
(выпало 5,
) и
(выпало 65,
),
.
Теперь понятие зависимости и независимости случайных величин естественно «вырастает» из зависимости и независимости случайных событий.
Две случайные величины и
называются независимыми, если для любых двух числовых множеств
и
события
и
независимы, т.е. если
.
Если же хотя бы для одной какой-то пары числовых множеств ,
то случайные величины и
– зависимы.
Такое определение наглядно, но не конструктивно – не поверишь равенство вероятностей для всех мыслимых пар числовых множеств.
Но к счастью, в теории вероятностей доказано, что если случайные величины и
независимы, то их совместная функция распределения
представима в виде
, где
,
– функции распределения соответственно
и
.
Верно и обратное: если , то
– совместная функция распределения двух независимых случайных величин.
Для системы двух независимых случайных величин справедливы соотношения и
.
В общем случае .
Новая в этом тексте величина называется ковариацией случайных величин
и
, она вычисляется по формуле
.
Отличие этой величины от нуля указывает на зависимость и
. Отсюда естественное желание выбрать ковариацию в качестве инструмента измерения тесноты, «силы», зависимости между
и
. Однако, простые соображения уберегают нас от такого соблазна, поскольку
– размерный параметр. Если, например,
и
измеряются в метрах, то в метрах же измеряются
и
, и уже в квадратных метрах измеряется
. При переходе к сантиметрам величина
возрастёт в 10 000 раз. А это означает, что по величине
нельзя судить о тесноте связи между
и
.
В современной теории вероятностей и математической статистике для измерения тесноты связи используют безразмерный коэффициент корреляции
.
Можно доказать, что .
Доказано, что если , то стохастическая, случайная связь между
и
превращается в функциональную.
Если , то случайные величины
и
связаны линейной зависимостью
,
а при – зависимостью
.
Таким образом, чем ближе значение коэффициента корреляции по абсолютной величине к единице, тем больше, теснее, «сильнее» статистическая связь между случайными величинами, тем больше она похожа на линейную связь.
Теперь нам предстоит научиться оценивать коэффициент корреляции по выборке и, поскольку его оценка – случайная величина, изучить статистические свойства этой случайной величины.