Корреляционные методы (correlation methods). Корреляционный анализ
Для социально-экономических явлений характерно, что наряду с существенными факторами, формирующими уровень результативного признака, на него оказывают воздействие многие другие неучтенные и случайные факторы. Это свидетельствует о том, что взаимосвязи явлений, которые изучает статистика, носят корреляционный характер и аналитически выражаются функцией вида:
y ср. x == f (x).
Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменений одной из случайных величин приводит к изменению математического ожидания другой.
В статистике принято различать следующие варианты зависимостей :
1. Парная корреляция – связь между двумя признаками (результативным и факторным или двумя факторными).
2. Частная корреляция – зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.
3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.
Корреляционный анализ имеет своей задачей количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).
Теснота связи количественно выражается величиной коэффициентов корреляции. Коэффициенты корреляции, представляя количественную характеристику тесноты связи между признаками, дают возможность определять “полезность” факторных признаков при построении уравнений множественной регрессии. Величина коэффициента корреляции служит также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.
Первоначально исследования корреляции проводились в биологии, а позднее распространились и на другие области, в том числе и на социально-экономическую. Одновременно с корреляцией начала использоваться и регрессия. Корреляция и регрессия тесно связаны между собой: корреляция оценивает силу (теснота) статистической связи, регрессия исследует ее форму . Та и другая служат для установления соотношения между явлениями, для определения наличия и отсутствия связи.
Корреляционно-регрессионный анализ как общее понятие включает в себя измерение тесноты, направления связи(корреляционный анализ) и установление аналитического выражения (формы) связи (регрессионный анализ).
Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин (факторов), а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения. Регрессия может быть однофакторной (парной) и многофакторной (множественной) .
По форме зависимости различают:
1) линейную регрессию, которая выражается уравнениями прямой (линейной функцией) вида: Yср. x = а 0 + а 1 х
2) нелинейную регрессию, которая выражается уравнениями вида:
Парабола: Yср. x = а 0 + а 1 х + а 2 х 2
Гипербола: Yср. x = а 0 + а 1 / х и др.
По направлению связи различают:
1) прямую регрессию (положительную), возникающую при условии, если с увеличением или уменьшением независимой величины значения зависимой также соответственно увеличиваются или уменьшаются;
2) обратную (отрицательную) регрессию, проявляющуюся при условии, что с увеличением или уменьшением независимой величины зависимая соответственно уменьшается или увеличивается.
Положительную и отрицательную регрессии легче понять, если использовать их графическое изображение (см. рисунки ниже).
а) Прямая (положительная) регрессия.
б) Обратная (отрицательная) регрессия.
Рисунок 10 – Прямая и обратная регрессия
Для простой (парной) регрессии в условиях, когда достаточно полно установлены причинно-следственные связи, приобретает практический смысл только последнее положение; при множественности причинных связей невозможно четко разграничить одни причинные явления от других.
Итак, все явления и процессы, характеризующие социально-экономическое развитие и составляющие единую систему национальных счетов, тесно взаимосвязаны и взаимозависимы между собой. В статистике показатели, характеризующие эти явления, могут быть связаны либо корреляционной зависимостью , либо быть независимыми . Корреляционная зависимость является частным случаем стохастической зависимости, при которой изменение значений факторных признаков (х 1 , х 2 , х 3 ….х k) влечет за собой изменение среднего значения результативного признака. Корреляционная зависимость исследуется с помощью методов корреляционного и регрессионного анализов. Корреляционный анализ изучает взаимосвязи показателей и позволяет решить задачи: оценка тесноты связи между показателями с помощью парных, частных и множественных коэффициентов корреляции; оценка уровня регрессии. Целью регрессионного анализа является оценка функциональной зависимости условного среднего значения результативного признака (Y) от факторных (х 1 , х 2 , х 3 ….х k). Уравнение регрессии, или статистическая модель связи социально-экономических явлений, выражаемая функцией: Yср. x = f (х 1 , х 2 , х 3 ….х k), является достаточно адекватной реальному
моделируемому явлению или процессу в случае соблюдения следующих требований их построения:
1. Совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями.
2. Возможность описания моделируемого явления одним или несколькими уравнениями причинно-следственной связи.
3. Все факторные признаки должны иметь количественное (цифровое) выражение.
4. Наличие достаточно большого объема исследуемой выборочной совокупности.
5. Причинно-следственные связи между явлениями и процессами следует описывать линейной или приводимой к линейной формой зависимости.
6. Отсутствие количественных ограничений на параметры модели связи.
Постоянство территориальной и временной структуры изучаемой совокупности
Все явления в природе и обществе находятся во взаимной связи. Выяснение
наличия связей между изучаемыми явлениями ― одна из важных
задач статистики. Многие медико-биологические и медико-социальные
исследования требуют установления вида связи (зависимости) между
случайными величинами. Сама постановка большого круга задач
в медицинских исследовательских работах предполагает построение
и реализацию алгоритмов «фактор ― отклик», «доза ― эффект».
Зачастую нужно установить наличие эффекта при имеющейся дозе
и оценить количественно полученный эффект в зависимости от дозы. Решение
этой задачи напрямую связано с вопросом прогнозирования определенного
эффекта и дальнейшего изучения механизма возникновения именно такого
Как известно, случайные величины X и Y могут быть либо независимыми,
либо зависимыми. Зависимость случайных величин подразделяется на
функциональную и статистическую (корреляционную).
Функциональная зависимость ― такой вид зависимости, когда каждому
значению одного признака соответствует точное значение другого.
В математике функциональную зависимость переменной X от переменной
Y называют зависимостью вида X= f (Y), где каждому допустимому значению
Y ставится в соответствие по определенному правилу единственно возможное
значение X.
Например: взаимосвязь площади круга (S) и длины окружности (L). Известно,
что площадь круга и длина окружности связаны вполне определенным
отношением S = r L, где r – радиус круга. Умножив длину окружности
на половину ее радиуса, можно точно определить площадь крута. Такую
изменение одного признака изменением другого. Этот вид связи характерен
для объектов, являющихся сферой приложения точных наук.
В медико-биологических исследованиях сталкиваться с функциональной
связью приходится крайне редко, поскольку объекты этих исследований
имеют большую индивидуальную вариабельность (изменчивость). С
другой стороны, характеристики биологических объектов зависят,
как правило, от комплекса большого числа сложных взаимосвязей и не могут
быть сведены к отношению двух или трех факторов. Во многих
медицинских исследованиях требуется выявить зависимость какой-либо
величины, характеризующей результативный признак, от нескольких
факториальных признаков.
Дело в том, что на формирование значений случайных величин X и Y
оказывают влияние различные факторы. Обе величины ― и X, и
Y ― являются случайными, но так как имеются общие факторы, оказывающие
влияние на них, то X и Y обязательно будут взаимосвязаны. И связь эта
уже не будет функциональной, поскольку в медицине и биологии часто
бывают факторы, влияющие лишь на одну из случайных величин и
разрушающие прямую (функциональную) зависимость между значениями
X и Y. Связь носит вероятностный, случайный характер, в численном выражении
меняясь от испытания к испытанию, но эта связь определенно присутствует
и называется корреляционной.
Корреляционной является зависимость массы тела от роста, поскольку
на нее влияют и многие другие факторы (питание, здоровье,
наследственность и т.д.). Каждому значению роста (X) соответствует множество
значений массы (Y), причем, несмотря на общую тенденцию, справедливую
для средних: большему значению роста соответствует и большее
значение массы, ― в отдельных наблюдениях субъект с большим ростом
может иметь и меньшую массу. Корреляционной будет зависимость
заболеваемости от воздействия внешних факторов, например
запыленности, уровня радиации, солнечной активности и т.д. Имеется
корреляционная зависимость между дозой ионизирующего излучения и
числом мутаций, между пигментом волос человека и цветом глаз, между
показателями уровня жизни населения и смертностью, между числом
пропущенных студентами лекций и оценкой на экзамене.
Именно корреляционная зависимость наиболее часто встречается в
природе в силу взаимовлияния и тесного переплетения огромного множества
самых разных факторов, определяющих значение изучаемых показателей.
Корреляционная зависимость ― это зависимость, когда при изменении
одной величины изменяется среднее значение другой.
Строго говоря, термин «зависимость» при статистической обработке
материалов медико-биологических исследований должен использоваться
весьма осторожно. Это связано с природой статистического анализа,
который сам по себе не может вскрыть истинных причинно-следственных
отношений между факторами, нередко опосредованными третьими факторами,
причем эти третьи факторы могут лежать вообще вне поля зрения
исследователя. С помощью статистических критериев можно дать только
формальную оценку взаимосвязей. Попытки механически
перенести данные статистических расчетов в объективную реальность
могут привести к ошибочным выводам. Например, утверждение: «Чем
громче утром кричат воробьи, тем выше встает солнце», несмотря на явную
несуразность, с точки зрения формальной статистики вполне правомерно.
Таким образом, термин «зависимость» в статистическом анализе подразумевает
только оценку соответствующих статистических критериев.
Корреляционные связи называют также статистическими (например,
зависимость уровня заболеваемости от возраста населения). Эти связи
непостоянны, они колеблются от нуля до единицы. Ноль означает отсутствие
зависимости между признаками, а единица ― полную, или функциональную,
связь, когда имеется зависимость только от одного признака.
Мерой измерения статистической зависимости служат раз личные
коэффициенты корреляции. Выбор метода для определения взаимосвязей
обусловлен видом самих признаков и способами их группировки.
Для количественных данных применяют линейную регрессию и
коэффициент линейной корреляции Пирсона. Для качественных признаков
применяются таблицы сопряженности и рассчитываемые на их основе
коэффициенты сопряженности (С и Ф), Чупрова (К). Для при знаков,
сформированных в порядковой (ранговой, балльной) шкале, можно применять
ранговые коэффициенты корреляции Спирмена или Кендэла.
Любую существующую зависимость по направлению связи можно
подразделить на прямую и обратную. Прямая зависимость
― это зависимость, при которой увеличение или уменьшение значения
одного признака ведет, соответственно, к увеличению или уменьшению второго.
Например: при увеличении температуры возрастает давление газа
(при его неизменном объеме), при уменьшении температуры снижается
и давление. Обратная зависимость имеется тогда, когда при увеличении
одного признака второй уменьшается, и наоборот: при уменьшении
одного второй увеличивается. Обратная зависимость, или обратная
связь, является основой нормального регулирования почти
всех процессов жизнедеятельности любого организма.
Оценка силы корреляционной связи проводится в соответствии со шкалой тесноты.
Если размеры коэффициента корреляции от ±0,9(9) до ±0,7, то связь
сильная, коэффициенты корреляции от ±0,31 до ±0,69 отражают связь средней
силы, а коэффициенты от ±0,3 до нуля характеризуют слабую связь.
Известное представление о наличии или отсутствии корреляционной связи
между изучаемыми явлениями или признаками (например, между массой тела и
ростом) можно получить графически, не прибегая к специальным расчетам. Для
этого достаточно на чертеже в системе прямоугольных координат отложить,
например,
на оси абсцисс величины роста, а на оси ординат ― массы тела и нанести ряд точек,
каждая из которых соответствует индивидуальной величине веса при данном
росте обследуемого. Если полученные точки располагаются кучно по наклонной
прямой к осям ординат в виде овала (эллипса) или по кривой линии,
то это свидетельствует о зависимости между явлениями. Если же точки
расположены беспорядочно или на прямой, параллельной абсциссе либо ординате,
то это говорит об отсутствии зависимости.
По форме корреляционные связи подразделяются на прямолинейные, когда
наблюдается пропорциональное изменение одного признака в зависимости от
изменения другого (графически эти связи изображаются в виде прямой линии или
близкой к ней), и криволинейные, когда одна величина признака
Не со всеми проблемами можно справиться экспериментальным методом. Существует множество ситуаций, когда исследователь не может контролировать, какие испытуемые попадают в те или иные условия. Например, если надо проверить гипотезу, что люди с анорексией более чувствительны к изменениям вкуса, чем люди с нормальным весом, то не можем же мы собрать группу испытуемых с нормальным весом и потребовать, чтобы у половины из них появилась анорексия! На самом деле нам придется отобрать людей, уже страдающих анорексией, и тех, у кого вес в норме, и проверить, различаются ли они также по вкусовой чувствительности. Вообще говоря, можно использовать метод корреляций, чтобы определить связана ли некоторая переменная, которую мы не можем контролировать, с другой интересующей нас переменной, или, иначе говоря, коррелируют ли они между собой.
В вышеприведенном примере у переменной веса есть только два значения -- нормальный и анорексичный. Чаще случается, что каждая из переменных может принимать много значений, и тогда надо определить, насколько величины одной и другой переменной коррелируют между собой. Определить это может статистический параметр, называемый коэффициентом корреляции и обозначаемый буквой r. Коэффициент корреляции позволяет оценить, насколько связаны две переменные, и выражается числом от -1 до +1. Ноль означает отсутствие связи; полная связь выражается единицей (+1, если отношение положительное, и -1, если оно отрицательное). По мере увеличения r от 0 до 1 сила связи возрастает.
Рис.6.
Эти гипотетические данные принадлежат 10 пациентам, каждый из которых имеет некоторое повреждение участков мозга, ответственных, насколько известно, за узнавание лиц. На рис. 6а пациенты располагаются вдоль горизонтали соответственно объему повреждения мозга, причем самая левая точка показывает пациента с наименьшим повреждением (10%), а самая правая точка показывает пациента с наибольшим повреждением (55%). Каждая точка на графике отражает показатель для отдельного пациента в тесте на узнавание лиц. Корреляция положительная и равна 0,90. На рис. 6б изображены те же самые данные, но теперь они показывают долю правильных ответов, а не ошибок. Здесь корреляция отрицательная, равная -0,90. На рис..6в успехи пациентов в тесте на распознавание отображены в зависимости от их роста. Здесь корреляция равна нулю.
Суть коэффициента корреляции можно пояснить на примере графического представления данных гипотетического исследования. Как показано на рис. 6а, в исследовании участвуют пациенты, о которых заранее известно, что у них поврежден мозг, и это вызвало разной степени трудности в узнавании лиц (прозопагнозия). Предстоит выяснить, возрастает ли трудность, или ошибка узнавания лиц, с увеличением процента поврежденной мозговой ткани. Каждая точка на графике 6а показывает результат для отдельного пациента при его тестировании на узнавание лиц. Например, пациент с 10%-ным повреждением ошибался в тесте на распознавание лиц в 15% случаев, а пациент с 55%-ным повреждением делал ошибки в 95% случаев. Если бы ошибка узнавания лиц постоянно возрастала с увеличением процента повреждения мозга, точки на графике располагались бы все время выше при движении слева направо; если бы они размещались на диагонали рисунка, коэффициент корреляции был бы r = 1,0. Однако несколько точек расположены по разные стороны этой линии, поэтому корреляция составляет около 90%. Корреляция 90% означает очень сильную связь между объемом поврежденного мозга и ошибками узнавания лиц. Корреляция на рис. 6а -- положительная, поскольку большее повреждение мозга вызывает больше ошибок.
Если бы вместо ошибок мы решили отобразить долю правильных ответов в тесте на распознавание, то получили бы график, изображенный на рис. 6б. Здесь корреляция отрицательная (равная примерно -0,90), поскольку с увеличением повреждения мозга доля правильных ответов уменьшается. Диагональ на рис. 6б -- это просто инверсный вариант той, что на предыдущем рисунке.
Наконец, обратимся к графику на рис. 6в. Здесь отображена доля ошибок пациентов в тесте на распознавание лиц в зависимости от их роста. Разумеется, нет оснований считать, что доля узнанных лиц связана с ростом пациента, и график подтверждает это. При движении слева направо точки не проявляют согласованного движения ни вниз, ни вверх, а разбросаны вокруг горизонтальной линии. Корреляция равна нулю.
Числовой метод вычисления коэффициента корреляции описан в Приложении II. Сейчас, однако, мы сформулируем несколько элементарных правил, которые помогут вам разобраться с коэффициентом корреляции, когда вы встретитесь с ним в последующих главах.
Корреляция бывает положительной (+) и отрицательной (-). Знак корреляции показывает, связаны ли две переменные положительной корреляцией (величина обеих переменных растет или уменьшается одновременно) или отрицательной корреляцией (одна переменная растет при уменьшении другой). Предположим, например, что количество пропусков занятий студентом имеет корреляцию -0,40 с баллами в конце семестра (чем больше пропусков, тем меньше баллов). С другой стороны, корреляция между полученными баллами и количеством посещенных занятий будет +0,40. Прочность связи одна и та же, но знак ее зависит от того, считаем ли мы пропущенные или посещенные занятия.
По мере усиления связи двух переменных r увеличивается от 0 до 1. Чтобы лучше это представить, рассмотрим несколько известных положительных коэффициентов корреляции:
Коэффициент корреляции между баллами, полученными в первый год обучения в колледже, и баллами, полученными на втором году, составляет около 0,75.
Корреляция между показателями геста на интеллект в возрасте 7 лет и при повторном тестировании в 18 лет составляет примерно 0,70.
Корреляция между ростом одного из родителей и ростом ребенка во взрослом возрасте, составляет около 0,50.
Корреляция между результатами теста на способность к обучению, полученными в школе и в колледже, равна примерно 0,40.
Корреляция между баллами, полученными индивидуумами в бланковых тестах, и суждением психолога-эксперта об их личностных качествах составляет около 0,25.
В психологических исследованиях коэффициент корреляции 0,60 и выше считается достаточно высоким. Корреляция в диапазоне от 0,20 до 0,60 имеет практическую и теоретическую ценность и полезна при выдвижении предсказаний. К корреляции от 0 до 0,20 следует относиться осторожно, при выдвижении предсказаний ее польза минимальна.
Тесты. Знакомый пример использования корреляционного метода -- тесты по измерению некоторых способностей, достижений и других психологических качеств. При тестировании группе людей, различающихся по какому-нибудь качеству (например, математическим способностям, ловкости рук или агрессивности), предъявляют некоторую стандартную ситуацию. Затем можно вычислить корреляцию между изменениями показателей данного теста и изменением другой переменной. Например, можно установить корреляцию между показателями группы студентов в тесте на математические способности и их оценками по математике при дальнейшем обучении в колледже; если корреляция значительная, то на основе результатов этого теста можно решить, кого из нового набора студентов можно перевести в группу с повышенными требованиями.
Тестирование -- важный инструмент психологических исследований. Оно позволяет психологам получать большое количество данных о людях с минимальным отрывом их от повседневных дел и без применения сложного лабораторного оборудования. Построение тестов включает множество этапов, которые мы подробно рассмотрим в последующих главах.
Корреляция и причинно-следственные связи. Между экспериментальными и корреляционными исследованиями есть важное различие. Как правило, в экспериментальном исследовании систематически манипулируют одной переменной (независимой) с целью определить ее причинное воздействие на некоторые другие переменные (зависимые). Такие причинно-следственные связи нельзя вывести из корреляционных исследований. Ошибочное понимание корреляции как причинно-следственного отношения можно проиллюстрировать на следующих примерах. Может существовать корреляция между мягкостью асфальта на улицах города и количеством солнечных ударов, случившихся за день, но отсюда не следует, что размягченный асфальт выделяет какой-то яд, приводящий людей на больничную койку. На самом деле изменение обеих этих переменных -- мягкости асфальта и числа солнечных ударов -- вызывается третьим фактором -- солнечным теплом. Еще один простой пример -- высокая положительная корреляция между большим количеством аистов, гнездящихся во французских деревнях, и высокой рождаемостью, зарегистрированной там же. Предоставим изобретательным читателям самим догадываться о возможных причинах такой корреляции, не прибегая к постулированию причинно-следственной связи между аистами и младенцами. Эти примеры служат достаточным предостережением от понимания корреляции как причинно-следственного отношения. Если между двумя переменными есть корреляция, изменение одной может вызывать изменения другой, но без специальных экспериментов такой вывод будет неоправданным.
При проведении исследования в биологии или медицине, как правило, регистрируются множество учетных признаков. Представляет интерес вопрос об их взаимном изменении, т.е. обнаружение зависимостей между ними. Выявление наличия таких взаимосвязей является одной из важнейших задач любой науки, в том числе и медицины.
Различают две формы количественных связей между явлениями или процессами: функциональную и корреляционную . Под ФУНКЦИОНАЛЬНОЙ понимают такую связь, при которой любому значению одного из признаков соответствует строго определенное значение другого. В точных науках, таких, как физика, химия и другие, может быть установлена функциональная взаимосвязь. Например, зависимость площади круга от длины окружности в геометрии, или в физике длина пути, пройденной телом в свободном падении, от времени. Наиболее известным видом функциональной зависимости является линейная, которая выражается математической формулой: y = ax+b .
В биологии и медицине установить функциональную зависимость, как правило, не удается. Объекты этих исследований имеют большую изменчивость и зависят от огромного числа факторов, измерить которые просто невозможно. В этом случае определяется наличие КОРРЕЛЯЦИОННОЙ связи, при которой значению каждой средней величины одного признака соответствует несколько значений другого взаимосвязанного с ним признака. Например: связь между ростом и массой тела человека. У группы людей с одинаковым ростом наблюдается различная масса тела, однако она варьирует в определенных пределах вокруг средней величины. Поэтому такую зависимость нужно оценивать с использованием понятия случайной величины с привлечением подходов теории вероятности. Такую форму зависимостей называют «Корреляционной».
При поиске зависимости между признаками может быть обнаружена взаимосвязь, различная по направлению и силе:
Прямая (при увеличении одного признака увеличивается второй);
Обратная (при увеличении одного признака второй уменьшается).
Степень взаимосвязи признаков по силе (тесноте) принято обозначать как:
Отсутствие;
Средняя;
Сильная;
Способами выявления корреляционной взаимосвязи между признаками являются:
Визуальные (таблицы и графики).
Статистические (корреляция и регрессия).
Следует подчеркнуть, что обнаружение корреляции между двумя признаками еще не говорит о существовании причинной связи между ними, а лишь указывает на возможность таковой или на наличие фактора, определяющего изменение обеих переменных совместно.
Приёмы визуализации данных позволяют обнаружить корреляционную зависимость лишь при небольшом числе наблюдений и только приблизительно. Для обнаружения корреляционной взаимосвязи с помощью таблицы в ней располагают ранжированные вариационные ряды и затем определяют совместное изменение признаков. График более наглядно демонстрирует такую зависимость и позволяет оценить ее форму: линейная, параболическая, тригонометрическая и др.
Наиболее точным способом обнаружения взаимосвязи между признаками является вычисление коэффициента корреляции . В зависимости от природы обрабатываемых данных применяются параметрические или непараметрические методы вычисления этого коэффициента.
При вычислении коэффициента корреляции исследователь получает возможность судить о силе связи (степени сопряженности) и ее направлении, а также с требуемой долей вероятности делать вывод о проявлении этой связи в генеральной совокупности. Чем больше коэффициент корреляции, тем с большей степенью уверенности можно говорить о наличии корреляционной зависимости между признаками. Если каждому заданному значению одного признака соответствуют близкие друг к другу, тесно расположенные около средней величины значения другого признака, то связь является более тесной. Когда эти значения сильно варьируют, связь менее тесная. Таким образом, мера корреляции указывает, насколько тесно связаны между собой параметры.
Коэффициент корреляции может принимать значения от -1 до +1. Направление обнаруженной взаимосвязи определяют по знаку коэффициента корреляции. При его положительном значении обнаруженная связь является прямой, при отрицательном – обратной. Сила связи оценивается по модулю этого коэффициента. Условно выделяют следующие уровни корреляционной связи: отсутствие – 0; слабая – от 0 до 0,3; средняя – от 0,3 до 0,7; сильная – 0,7 и более; полная – 1. Однако обсуждать наличие корреляции имеет смысл только в тех случаях, когда она статистически значима (p <0,05). Поэтому после вычисления коэффициента корреляции производится определение его ошибки репрезентативности и критерия достоверности.
Наиболее часто применяемыми в настоящее время методами обнаружения корреляции являются параметрический анализ по Пирсону и непараметрический анализ по Спирмену. Этими методами проверяется нулевая гипотеза (H 0 ) об отсутствии связи между параметрами. Если такая гипотеза отклоняется при заданном уровне значимости (p ), можно говорить о наличии взаимосвязи между параметрами.
Корреляционный анализ по Пирсону используется при решении задачи исследования линейной связи двух нормально распределенных параметров. Кроме проверки на нормальность распределения каждого параметра, до проведения корреляционного анализа рекомендуется строить график в координатах оцениваемых параметров, чтобы визуально определить характер зависимости.
Коэффициент корреляции Пирсона (r xy ) или коэффициент линейной корреляции, был разработан в 90-х годах XIX века Карлом Пирсон, Фрэнсисом Эджуортом и Рафаэлем Уэлдоном в Англии. Он рассчитывается по формуле:
где: r xy
cov XY – ковариация признаков X и Y ;
σ X X ;
σ Y – среднее квадратическое отклонение признака Y;
X ;
– средняя арифметическая признака Y .
В медицинской литературе встречается упрощенная запись этой формулы:
где: r xy – коэффициент линейной корреляции Пирсона;
d x x от средней этого признака: d x = x - M x ,
d y – отклонение каждой варианты признака y от средней этого признака: d y = y - M y .
В программе Excel значение коэффициент линейной корреляции Пирсона может быть вычислено функцией = КОРРЕЛ(Диапазон ячеек 1-го ряда; Диапазон ячеек 2-го ряда).
Для прогнозирования уровня корреляции в генеральной совокупности определяют ошибку репрезентативности этого коэффициента m r . Она вычисляется по формуле:
,
где: m r – ошибка репрезентативности коэффициента корреляции;
r xy – коэффициент линейной корреляции Пирсона;
n – число парных вариант.
Достоверность коэффициента линейной корреляции оценивается по коэффициенту Стьюдента (t r ), который вычисляется с использованием его ошибки:
где: t r
r xy – коэффициент линейной корреляции Пирсона;
m r – ошибка репрезентативности коэффициента корреляции.
Если число парных вариант n >30, то при t r >2 связь считается достоверной при уровне значимости p <0,05. Если число парных вариант n <30, то критическое значение t r-Крит. находят по таблице критических значений Стьюдента при степени свободы df = n - 2 . В программе Excel это значение вычисляется функцией = СТЬЮДРАСПОБР(Уровень значимости p ; Степени свободыdf ).
С целью уменьшения объема вычислений может применяться функция =КОРРЕЛ(Диапазон1; Диапазон2) или надстройка «Анализ данных» и ее модуль «Корреляционный анализ».
Отсутствие линейной корреляции еще не означает, что параметры полностью независимы. Связь между ними может быть нелинейной, или признаки, используемые в вычислениях, могут не подчиняться нормальному закону распределения. Поэтому, помимо вычисления коэффициента линейной корреляции, прибегают к использованию непараметрических коэффициентов корреляции. К ним относятся:
Коэффициент ранговой корреляции Спирмена;
Коэффициент ранговой корреляции Кендалла;
Коэффициент корреляции знаков Фехнера;
Коэффициент множественной ранговой корреляции (конкордации).
Корреляционный анализ по Спирмену применяется для обнаружения взаимосвязи двух параметров, если распределение хотя бы одного из них отлично от нормального.
Каждому показателю x и y присваивается ранг. На основе полученных рангов рассчитываются их разности d. Затем вычисляется коэффициент корреляции (ρ ) по формуле:
где: r
d – разность рангов;
n – число парных вариант.
Ошибка репрезентативности коэффициента корреляции Спирмена определяется по формуле:
,
а коэффициент достоверности Стьюдента:
где: t r – коэффициент достоверности Стьюдента;
r – коэффициент корреляции Спирмена;
m r – ошибка репрезентативности коэффициента корреляции Спирмена.
Оценка коэффициента корреляции Спирмена и его достоверности выполняется так же, как и коэффициента линейной корреляции Пирсона.
Корреляционно-регрессионный анализ - один из наиболее широко распространенных и гибких приемов обработки статистических данных. Данный метод начинает свой отсчет с 1795 г., когда английский исследователь Фрэнсис Гальтон предложил теоретические основы регрессионного метода, а в 1801 г. рассчитал с его помощью траекторию полета планеты Церера. Им же введен в статистику термин «корреляция». Можно также назвать
французского кристаллографа Огюста Браве, немецкого физика Густава Теодора Фехнера, английского экономиста и статистика Фрэнсиса Эджуорта, впервые высказывавших в середине-конце XIX в. идеи о количественном измерении связей явлений. В разное время над теорией анализа работали известные в области теоретической статистики ученые Карл Фридрих Гаусс (Германия), Адриен Мари Лежандр (Франция), Карл Пирсон (Англия) и др.
Корреляционно-регрессионный анализ состоит в построении и анализе экономико-математической модели в виде уравнения регрессии (корреляционной связи), характеризующего зависимость признака от определяющих его факторов.
Корреляционно-регрессионный анализ предполагает следующие этапы:
Предварительный анализ (здесь формулируются основные направления всего анализа, определяется методика оценки результативного показателя и перечень наиболее существенных факторов);
Сбор информации и ее первичная обработка;
Построение модели (один из важнейших этапов);
Оценка и анализ модели.
Задачи корреляционного анализа сводятся к выделению важнейших факторов, которые влияют на результативный признак, измерению тесноты связи между факторами, выявлению неизвестных причин связей и оценке факторов, оказывающих максимальное влияние на результат.
Задачи регрессионного анализа заключаются в установлении формы зависимости, определении уравнения регрессии и его использовании для оценки неизвестных значений зависимой переменной, прогнозировании возможных значений результативного признака при задаваемых значениях факторных признаков.
При использовании корреляционно-регрессионного анализа необходимо соблюдать следующие требования.
1. Совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями.
2. Все факторные признаки должны иметь количественное (цифровое) выражение.
3. Необходимо наличие массовости значений изучаемых показателей.
4. Причинно-следственные связи между явлениями и процессами могут быть описаны линейной или приводимой к линейной формой зависимости.
5. Не должно быть количественных ограничений на параметры модели связи.
6. Необходимо обеспечить постоянство территориальной и временной структуры изучаемой совокупности.
Корреляция - статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.
В статистике принято различать следующие варианты зависимостей.
1. Парная корреляция - связь между двумя признаками (результативным и факторным).
2. Частная корреляция - зависимость между результативным и одним из факторных признаков при фиксированном значении других факторных признаков.
3. Множественная корреляция - зависимость результативного и двух или более факторных признаков, включенных в исследование.
Корреляционная связь - частный случай стохастической связи и состоит в том, что разным значениям одной переменной соответствуют различные средние значения другой.
Обязательное условие применения корреляционного метода - массовость значений изучаемых показателей, что позволяет выявить тенденцию, закономерность развития, форму взаимосвязи между признаками. Тогда, в соответствии с законом больших, чисел, влияние других факторов сглаживается, нейтрализуется. Наличие корреляционной связи присуще многим общественным явлениям.
Показатели тесноты связи между признаками называют коэффициентами корреляции. Их выбор зависит от того, в каких шкалах измерены признаки. Основными шкалами являются:
1) номинальная шкала (наименований) предназначена для описания принадлежности объектов к определенным социальным группам (например, коэффициенты ассоциации и контингенции, коэффициенты Пирсона и Чупрова);
2) шкала порядка (ординальная) применяется для измерения упорядоченности объектов по одному или нескольким признакам (например, коэффициенты Спирмена и Кенделла);
3) количественная шкала используется для описания количественных показателей - например, линейный коэффициент корреляции и корреляционное отношение.
Корреляционный анализ - метод статистического исследования экспериментальных данных, позволяющий определить степень линейной зависимости между переменными.
Парная линейная корреляция - простейшая система корреляционной связи, представляющая линейную связь между двумя признаками. Ее практическое значение состоит в выделении одного важнейшего фактора, который и определяет вариацию результативного признака.
Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции, который был впервые введен в начале 1890-х гг. Пирсоном, Эджуортом и Велдоном. В теории разработаны и на практике применяются различные варианты формул расчета данного коэффициента:
Где ,
где n - число наблюдений.
При малом числе наблюдений для практических вычислений линейный коэффициент корреляции удобнее исчислять по формуле:
,
где r принимает значения в пределах от -1 до 1.
Чем ближе линейный коэффициент корреляции по абсолютной величине к I, тем теснее связь. С другой стороны, если он равен 1, то зависимость является не стохастической, а функциональной. Знак при нем указывает направление связи: знак «-» соответствует обратной зависимости, «+» - прямой. Величина коэффициента корреляции служит также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.
Степень взаимного влияния факторов в зависимости от коэффициента корреляции приведена в табл. 1.
Таблица 1
Количественная оценка тесноты связи
при различных значениях коэффициента корреляции
После того, как с помощью корреляционного анализа выявлено наличие статистических связей между переменными и оценена степень их тесноты, обычно переходят к математическому описанию зависимостей, то есть к регрессионному анализу.
Термин «регрессия» (произошел от латинского regression - отступление, возврат к чему-либо) был также введен Ф. Гальтоном в 1886 г. Обрабатывая статистические данные в связи с анализом наследственности роста, он отметил прямую зависимость между ростом родителей и их детей (наблюдение само по себе не слишком глубокое). Но относительно старших сыновей ему удалось установить более тонкую зависимость. Он рассчитал, что средний рост старшего сына лежит между средним ростом населения и средним ростом родителей. Если рост родителей выше среднего, то их наследник, как правило, ниже; если средний рост родителей ниже среднего, то рост их потомка выше. Когда Гальтон нанес на график средний рост старших сыновей для различных значений среднего роста родителей, он получил почти прямую линию, проходящую через нанесенные точки.
Поскольку рост потомства стремится двигаться к среднему, Гальтон назвал это явление регрессией к среднему состоянию, а линию, проходящую через точки на графике, - линией регрессии.
Регрессивный анализ применяется в тех случаях, когда необходимо отыскать непосредственно вид зависимости х и у. При этом предполагается, что независимые факторы не случайные величины, а результативный показатель у имеет постоянную, независимую от факторов дисперсию и стандартное отклонение.
Одна из проблем построения уравнения регрессии - размерность, то есть определение числа факторных признаков, включаемых в модель. Их число должно быть оптимальным.
Сокращение размерности за счет исключения второстепенных, несущественных факторов позволяет получить модель, быстрее и качественнее реализуемую. В то же время построение модели малой размерности может привести к тому, что она будет недостаточно полно описывать исследуемое явление или процесс в единой системе национального счетоводства.
При построении модели число факторных признаков должно быть в 5-6 раз меньше объема изучаемой совокупности.
Если результативный признак с увеличением факторного признака равномерно возрастает или убывает, то такая зависимость является линейной и выражается уравнением прямой.
Линейная регрессия сводится к нахождению уравнения вида:
где х - индивидуальное значение факторного признака; а 0 , а 1 - параметры уравнения прямой (уравнения регрессии); у х - теоретическое значение результирующего фактора.
Данное уравнение показывает среднее значение изменения результативного признака х на одну единицу его измерения. Знак параметра показывает направление этого изменения. На практике построение линейной регрессии сводится к оценке ее параметров а 0 , а 1.
При классическом подходе параметры уравнения а 0 , а 1 находятся методом наименьших квадратов, который позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от расчетных, теоретических (у х) была бы минимальной.
Для нахождения минимума данной функции приравняем к нулю частные производные и тем самым получим систему двух линейных уравнений, которая называется системой нормальных уравнений:
В уравнении прямой параметр а 0 экономического смысла не имеет, параметр а 1 является коэффициентом регрессии и показывает изменение результативного признака при изменении факторного на единицу.
Или по следующим формулам:
Где , , ,
Между линейным коэффициентом корреляции и коэффициентом регрессии существует определенная зависимость, выраженная формулой
Часто исследуемые признаки имеют разные единицы измерения, поэтому для оценки влияния факторного признака на результативный применяется коэффициент эластичности. Он рассчитывается для каждой точки и в среднем по всей совокупности по формуле:
где у" х - первая производная уравнения регрессии.
Коэффициент эластичности показывает, на сколько процентов изменяется результативный признак при изменении факторного признака на 1%.
Чтобы иметь возможность судить о сравнительной связи влияния отдельных факторов и о тех резервах, которые в них заложены, должны быть вычислены частные (средние) коэффициенты эластичности .
Различия в единицах измерения факторов устраняют с помощью частных (средних) коэффициентов эластичности , которые рассчитываются по формуле:
где а i - коэффициент регрессии при факторе х; - средние значения факторного и результативного признаков.
Частные коэффициенты эластичности показывают, на сколько процентов в среднем изменяется анализируемый показатель с изменением на 1 % каждого фактора при фиксированном положении других факторов.
Альтернативным показателем степени зависимости между двумя переменными является линейный коэффициент детерминации , представляющий собой квадрат линейного коэффициента корреляции r 2 . Его числовое значение всегда заключено в пределе от 0 до 1. Он характеризует долю вариации (разброса) зависимой переменной. Значение коэффициента детерминации непосредственно указывает степень влияния независимого фактора на результативный показатель.
Степень тесноты связи полностью соответствует теоретическому корреляционному отношению , которое является универсальным показателем тесноты связи по сравнению с линейным коэффициентом корреляции.
С помощью теоретического корреляционного отношения измеряется теснота связи любой формы, а посредством линейного коэффициента корреляции - только прямолинейной связи.
Теоретическое корреляционное отношение рассчитывается по формулам:
где - факторная дисперсия; - общая дисперсия.
Для упрощения расчетов меры тесноты корреляционной связи часто применятся индекс корреляционной связи, который определяется по формулам:
где - остаточная дисперсия.
Линейные модели отличаются простой интерпретируемостью и хорошо разработанными приемами оценивания коэффициентов регрессии. Обычно для них все три наиболее распространенных метода статистического оценивания - максимального правдоподобия, наименьших квадратов и моментов - дают оптимальные решения и соответственно приводят к оценкам, обладающим линейностью, эффективностью, несмещенностью. Принимая во внимание, что линейные регрессионные модели не могут с одинаково высокой степенью достоверности описывать многообразные процессы, происходящие в реальности, их дополняет большой класс нелинейных моделей. Для последних, однако, с учетом их сложности и специфичности приемов параметрического оценивания предпочтительным остается приведение к простой линейной форме.