Считается корреляция. Коэффициенты корреляции и специфика их применения

При изучении корреляций стараются установить, существует ли какая-то связь между двумя показателями в одной выборке (например, между ростом и весом детей или между уровнем IQ и школьной успеваемостью) либо между двумя различными выборками (например, при сравнении пар близнецов), и если эта связь существует, то сопровождается ли увеличение одного показателя возрастанием (положительная корреляция) или уменьшением (отрицательная корреляция) другого.

Иными словами, корреляционный анализ помогает установить, можно ли предсказывать возможные значения одного показателя, зная величину другого.

До сих пор при анализе результатов нашего опыта по изучению действия марихуаны мы сознательно игнорировали такой показатель, как время реакции. Между тем было бы интересно проверить, существует ли связь между эффективностью реакций и их быстротой. Это позволило бы, например, утверждать, что чем человек медлительнее, тем точнее и эффективнее будут его действия и наоборот.

С этой целью можно использовать два разных способа: параметрический метод расчета коэффициента Браве - Пирсона (r) и вычисление коэффициента корреляции рангов Спирмена (r s ), который применяется к порядковым данным, т. е. является непараметрическим. Однако разберемся сначала в том, что такое коэффициент корреляции.

Коэффициент корреляции

Коэффициент корреляции - это величина, которая может варьировать в пределах от -1 до 1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной - минус 1. На графике этому соответствует прямая линия, проходящая через точки пересечения значений каждой пары данных:

Переменная

В случае же если эти точки не выстраиваются по прямой линии, а образуют «облако», коэффициент корреляции по абсолютной величине становится меньше единицы и по мере округления этого облака приближается к нулю:

В случае если коэффициент корреляции равен 0, обе переменные полностью независимы друг от друга.

В гуманитарных науках корреляция считается сильной, если ее коэффициент выше 0,60; если же он превышает 0,90, то корреляция считается очень сильной. Однако для того, чтобы можно было делать выводы о связях между переменными, большое значение имеет объем выборки: чем выборка больше, тем достовернее величина полученного коэффициента корреляции. Существуют таблицы с критическими значениями коэффициента корреляции Браве-Пирсона и Спирмена для разного числа степеней свободы (оно равно числу пар за вычетом 2, т. е. n -2). Лишь в том случае, если коэффициенты корреляции больше этих критических значений, они могут считаться достоверными. Так, для того чтобы коэффициент корреляции 0,70 был достоверным, в анализ должно быть взято не меньше 8 пар данных ( = п - 2 = 6) при вычислении r (табл. В.4) и 7 пар данных ( = п - 2 = 5) при вычислении r s (табл. 5 в дополнении Б. 5).

Коэффициент Браве – Пирсона

Для вычисления этого коэффициента применяют следующую формулу (у разных авторов она может выглядеть по-разному):

где XY - сумма произведений данных из каждой пары;

n - число пар;

- средняя для данных переменной X ;

Средняя для данных переменной Y ;

S Х - x ;

s Y - стандартное отклонение для распределения у.

Теперь мы можем использовать этот коэффициент для того, чтобы установить, существует ли связь между временем реакции испытуемых и эффективностью их действий. Возьмем, например, фоновый уровень контрольной группы.

n = 15  15,8  13,4 = 3175,8;

(n 1)S x S y = 14  3,07  2,29 = 98,42;

r =

Отрицательное значение коэффициента корреляции может означать, что чем больше время реакции, тем ниже эффективность. Однако величина его слишком мала для того, чтобы можно было говорить о достоверной связи между этим двумя переменными.

nXY= ………

(n - 1)S X S Y = ……

Какой вывод можно сделать из этих результатов? Если вы считаете, что между переменными есть связь, то какова она - прямая или обратная? Достоверна ли она [см. табл. 4 (в дополнении Б. 5) с критическими значениями r ]?

Коэффициент корреляции рангов Спирмена r s

Этот коэффициент рассчитывать проще, однако результаты получаются менее точными, чем при использовании r. Это связано с тем, что при вычислении коэффициента Спирмена используют порядок следования данных, а не их количественные характеристики и интервалы между классами.

Дело в том, что при использовании коэффициента корреляции рангов Спирмена (r s ) проверяют только, будет ли ранжирование данных для какой-либо выборки таким же, как и в ряду других данных для этой выборки, попарно связанных с первыми (например, будут ли одинаково «ранжироваться» студенты при прохождении ими как психологии, так и математики, или даже при двух разных преподавателях психологии?). Если коэффициент близок к + 1, то это означает, что оба ряда практически совпадают, а если этот коэффициент близок к - 1, можно говорить о полной обратной зависимости.

Коэффициент r s вычисляют по формуле

где d- разность между рангами сопряженных значений признаков (независимо от ее знака), а n -число пар.

Обычно этот непараметрический тест используется в тех случаях, когда нужно сделать какие-то выводы не столько об интервалах между данными, сколько об их рангах, а также тогда, когда кривые распределения слишком асимметричны и не позволяют использовать такие параметрические критерии, как коэффициент r (в этих случаях бывает необходимо превратить количественные данные в порядковые).

Поскольку именно так обстоит дело с распределением значений эффективности и времени реакции в экспериментальной группе после воздействия, можно повторить расчеты, которые вы уже проделали для этой группы, только теперь не для коэффициента r , а для показателя r s . Это позволит посмотреть, насколько различаются эти два показателя*.

* Следует помнить, что

1) для числа попаданий 1-й ранг соответствует самой высокой, а 15-й-самой низкой результативности, тогда как для времени реакции 1-й ранг соответствует самому короткому времени, а 15-й-самому долгому;

2) данным ex aequo придается средний ранг.

Таким образом, как и в случае коэффициента r, получен положительный, хотя и недостоверный, результат. Какой же из двух результатов правдоподобнее: r = -0,48 или r s = +0,24? Такой вопрос может встать лишь в том случае, если результаты достоверны.

Хотелось бы еще раз подчеркнуть, что сущность этих двух коэффициентов несколько различна. Отрицательный коэффициент r указывает на то, что эффективность чаще всего тем выше, чем время реакции меньше, тогда как при вычислении коэффициента r s требовалось проверить, всегда ли более быстрые испытуемые реагируют более точно, а более медленные - менее точно.

Поскольку в экспериментальной группе после воздействия был получен коэффициент r s , равный 0,24, подобная тенденция здесь, очевидно, не прослеживается. Попробуйте самостоятельно разобраться в данных для контрольной группы после воздействия, зная, что d 2 = 122,5:

; достоверно ли?

Каков ваш вывод?………………………………… ……………………………………………………………

…………………………………………………………………………………………………………………….

Итак, мы рассмотрели различные параметрические и непараметрические статистические методы, используемые в психологии. Наш обзор был весьма поверхностным, и главная задача его заключалась в том, чтобы читатель понял, что статистика не так страшна, как кажется, и требует в основном здравого смысла. Напоминаем, что данные «опыта», с которыми мы здесь имели дело, - вымышленные и не могут служить основанием для каких-либо выводов. Впрочем, подобный эксперимент стоило бы действительно провести. Поскольку для этого опыта была выбрана сугубо классическая методика, такой же статистический анализ можно было бы использовать во множестве различных экспериментов. В любом случае нам кажется, что мы наметили какие-то главные направления, которые могут оказаться полезны тем, кто не знает, с чего начать статистический анализ полученных результатов.

Существуют три главных раздела статистики: описательная статистика, индуктивная статистика и корреляционный анализ.

Коэффициент корреляции формула

В процессе хозяйственной деятельности человека постепенно сформировался целый класс задач по выявлению различных статистических закономерностей.

Требовалось оценивать степень детерминированности одних процессов другими, требовалось устанавливать тесноту взимозависимости между разными процессами, переменными.
Корреляция – это взаимосвязь переменных друг от друга.

Для оценки тесноты зависимости был введён коэффициент корреляции.

Физический смысл коэффициента корреляции

Чёткий физический смысл коэффициент корреляции имеет, если статистические параметры независимых переменных подчиняются нормальному распределению, графически такое распределение представляет кривую Гаусса. А зависимость линейна.

Коэффициент корреляции показывает, насколько один процесс детерминирован другим. Т.е. при изменении одного процесс как часто изменяется и зависимый процесс. Совсем не изменяется – нет зависимости, изменяется сразу каждый раз – полная зависимость.

Коэффициент корреляции может принимать значения в диапазоне [-1:1]

Нулевое значение коэффициента означает, что взаимосвязи между рассматриваемыми переменными нет.
Крайние значения диапазона означают полную зависимость между переменными.

Если значение коэффициента положительное, то зависимость прямая.

При отрицательном коэффициенте – обратная. Т.е. в первом случае при изменении аргумента функция пропорционально изменяется, во втором случае – обратно пропорционально.
При нахождении значения коэффициента корреляции в середине диапазона, т.е. от 0 до 1, либо от -1 до 0, говорят о неполной функциональной зависимости.
Чем ближе значение коэффициента к крайним показателям, тем большая взаимосвязь между переменными или случайными величинами. Чем ближе значение к 0, тем меньшая взаимозависимость.
Обычно коэффициент корреляции принимает промежуточные значения.

Коэффициент корреляции является безмерной величиной

Применяют коэффициент корреляции в статистике, в корреляционном анализе, для проверки статистических гипотез.

Выдвигая некоторую статистическую гипотезу зависимости одной случайной величины от другой – вычисляют коэффициент корреляции. По нему возможно вынести суждение — имеется ли взаимосвязь между величинами и насколько она плотная.

Дело в том, что не всегда можно увидеть взаимосвязь. Зачастую величины не связаны напрямую друг с другом, а зависят от многих факторов. Однако может оказаться, что через множество опосредованных связей случайные величины оказываются взаимозависимы. Конечно, это может не означать их непосредственную связь, так, к примеру, при исчезновении посредника может исчезнуть и зависимость.

    Корреляционный и регрессионный анализ как два базовых инструмента анализа двумерных количественных данных.

    Характеристика и задачи корреляционно-регрессионного анализа.

    Корреляционный анализ. Диаграмма рассеяния. Коэффициент корреляции. Интерпретация коэффициента корреляции.

    Регрессионный анализ. Уравнение регрессии. Стандартная ошибка оценки. Коэффициент детерминации.

  1. Корреляционный и регрессионный анализ как два базовых инструмента анализа двумерных количественных данных.

Если с изменением значения одной из переменных вторая переменная может в определенных пределах с некоторой вероятностью принимать разное значение, а характеристики второй переменной изменяются по статистическим законам, то такая связь называется статистической.

Корреляция - понятие, определяющее взаимную зависимость двух величин. Корреляционная связь между двумя признаками или свойствами может возникать различными путями. Основной путь - это причинная зависимость одного признака от другого.

Корреляционной связью называют частный случай статистической связи, когда разным значениям одной переменной соответствуют различные средние значения другой. Например, с изменением признаков изменяется значение функции Y.

Однако на практике затруднения может вызвать выявление причины и следствия.

Поскольку корреляционная связь является статистической формой, то основным условием ее изучения является необходимость иметь значительный объем данных по совокупности явлений. Обычно считают, что число наблюдений (статистики) должно в несколько раз превосходить (до 10 раз) численность изучаемых или учитываемых факторов.

Регрессия - термин, произошедший от лат. regressio - движение назад. В статистическом анализе регрессионный анализ применяется для прогнозирования искомого признака на основе известного.

Взаимосвязь между двумя признаками, выраженная в явном виде, является регрессионной. Функция регрессии представляет собой математическое ожидание взаимосвязи, а отклонения от нее - случайные величины.

  1. Характеристика и задачи корреляционно-регрессионного анализа.

Корреляционно-регрессионный анализ заключается в установлении степени связи (корреляционный анализ) и ее формы, т.е. аналитического выражения, связывающего признаки (регрессионный анализ). Корреляционно - регрессионный анализ является многомерным, т.е. на некоторый признак практически всегда оказывают влияние множество других.

Целью регрессионного анализа является оценка функциональной за­висимости условного среднего значения результативного признака (У) от факторных (х1, х2, …, хk).

Основные условия применения корреляционно-регрессионного метода

1. Наличие достаточно большой по объему выборочной совокупности. Считается, что число наблюдений должно превышать более чем в 10 раз число факторов, влияющих на результат.

2. Наличие качественно однородной исследуемой совокупности.

3. Подчинение распределения совокупности по результативному и факторным признакам нормальному закону или близость к нему. Выполнение этого условия обусловлено использованием метода наименьших квадратов (МНК) при расчете параметров корреляции и некоторых др.

Основные задачи корреляционно-регрессионного анализа

1. Измерение тесноты связи между результативным и факторным признаком (признаками). В зависимости от количества влияющих на результат факторов задача решается путем вычисления корреляционного отношения, коэффициентов парной, частной, множественной корреляции или детерминации.

2. Оценка параметров уравнения регрессии, выражающего зависимость средних значений результативного признака от значений факторного признака (признаков). Задача решается путем вычисления коэффициентов регрессии.

3. Определение важнейших факторов, влияющих на результативный признак. Задача решается путем оценки тесноты связи факторов с результатом.

4. Прогнозирование возможных значений результативного признака при задаваемых значениях факторных признаков. Задача решается путем подстановки ожидаемых значений факторов в регрессионное уравнение

Уравнение регрессии, или статистическая модель связи социально-эко­номических явлений, выражается функцией:

    Yx = f(х1, х2, …, хn),

    где «n» – число факторов, включенных в модель;

    Хi – факторы, влияющие на результат У.

Этапы корреляционно-регрессионного анализа:

    Предварительный (априорный) анализ.

    Сбор информации и ее первичная обработка.

    Построение модели (уравнения регрессии). Как правило, эту процедуру выполняют на ПК используя стандартные программы.

    Оценка тесноты связей признаков, оценка уравнения регрессии и анализ модели.

    Прогнозирование развития анализируемой системы по уравнению регрессии.

На первом этапе формулируется задача исследования, определяется методика измерения показателей или сбора информации, определяется число факторов, исключаются дублирующие факторы или связанные в жестко-детерминированную систему.

На втором этапе анализируется объем единиц: совокупность должна быть достаточно большой по числу единиц и наблюдений, число факторов «n» должно соответствовать количеству наблюдений «N». Данные должны быть количественно и качественно однородны.

На третьем этапе определяется форма связи и тип аналитической функции (парабола, гипербола, прямая) и находятся ее параметры.

На четвертом этапе оценивается достоверность всех характеристик корреляционной связи и уравнения регрессии используя критерий достоверности Фишера или Стьюдента, производится экономико-технологический анализ параметров.

На пятом этапе осуществляется прогноз возможных значений результата по лучшим значениям факторных признаков, включенных в модель. Здесь выбираются наилучшие и наихудшие значения факторов и результата.

06.06.2018 17 887 0 Игорь

Психология и общество

Все в мире взаимосвязано. Каждый человек на уровне интуиции пытается найти взаимосвязи между явлениями, чтобы иметь возможность влиять на них и управлять ними. Понятие, которое отражает эту взаимосвязь, называется корреляцией. Что она означает простыми словами?

Содержание:

Понятие корреляции

Корреляция (от латинского «correlatio» – соотношение, взаимосвязь) – математический термин, который означает меру статистической вероятностной зависимости между случайными величинами (переменными).



Пример: возьмем два вида взаимосвязи:

  1. Первый – ручка в руке человека. В какую сторону движется рука, в такую сторону и ручка. Если рука находится в состоянии покоя, то и ручка не будет писать. Если человек чуть сильнее надавит на нее, то след на бумаге будет насыщеннее. Такой вид взаимосвязи отражает жесткую зависимость и не является корреляционным. Это взаимосвязь – функциональная.
  2. Второй вид – зависимость между уровнем образования человека и прочтением литературы. Заранее неизвестно, кто из людей больше читает: с высшим образованием или без него. Эта связь – случайная или стохастическая, ее изучает статистическая наука, которая занимается исключительно массовыми явлениями. Если статистический расчет позволит доказать корреляционную связь между уровнем образованности и прочтением литературы, то это даст возможность делать какие-либо прогнозы, предсказывать вероятностное наступление событий. В этом примере с большой долей вероятности можно утверждать, что больше читают книги люди с высшим образованием, те, кто более образован. Но поскольку связь между данными параметрами не функциональная, то мы можем и ошибиться. Всегда можно рассчитать вероятность такой ошибки, которая будет однозначно невелика и называется уровнем статистической значимости (p).

Примерами взаимосвязи между природными явлениями являются: цепочка питания в природе, организм человека, который состоит из систем органов, взаимосвязанных между собой и функционирующих как единое целое.

Каждый день мы сталкиваемся с корреляционной зависимостью в повседневной жизни: между погодой и хорошим настроением, правильной формулировкой целей и их достижением, положительным настроем и везением, ощущением счастья и финансовым благополучием. Но мы ищем связи, опираясь не на математические расчеты, а на мифы, интуицию, суеверия, досужие домыслы. Эти явления очень сложно перевести на математический язык, выразить в цифрах, измерить. Другое дело, когда мы анализируем явления, которые можно просчитать, представить в виде цифр. В таком случае мы можем определить корреляцию с помощью коэффициента корреляции (r), отражающего силу, степень, тесноту и направление корреляционной связи между случайными переменными.

Сильная корреляция между случайными величинами – свидетельство наличия некоторой статистической связи конкретно между этими явлениями, но эта связь не может переноситься на эти же явления, но для другой ситуации. Часто исследователи, получив в расчетах значительную корреляцию между двумя переменными, основываясь на простоте корреляционного анализа, делают ложные интуитивные предположения о существовании причинно-следственных взаимосвязей между признаками, забывая о том, что коэффициент корреляции носит вероятностный характер.

Пример: количество травмированных во время гололеда и число ДТП среди автотранспорта. Эти величины будут коррелировать между собой, хотя они абсолютно не взаимосвязаны между собой, а имеют только связь с общей причиной этих случайных событий – гололедицей. Если же анализ не выявил корреляционной взаимосвязи между явлениями, это еще не является свидетельством отсутствия зависимости между ними, которая может быть сложной нелинейной, не выявляющейся с помощью корреляционных расчетов.




Первым, кто ввел в научный оборот понятие корреляции, был французский палеонтолог Жорж Кювье . Он в XVIII веке вывел закон корреляции частей и органов живых организмов, благодаря которому появилась возможность восстанавливать по найденным частям тела (останкам) облик всего ископаемого существа, животного. В статистике термин корреляции впервые применил в 1886 году английский ученый Френсис Гальтон . Но он не смог вывести точную формулу для расчета коэффициента корреляции, но это сделал его студент – известнейший математик и биолог Карл Пирсон.

Виды корреляции

По значимости – высокозначимая, значимая и незначимая.

Виды

чему равен r

Высокозначимая

r соответствует уровню статистической значимости p<=0,01

Значимая

r соответствует p<=0,05

Незначимая

r не достигает p>0,1

Отрицательная (уменьшение значения одной переменной ведет к росту уровня другой: чем больше у человека фобий, тем меньше вероятность занять руководящую должность) и положительная (если рост одной величины влечет за собой увеличение уровня другой: чем больше нервничаешь, тем больше вероятность заболеть). Если связи между переменными нет, то тогда такая корреляция называется нулевой.

Линейная (когда одна величина возрастает или убывает, вторая тоже увеличивается или уменьшается) и нелинейная (когда при изменении одной величины характер изменения второй невозможно описать с помощью линейной зависимости, тогда применяются другие математические законы – полиномиальной, гиперболической зависимости).

По силе .

Коэффициенты




В зависимости от того, к какой шкале относятся исследуемые переменные, рассчитываются разные виды коэффициентов корреляции:

  1. Коэффициент корреляции Пирсона, коэффициент парной линейной корреляции или корреляция моментов произведений рассчитывается для переменных с интервальной и количественной шкалой измерения.
  2. Коэффициент ранговой корреляции Спирмена или Кендалла – когда хотя бы одна из величин имеет порядковую шкалу либо не является нормально распределённой.
  3. Коэффициент точечной двухрядной корреляции (коэффициент корреляции знаков Фехнера) – если одна из двух величин является дихотомической.
  4. Коэффициент четырёхполевой корреляции (коэффициент множественной ранговой корреляции (конкордации) – если две переменные дихотомические.

Коэффициент Пирсона относится к параметрическим показателям корреляции, все остальные – к непараметрическим.

Значение коэффициента корреляции находится в пределах от -1 до +1. При полной положительной корреляции r = +1, при полной отрицательной – r = -1.

Формула и расчет





Примеры

Необходимо определить взаимосвязь двух переменных: уровня интеллектуального развития (по данным проведенного тестирования) и количества опозданий за месяц (по данным записей в учебном журнале) у школьников.

Исходные данные представлены в таблице:

Данные по уровню IQ (x)

Данные по количеству опозданий (y)

Сумма

1122

Среднее арифметическое

112,2


Чтобы дать правильную интерпретацию полученному показателю, необходимо проанализировать знак коэффициента корреляции (+ или -) и его абсолютное значение (по модулю).

В соответствии с таблицей классификации коэффициента корреляции по силе делаем вывод о том, rxy = -0,827 – это сильная отрицательная корреляционная зависимость. Таким образом, количество опозданий школьников имеет очень сильную зависимость от их уровня интеллектуального развития. Можно сказать, что ученики с высоким уровнем IQ опаздывают реже на занятия, чем ученики с низким IQ.



Коэффициент корреляции может применяться как учеными для подтверждения или опровержения предположения о зависимости двух величин или явлений и измерения ее силы, значимости, так и студентами для проведения эмпирических и статистических исследований по различным предметам. Необходимо помнить, что этот показатель не является идеальным инструментом, он рассчитывается лишь для измерения силы линейной зависимости и будет всегда вероятностной величиной, которая имеет определенную погрешность.

Корреляционный анализ применяется в следующих областях:

  • экономическая наука;
  • астрофизика;
  • социальные науки (социология, психология, педагогика);
  • агрохимия;
  • металловедение;
  • промышленность (для контроля качества);
  • гидробиология;
  • биометрия и т.д.

Причины популярности метода корреляционного анализа:

  1. Относительная простота расчета коэффициентов корреляции, для этого не нужно специальное математическое образование.
  2. Позволяет рассчитать взаимосвязи между массовыми случайными величинами, которые являются предметом анализа статистической науки. В связи с этим этот метод получил широкое распространение в области статистических исследований.

Надеюсь, теперь вы сможете отличить функциональную взаимосвязь от корреляционной и будете знать, что когда вы слышите по телевидению или читаете в прессе о корреляции, то под ней подразумевают положительную и достаточно значимую взаимозависимость между двумя явлениями.

7.3.1. Коэффициенты корреляции и детерминации. Можно количественно определить тесноту связи между факторами и ее направленность (прямую или обратную), вычислив:

1) если нужно определить носящую линейный характер взаимосвязь между двумя факторами, - парный коэффициент корреляции : в 7.3.2 и 7.3.3 рассмотрены операции вычисления парного линейного коэффициента корреляции по Бравэ–Пирсону (r ) и парного рангового коэффициента корреляции по Спирмену (r );

2) если мы хотим определить взаимосвязь между двумя факторами, но зависимость эта явно нелинейная - то корреляционное отношение ;

3) если мы хотим, определить связь между одним фактором и некоторой совокупностью других факторов - то (или, что то же самое, «коэффициент множественной корреляции»);

4) если мы хотим выявить изолированно связь одного фактора только с конкретным другим, входящим в группу факторов, воздействующих на первый, для чего приходится считать влияние всех остальных факторов неизменным - то частный (парциальный) коэффициент корреляции .

Любой коэффициент корреляции (r, r) не может по абсолютной величине превышать 1, то есть –1 < r (r) < 1). Если получено значение 1, то это значит, что рассматриваемая зависимость не статистическая, а функциональная, если 0 - корреляции нет вообще.

Знак при коэффициенте корреляции определяет направ­ленность связи: знак «+» (либо отсутствие знака) означает, что связь прямая (положительная ), знак «–» - что связь обратная (отрицательная ). К тесноте связи знак никакого отношения не имеет

Коэффициент корреляции характеризует статистическую взаимосвязь. Но часто нужно определить другого типа зависимость, а именно: каков вклад некоторого фактора в формирование другого связанного с ним фактора. Такого рода зависимость с некоторой долей условности характеризуется коэффициентом детерминации (D ), определяемым по формуле D = r 2 ´100% (где r - коэффициент корреляции по Бравэ–Пирсону, см. 7.3.2). Если измерения проводились в шкале порядка (шкале рангов) , то с некоторым ущербом для достоверности можно вместо значения r подставить в формулу значение r (коэффициента корреляции по Спирмену, см. 7.3.3).

Например, если мы получили как характеристику зависимости фактора Б от фактора А коэффициент корреляции r = 0,8 или r = –0,8, то D = 0,8 2 ´100% = 64%, то есть около 2½ 3. Следовательно, вклад фактора А и его изменений в формирование фактора Б составляет примерно 2½ 3 от суммарного вклада всех вообще факторов.

7.3.2. Коэффициент корреляции по Бравэ-Пирсону. Процедуру вычисления коэффициента корреляции по Бравэ–Пирсону (r ) можно применять только в тех случаях, когда связь рассматривается на базе выборок, имеющих нормальное распределение частот (нормальное распределение ) и полученных измерениями в шкалах интервалов или отношений. Расчетная формула этого коэффициента корреляции:



å (x i – )(y i – )

r = .

n×s x ×s y

Что показывает коэффициент корреляции? Во-первых, знак при коэффициенте корреляции показывает направленность связи, а именно: знак «–» свидетельствует о том, что связь обратная , или отрицательная (имеет место тенденция: с убыванием значений одного фактора соответствующие значения другого фактора растут, а с возрастанием - убывают), а отсутствие знака или знак «+» свидетельствуют о прямой , или положительной связи (имеет место тенденция: с увеличением значений одного фактора увеличиваются и значения другого, а с уменьшением - уменьшаются). Во-вторых, абсолютная (не зависящая от знака) величина коэффициента корреляции говорит о тесноте (силе) связи. Принято считать (в достаточной мере условно): при значениях r < 0,3 корреляция очень слабая , нередко ее просто не принимают в расчет, при 0,3 £ r < 5 корреляция слабая , при 0,5 £ r < 0,7) - средняя , при 0,7 £ r £ 0,9) - сильная и, наконец, при r > 0,9 - очень сильная. В нашем случае (r » 0,83) связь обратная (отрицательная) и сильная.

Напомним: значения коэффициента корреляции могут находиться в интервале от –1 до +1. Выход значения r за эти пределы свидетельствует о том, что в расчетах допущена ошибка . Если r = 1, то это значит, что связь не статистическая, а функциональная - чего в спорте, биологии, медицине практически не бывает. Хотя при небольшом количестве измерений случай ный подбор значений, дающий картину функциональной связи, возможен, но такой случай тем менее вероятен, чем больше объем сопоставляемых выборок (n), то есть количество пар сравниваемых измерений.

Расчетная таблица (табл. 7,1)строится соответственно формуле.

Таблица 7.1.

Расчетная таблица для вычисления по Бравэ–Пирсону

x i y i (x i – ) (x i – ) 2 (y i – ) (y i – ) 2 (x i – )(y i – )
13,2 4,75 0,2 0,04 –0,35 0,1225 – 0,07
13,5 4,7 0,5 0,25 – 0,40 0,1600 – 0,20
12,7 5,10 – 0,3 0,09 0,00 0,0000 0,00
12,5 5,40 – 0,5 0,25 0,30 0,0900 – 0,15
13,0 5,10 0,0 0,00 0,00 0.0000 0,00
13,2 5,00 0,1 0,01 – 0,10 0,0100 – 0,02
13,1 5,00 0,1 0,01 – 0,10 0,0100 – 0,01
13,4 4,65 0,4 0,16 – 0,45 0,2025 – 0,18
12,4 5,60 – 0,6 0,36 0,50 0,2500 – 0,30
12,3 5,50 – 0,7 0,49 0,40 0,1600 – 0,28
12,7 5,20 –0,3 0,09 0,10 0,0100 – 0,03
åx i =137 =13,00 åy i =56,1 =5,1 å(x i – ) 2 = =1,78 å(y i – ) 2 = = 1,015 å(x i – )(y i – )= = –1,24

Поскольку s х = ï ï = ï ï» 0,42, а

s y =ï ï» 0,32, r » –1,24ï (11´0,42´0,32)» –1,24ï 1,48 » –0,83 .

Иными словами, нужно очень твердо знать, что коэффициент корреляции не может по абсолютной величине превосходить 1,0. Это нередко позволяет избежать грубейших ошибок, точнее - найти и исправить допущенные при подсчетах ошибки.

7.3.3. Коэффициент корреляции по Спирмену . Как уже было сказано, применять коэффициент корреляции по Бравэ–Пирсону (r) можно только в тех случаях, когда анализируемые факторы по распределению частот близки к нормальному и значения вариант получены измерениями обязательно в шкале отношений или в шкале интервалов, что бывает, если они выражены физическими единицами. В остальных случаях находят коэффициент корреляции по Спирмену (r ). Впрочем, этот коэффициент можно применять и в случаях, когда разрешено (и желательно! ) применять коэффициент корреляции по Бравэ-Пирсону. Но следует иметь в виду, что процедура определения коэффициента по Бравэ-Пирсону обладает большей мощностью («разрешающей способностью »), поэтому r более информативен, чем r . Даже при большом n отклонение r может быть порядка ±10%.

Таблица 7.2 Расчетная формула коэффици-

x i y i R x R y |d R | d R 2 ента корреляции по Спирмену

13,2 4,75 8,5 3,0 5,5 30,25 r = 1 – . Вос

13,5 4,70 11,0 2,0 9,0 81,00 пользуемся нашим примером

12,7 5,10 4,5 6,5 2,0 4,00 для расчета r , но построим

12,5 5,40 3,0 9,0 6,0 36,00 иную таблицу (табл.7.2).

13,0 5,10 6,0 6,5 0,5 0,25 Подставим значения:

13,2 5,00 8,5 4,5 4,0 16,00 r = 1– =

13,1 5,00 7,0 4,5 2,5 6,25 =1– 2538:1320 » 1–1,9 » – 0,9.

13,4 4,65 10,0 1,0 9,0 81,00 Мы видим: r оказался немного

12,4 5,60 2,0 11,0 9,0 81,00 больше, чем r , но это разли-

12,3 5,50 1,0 10,0 9,0 81,00 чие не очень велико. Ведь при

12,7 5,20 4,5 8,0 3,5 12,25 таком малом n значения r и r

åd R 2 = 423 очень уж приблизительны, мало достоверны, их действительное значение может колебаться в широких пределах, поэтому различие r иr в 0,1 малосущественно. Обычно r рассматривают как аналог r , но только менее точный . Знаки при r и r показывает направленность связи.

7.3.4. Применение и проверка достоверности коэффициентов корреляции. Определение степени корреляционной зависимости между факторами необходимо для управления развитием нужного нам фактора: для этого приходится влиять на другие факторы, существенно влияющие на него, и нужно знать меру их действенности. Знать про взаимосвязь факторов нужно для разработки или выбора готовых тестов: информативность теста определяется корреляцией его результатов с проявле­ниями интересующего нас признака или свойства. Без знания корреляций невозможны любые формы отбора.

Выше было отмечено, что в спортивной и вообще педагогической, медицинской и даже экономической и социологической практике большой интерес представляет определение того вклада , который один фактор вносит в формирование другого . Это связано с тем, что помимо рассматриваемого фактора-причины на целевой (интересующий нас) фактор действуют, давая каждый тот или иной вклад в него, и другие.

Считается, что мерой вклада каждого фактора-причины может служить коэффициент детерминации D i = r 2 ´100%. Так, например, если r = 0,6, т.е. связь между факторами А и Б средняя, то D = 0,6 2 ´100% = 36%. Зная, таким образом, что вклад фактора А в формирование фактора Б приблизительно 1½ 3, можно, например уделять целенаправленному развитию этого фактора приблизительно 1½ 3 тренировочного времени. Если же коэффициент корреляции r = 0,4 , то D = r 2 100% =16%, или примерно 1½ 6 - в два с лишним раза меньше, и уделять его развитию по этой логике следует соответственно лишь 1½ 6 часть тренировочного времени.

Величины D i для разных существенных факторов дают приблизительное представление о количественном взаимоот­ношении их влияний на интересующий нас целевой фактор, ради совершенствования которого мы, собственно, и работаем над другими факторами (например, прыгун в длину с разбега работает над повышением скорости своего спринтерского бега, так как оно является тем фактором, который дает самый значительный вклад в формирование результата в прыжках).

Напомним, что определяя D можно вместо r поставить r , хотя, конечно, точность определения оказывается ниже.

На основе выборочного (рассчитанного по выборочным данным) коэффициента корреляции нельзя делать вывод о достоверности факта наличия связи между рассматриваемыми факторами вообще. Для того, чтобы сделать такой вывод с той или иной степенью обоснованности, используют стандартные критерии значимости корреляции . Их применение предполагает линейную зависимость между факторами и нормальное распределение частот в каждом из них (имея в виду не выборочное, а генеральное их представление).

Можно, например, применить t-критерии Стьюдента. Его рас-

четная формула: t p = –2 , где k - исследуемый выборочный коэффициент корреляции, a n - объем сопоставляемых выборок. Полученное расчетное значение t-критерия (t р)сравнивают с табличным при выбранном нами уровне значимости и числе степеней свободы n = n – 2. Чтобы избавиться от расчетной работы, можно воспользоваться специальной таблицей критических значений выборочных коэффициентов корреляции (см. выше), соответствующих наличию достоверной связи между факторами (с учетом n и a ).

Таблица 7.3.

Граничные значений достоверности выборочного коэффициента корреляции

Число степеней свободы при определении коэффициентов корреляции принимают равным 2 (т.е. n = 2) Указанные в табл. 7.3 значения имеют нижней границей доверительного интервала истинного коэффициента корреляции 0, то есть при таких значениях нельзя утверждать, что корреляция вообще имеет место. При значении выборочного коэффициента корреляции выше указанного в таблице можно при соответствующем уровне значимости считать, что истинный коэффициент корреляции не равен нулю.

Но ответ на вопрос, есть ли реальная связь между рассматриваемыми факторами, оставляет место для другого вопроса: в каком интервале лежит истинное значение коэффициента корреляции, каким он может быть на самом деле, при бесконечно большом n ? Этот интервал для любого конкретного значения r и n сопоставляемых факторов можно рассчитать, но удобнее пользоваться системой графиков (номограммой ), где каждая пара кривых, построенная для не которого указанного над ними n , соответствует границам интервала.

Рис. 7.4. Доверительные границы выборочного коэффициента корреляции (a = 0,05). Каждая кривая соответствует указанному над ней n .

Обратясь к номограмме на рис. 7.4, можно определить интервал значений истинного коэффициента корреляции для вычисленных значений выборочного коэффициента корреляции при a = 0,05.

7.3.5. Корреляционные отношения. Если парная корреляция нелинейна , нельзя вычислять коэффициент корреляции, определяют корреляционные отношения . Обязательное требование: признаки должны быть измерены в шкале отношений или в шкале интервалов. Можно вычислять корреляционную зависимость фактора X от фактора Y и корреляционную зависимость фактора Y от фактора X - они различаются. При небольшом объеме n рассматриваемых выборок, представляющих факторы, для вычисления корреляционных отношений можно пользоваться формулами:

корреляционное отношение h x ½ y = ;

корреляционное отношение h y ½ x = .

Здесь и - средние арифметические выборок X и Y, и - внутриклассовые средние арифметические. Tо есть - среднее арифметическое тех значений в выборке фактора Х, с которыми сопряжены одинаковые значения в выборке фактора Y (например, если в факторе X имеются значения 4, 6, и 5, с которыми в выборке фактора Y сопряжены 3 варианты с одинаковым значением 9, то = (4+6+5)½ 3 = 5). Соответственно - среднее арифметическое тех значений в выборке фактора Y, с которыми сопряжены одинаковые значения в выборке фактора Х. Приведем пример и проведем расчет:

Х: 75 77 78 76 80 79 83 82 ; Y: 42 42 43 43 43 44 44 45 .

Таблица 7.4

Расчетная таблица

х i y i x y х i – х (х i – х ) 2 х i – х y (x i x y ) 2
–4 –1
–2
–3 –2
–1
–3
x=79 y=43 S=76 S=28

Следовательно, h y ½ x = » 0,63.

7.3.6. Частные и множественный коэффициенты корреляции. Чтобы оценить зависимость между 2-мя факторами, вычисляя коэффициенты корреляции, мы как бы по умолчанию предполагаем, что никакие другие факторы на эту зависимость никакого воздействия не оказывают. В реальности дело обстоит не так. Так, на зависимость между весом и ростом очень существенно влияют калорийность питания, величина систематической физической нагрузки, наследственность и др. Когда нужно при оценке связи между 2-мя факторами учесть существенное влияние других факторов и в то же время как бы изолироваться от них, считая их неизменными , вычисляют частные (иначе - парциальные ) коэффициенты корреляции.

Пример: нужно оценить парные зависимости между 3-мя существенно действующими факторами X, Y и Z. Обозначим r XY (Z) частный (парциальный) коэффициент корреляции между факторами X и Y (при этом величину фактора Z считаем неизменной), r ZX (Y) - частный коэффициент корреляции между факторами Z и X (при неизменном значении фактора Y), r YZ (X) - частный коэффициент корреляции между факторами Y и Z (при неизменном значении фактора X). Используя вычисленные простые парные (по Бравэ-Пирсону) коэффициенты корреляции r XY , r XZ и r YZ , м

ожно вычислить частные (парциальные) коэффициенты корреляции по формулам:

r XY – r XZ ´r YZ r XZ – r XY ´r ZY r ZY –r ZX ´r YZ

r XY (Z) = ; r XZ (Y) = ; r ZY (Х) =

Ö(1–r 2 XZ)(1–r 2 YZ) Ö(1– r 2 XY)(1–r 2 ZY) Ö(1–r 2 ZX)(1–r 2 YX)

И частные коэффициенты корреляции могут принимать значения от –1 до +1. Возведя их в квадрат, получают соответствующие частные коэффициенты детерминации , называемые также частными мерами определенности (умножив на 100, выразим в %%). Частные коэффициенты корреляции больше или меньше отличаются от простых (полных) парных коэффициентов, что зависит от силы влияния на них 3-го фактора (как бы неизменного). Нулевая гипотеза (Н 0), то есть гипотеза об отсутствии связи (зависимости) между факторами X и Y, проверяется (при общем количество признаков k ) вычислением t-критерия по формуле: t Р = r XY (Z) ´ (n –k) 1 ½ 2 ´ (1–r 2 XY (Z)) –1 ½ 2 .

Если t Р < t a n , гипотеза принимается (считаем, что зависимости нет), если же t Р ³ t a n - гипотеза опровергается, то есть считается, что зависимость действительно имеет место. t a n берется по таблице t -критерия Стьюдента, причем k - количество учитываемых факторов (в нашем примере 3), число степеней свободы n = n – 3. Другие частные коэффициенты корреляции проверяют аналогично (в формулу вместо r XY (Z) подставляют соответственно r XZ (Y) или r ZY (X)).

Таблица 7.5

Исходные данные

Ö (1 – 0,71 2)(1 – 0,71 2) Ö (1 – 0,5)(1 – 0,5)

Для оценки зависимости фактора Х от совместного действия нескольких факторов (здесь факторы Y и Z), вычисляют значения простых парных коэффициентов корреляции и, используя их, вычисляют множественный коэффициент корреляции r X (YZ) :

Ö r 2 XY + r 2 XZ – 2r XY ´ r XZ ´ r YZ

r X (YZ) = .

Ö 1 – r 2 YZ

7.2.7. Коэффициент ассоциации. Нередко требуется количественно оценить зависимость между качественными признаками, т.е. такими признаками, которые нельзя представить (охарактеризовать) количественно, которые неизмеримы . Например, стоит задача выяснить, существует ли зависимость между спортивной специализацией занимающихся и такими личностными свойствами, как интравертность (направленность личности на явления собственного субъективного мира) и экстравертность (направленность личности на мир внешних объектов). Условные обозначения представим в табл. 7.6.

Таблица 7.6.

X (лет) Y (раз) Z (раз) X (лет) Y (раз) Z (раз)
Признак 1 Признак 2 Интравертность Экстравертность
Спортивные игры а b
Гимнастика с d

Очевидно, что числами, имеющимися в нашем распоряжении, здесь могут быть только частоты распределений. В таком случае вычисляют коэффициент ассоциации (другое название «коэффициент сопряженности »). Рассмотрим простейший случай: связь между двумя парами признаков, при этом вычисленный коэффициент сопряженности называют тетрахорическим (см. табл.).

Таблица 7.7.

а =20 b = 15 a + b = 35
с =15 d = 5 c + d = 20
a + c = 35 b + d = 20 n = 55

Вычисления производим по формуле:

ad – bc 100 – 225 –123

Вычисление коэффициентов ассоциации (коэффициентов сопряжения) при большем количестве признаков связано с расчетами по аналогичной матрице соответствующего порядка.


Top