Если значение коэффициента корреляции равно 1 то. Критерий корреляции пирсона

Главная / Фридрих Шиллер

КУРСОВАЯ РАБОТА

Тема: Корреляционный анализ

Введение

1. Корреляционный анализ

1.1 Понятие корреляционной связи

1.2 Общая классификация корреляционных связей

1.3 Корреляционные поля и цель их построения

1.4 Этапы корреляционного анализа

1.5 Коэффициенты корреляции

1.6 Нормированный коэффициент корреляции Браве-Пирсона

1.7 Коэффициент ранговой корреляции Спирмена

1.8 Основные свойства коэффициентов корреляции

1.9 Проверка значимости коэффициентов корреляции

1.10 Критические значения коэффициента парной корреляции

2. Планирование многофакторного эксперимента

2.1 Условие задачи

2.2 Определение центр плана (основной уровень) и уровня варьирования факторов

2.3 Построение матрицы планирования

2.4 Проверка однородности дисперсии и равноточности измерения в разных сериях

2.5 Коэффициенты уравнения регрессии

2.6 Дисперсия воспроизводимости

2.7 Проверка значимости коэффициентов уравнения регрессии

2.8 Проверка адекватности уравнения регрессии

Заключение

Список литературы

ВВЕДЕНИЕ

Планирование эксперимента -математико-статистическая дисциплина, изучающая методы рациональной организации экспериментальных исследований - от оптимального выбора исследуемых факторов и определения собственно плана эксперимента в соответствии с его целью до методов анализа результатов. Начало планирования эксперимента положили труды английского статистика Р.Фишера (1935), подчеркнувшего, что рациональное планирование экспериментадаёт не менее существенный выигрыш в точности оценок, чем оптимальная обработка результатов измерений. В 60-х годах 20 века сложилась современная теория планирования эксперимента. Её методы тесно связаны с теорией приближения функций и математическим программированием. Построены оптимальные планы и исследованы их свойства для широкого класса моделей.

Планирование эксперимента – выбор плана эксперимента, удовлетворяющего заданным требованиям, совокупность действий направленных на разработку стратегии экспериментирования (от получения априорной информации до получения работоспособной математической модели или определения оптимальных условий). Это целенаправленное управление экспериментом, реализуемое в условиях неполного знания механизма изучаемого явления.

В процессе измерений, последующей обработки данных, а также формализации результатов в виде математической модели, возникают погрешности и теряется часть информации, содержащейся в исходных данных. Применение методов планирования эксперимента позволяет определить погрешность математической модели и судить о ее адекватности. Если точность модели оказывается недостаточной, то применение методов планирования эксперимента позволяет модернизировать математическую модель с проведением дополнительных опытов без потери предыдущей информации и с минимальными затратами.

Цель планирования эксперимента – нахождение таких условий и правил проведения опытов при которых удается получить надежную и достоверную информацию об объекте с наименьшей затратой труда, а также представить эту информацию в компактной и удобной форме с количественной оценкой точности.

Среди основных методов планирования, применяемых на разных этапах исследования, используют:

Планирование отсеивающего эксперимента, основное значение которого выделение из всей совокупности факторов группы существенных факторов, подлежащих дальнейшему детальному изучению;

Планирование эксперимента для дисперсионного анализа, т.е. составление планов для объектов с качественными факторами;

Планирование регрессионного эксперимента, позволяющего получать регрессионные модели (полиномиальные и иные);

Планирование экстремального эксперимента, в котором главная задача – экспериментальная оптимизация объекта исследования;

Планирование при изучении динамических процессов и т.д.

Целью изучения дисциплины является подготовка студентов к производственно-технической деятельности по специальности с применением методов теории планирования и современных информационных технологий.

Задачи дисциплины: изучение современных методов планирования, организации и оптимизации научного и промышленного эксперимента, проведения экспериментов и обработки полученных результатов.

1. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

1.1 Понятие корреляционной связи

Исследователя нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, может ли рост влиять на вес человека или может ли давление влиять на качество продукции?

Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией. Корреляционная связь - это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.

Известно, например, что в среднем между ростом людей и их весом наблюдается положительная связь, и такая, что чем больше рост, тем больше вес человека. Однако из этого правила имеются исключения, когда относительно низкие люди имеют избыточный вес, и, наоборот, астеники, при высоком росте имеют малый вес. Причиной подобных исключений является то, что каждый биологический, физиологический или психологический признак определяется воздействием многих факторов: средовых, генетических, социальных, экологических и т.д.

Корреляционные связи - это вероятностные изменения, которые можно изучать только на представительных выборках методами математической статистики. Оба термина - корреляционная связь и корреляционная зависимость - часто используются как синонимы. Зависимость подразумевает влияние, связь - любые согласованные изменения, которые могут объясняться сотнями причин. Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной зависимости, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого.

Корреляционная зависимость - это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака.

Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (линейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимости полученных коэффициентов корреляции.

Корреляционные связи различаютсяпо форме, направлению и степени (силе).

По форме корреляционная связь может быть прямолинейной или криволинейной. Прямолинейной может быть, например, связь между количеством тренировок на тренажере и количеством правильно решаемых задач в контрольной сессии. Криволинейной может быть, например, связь между уровнем мотивации и эффективностью выполнения задачи (рисунок 1). При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутствует уже снижение эффективности.

Рисунок 1 - Связь между эффективностью решения задачи и силой мотивационной тенденции

По направлению корреляционная связь может быть положительной ("прямой") и отрицательной ("обратной"). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака - низкие значения другого (рисунок 2). При отрицательной корреляции соотношения обратные (рисунок 3). При положительной корреляции коэффициент корреляции имеет положительный знак, при отрицательной корреляции - отрицательный знак.

Рисунок 2 – Прямая корреляция

Рисунок 3 – Обратная корреляция


Рисунок 4 – Отсутствие корреляции

Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции. Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции.

1.2 Общая классификация корреляционных связей

В зависимости от коэффициента корреляции различают следующие корреляционные связи:

Сильная, или тесная при коэффициенте корреляции r>0,70;

Средняя (при 0,50

Умеренная (при 0,30

Слабая (при 0,20

Очень слабая (при r<0,19).

1.3 Корреляционные поля и цель их построения

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (x i , y i) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений x i и y i . При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения x i и y i . Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами x i и y i графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем.
Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: μ x , μ y – средние значения (математические ожидания); σ x ,σ y – стандартные отклонения случайных величин Х и Y и р – коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.
Если р = 0, то значения, x i , y i , полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рисунок 5, а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.

7.3.1. Коэффициенты корреляции и детерминации. Можно количественно определить тесноту связи между факторами и ее направленность (прямую или обратную), вычислив:

1) если нужно определить носящую линейный характер взаимосвязь между двумя факторами, - парный коэффициент корреляции : в 7.3.2 и 7.3.3 рассмотрены операции вычисления парного линейного коэффициента корреляции по Бравэ–Пирсону (r ) и парного рангового коэффициента корреляции по Спирмену (r );

2) если мы хотим определить взаимосвязь между двумя факторами, но зависимость эта явно нелинейная - то корреляционное отношение ;

3) если мы хотим, определить связь между одним фактором и некоторой совокупностью других факторов - то (или, что то же самое, «коэффициент множественной корреляции»);

4) если мы хотим выявить изолированно связь одного фактора только с конкретным другим, входящим в группу факторов, воздействующих на первый, для чего приходится считать влияние всех остальных факторов неизменным - то частный (парциальный) коэффициент корреляции .

Любой коэффициент корреляции (r, r) не может по абсолютной величине превышать 1, то есть –1 < r (r) < 1). Если получено значение 1, то это значит, что рассматриваемая зависимость не статистическая, а функциональная, если 0 - корреляции нет вообще.

Знак при коэффициенте корреляции определяет направ­ленность связи: знак «+» (либо отсутствие знака) означает, что связь прямая (положительная ), знак «–» - что связь обратная (отрицательная ). К тесноте связи знак никакого отношения не имеет

Коэффициент корреляции характеризует статистическую взаимосвязь. Но часто нужно определить другого типа зависимость, а именно: каков вклад некоторого фактора в формирование другого связанного с ним фактора. Такого рода зависимость с некоторой долей условности характеризуется коэффициентом детерминации (D ), определяемым по формуле D = r 2 ´100% (где r - коэффициент корреляции по Бравэ–Пирсону, см. 7.3.2). Если измерения проводились в шкале порядка (шкале рангов) , то с некоторым ущербом для достоверности можно вместо значения r подставить в формулу значение r (коэффициента корреляции по Спирмену, см. 7.3.3).

Например, если мы получили как характеристику зависимости фактора Б от фактора А коэффициент корреляции r = 0,8 или r = –0,8, то D = 0,8 2 ´100% = 64%, то есть около 2½ 3. Следовательно, вклад фактора А и его изменений в формирование фактора Б составляет примерно 2½ 3 от суммарного вклада всех вообще факторов.

7.3.2. Коэффициент корреляции по Бравэ-Пирсону. Процедуру вычисления коэффициента корреляции по Бравэ–Пирсону (r ) можно применять только в тех случаях, когда связь рассматривается на базе выборок, имеющих нормальное распределение частот (нормальное распределение ) и полученных измерениями в шкалах интервалов или отношений. Расчетная формула этого коэффициента корреляции:



å (x i – )(y i – )

r = .

n×s x ×s y

Что показывает коэффициент корреляции? Во-первых, знак при коэффициенте корреляции показывает направленность связи, а именно: знак «–» свидетельствует о том, что связь обратная , или отрицательная (имеет место тенденция: с убыванием значений одного фактора соответствующие значения другого фактора растут, а с возрастанием - убывают), а отсутствие знака или знак «+» свидетельствуют о прямой , или положительной связи (имеет место тенденция: с увеличением значений одного фактора увеличиваются и значения другого, а с уменьшением - уменьшаются). Во-вторых, абсолютная (не зависящая от знака) величина коэффициента корреляции говорит о тесноте (силе) связи. Принято считать (в достаточной мере условно): при значениях r < 0,3 корреляция очень слабая , нередко ее просто не принимают в расчет, при 0,3 £ r < 5 корреляция слабая , при 0,5 £ r < 0,7) - средняя , при 0,7 £ r £ 0,9) - сильная и, наконец, при r > 0,9 - очень сильная. В нашем случае (r » 0,83) связь обратная (отрицательная) и сильная.

Напомним: значения коэффициента корреляции могут находиться в интервале от –1 до +1. Выход значения r за эти пределы свидетельствует о том, что в расчетах допущена ошибка . Если r = 1, то это значит, что связь не статистическая, а функциональная - чего в спорте, биологии, медицине практически не бывает. Хотя при небольшом количестве измерений случай ный подбор значений, дающий картину функциональной связи, возможен, но такой случай тем менее вероятен, чем больше объем сопоставляемых выборок (n), то есть количество пар сравниваемых измерений.

Расчетная таблица (табл. 7,1)строится соответственно формуле.

Таблица 7.1.

Расчетная таблица для вычисления по Бравэ–Пирсону

x i y i (x i – ) (x i – ) 2 (y i – ) (y i – ) 2 (x i – )(y i – )
13,2 4,75 0,2 0,04 –0,35 0,1225 – 0,07
13,5 4,7 0,5 0,25 – 0,40 0,1600 – 0,20
12,7 5,10 – 0,3 0,09 0,00 0,0000 0,00
12,5 5,40 – 0,5 0,25 0,30 0,0900 – 0,15
13,0 5,10 0,0 0,00 0,00 0.0000 0,00
13,2 5,00 0,1 0,01 – 0,10 0,0100 – 0,02
13,1 5,00 0,1 0,01 – 0,10 0,0100 – 0,01
13,4 4,65 0,4 0,16 – 0,45 0,2025 – 0,18
12,4 5,60 – 0,6 0,36 0,50 0,2500 – 0,30
12,3 5,50 – 0,7 0,49 0,40 0,1600 – 0,28
12,7 5,20 –0,3 0,09 0,10 0,0100 – 0,03
åx i =137 =13,00 åy i =56,1 =5,1 å(x i – ) 2 = =1,78 å(y i – ) 2 = = 1,015 å(x i – )(y i – )= = –1,24

Поскольку s х = ï ï = ï ï» 0,42, а

s y =ï ï» 0,32, r » –1,24ï (11´0,42´0,32)» –1,24ï 1,48 » –0,83 .

Иными словами, нужно очень твердо знать, что коэффициент корреляции не может по абсолютной величине превосходить 1,0. Это нередко позволяет избежать грубейших ошибок, точнее - найти и исправить допущенные при подсчетах ошибки.

7.3.3. Коэффициент корреляции по Спирмену . Как уже было сказано, применять коэффициент корреляции по Бравэ–Пирсону (r) можно только в тех случаях, когда анализируемые факторы по распределению частот близки к нормальному и значения вариант получены измерениями обязательно в шкале отношений или в шкале интервалов, что бывает, если они выражены физическими единицами. В остальных случаях находят коэффициент корреляции по Спирмену (r ). Впрочем, этот коэффициент можно применять и в случаях, когда разрешено (и желательно! ) применять коэффициент корреляции по Бравэ-Пирсону. Но следует иметь в виду, что процедура определения коэффициента по Бравэ-Пирсону обладает большей мощностью («разрешающей способностью »), поэтому r более информативен, чем r . Даже при большом n отклонение r может быть порядка ±10%.

Таблица 7.2 Расчетная формула коэффици-

x i y i R x R y |d R | d R 2 ента корреляции по Спирмену

13,2 4,75 8,5 3,0 5,5 30,25 r = 1 – . Вос

13,5 4,70 11,0 2,0 9,0 81,00 пользуемся нашим примером

12,7 5,10 4,5 6,5 2,0 4,00 для расчета r , но построим

12,5 5,40 3,0 9,0 6,0 36,00 иную таблицу (табл.7.2).

13,0 5,10 6,0 6,5 0,5 0,25 Подставим значения:

13,2 5,00 8,5 4,5 4,0 16,00 r = 1– =

13,1 5,00 7,0 4,5 2,5 6,25 =1– 2538:1320 » 1–1,9 » – 0,9.

13,4 4,65 10,0 1,0 9,0 81,00 Мы видим: r оказался немного

12,4 5,60 2,0 11,0 9,0 81,00 больше, чем r , но это разли-

12,3 5,50 1,0 10,0 9,0 81,00 чие не очень велико. Ведь при

12,7 5,20 4,5 8,0 3,5 12,25 таком малом n значения r и r

åd R 2 = 423 очень уж приблизительны, мало достоверны, их действительное значение может колебаться в широких пределах, поэтому различие r иr в 0,1 малосущественно. Обычно r рассматривают как аналог r , но только менее точный . Знаки при r и r показывает направленность связи.

7.3.4. Применение и проверка достоверности коэффициентов корреляции. Определение степени корреляционной зависимости между факторами необходимо для управления развитием нужного нам фактора: для этого приходится влиять на другие факторы, существенно влияющие на него, и нужно знать меру их действенности. Знать про взаимосвязь факторов нужно для разработки или выбора готовых тестов: информативность теста определяется корреляцией его результатов с проявле­ниями интересующего нас признака или свойства. Без знания корреляций невозможны любые формы отбора.

Выше было отмечено, что в спортивной и вообще педагогической, медицинской и даже экономической и социологической практике большой интерес представляет определение того вклада , который один фактор вносит в формирование другого . Это связано с тем, что помимо рассматриваемого фактора-причины на целевой (интересующий нас) фактор действуют, давая каждый тот или иной вклад в него, и другие.

Считается, что мерой вклада каждого фактора-причины может служить коэффициент детерминации D i = r 2 ´100%. Так, например, если r = 0,6, т.е. связь между факторами А и Б средняя, то D = 0,6 2 ´100% = 36%. Зная, таким образом, что вклад фактора А в формирование фактора Б приблизительно 1½ 3, можно, например уделять целенаправленному развитию этого фактора приблизительно 1½ 3 тренировочного времени. Если же коэффициент корреляции r = 0,4 , то D = r 2 100% =16%, или примерно 1½ 6 - в два с лишним раза меньше, и уделять его развитию по этой логике следует соответственно лишь 1½ 6 часть тренировочного времени.

Величины D i для разных существенных факторов дают приблизительное представление о количественном взаимоот­ношении их влияний на интересующий нас целевой фактор, ради совершенствования которого мы, собственно, и работаем над другими факторами (например, прыгун в длину с разбега работает над повышением скорости своего спринтерского бега, так как оно является тем фактором, который дает самый значительный вклад в формирование результата в прыжках).

Напомним, что определяя D можно вместо r поставить r , хотя, конечно, точность определения оказывается ниже.

На основе выборочного (рассчитанного по выборочным данным) коэффициента корреляции нельзя делать вывод о достоверности факта наличия связи между рассматриваемыми факторами вообще. Для того, чтобы сделать такой вывод с той или иной степенью обоснованности, используют стандартные критерии значимости корреляции . Их применение предполагает линейную зависимость между факторами и нормальное распределение частот в каждом из них (имея в виду не выборочное, а генеральное их представление).

Можно, например, применить t-критерии Стьюдента. Его рас-

четная формула: t p = –2 , где k - исследуемый выборочный коэффициент корреляции, a n - объем сопоставляемых выборок. Полученное расчетное значение t-критерия (t р)сравнивают с табличным при выбранном нами уровне значимости и числе степеней свободы n = n – 2. Чтобы избавиться от расчетной работы, можно воспользоваться специальной таблицей критических значений выборочных коэффициентов корреляции (см. выше), соответствующих наличию достоверной связи между факторами (с учетом n и a ).

Таблица 7.3.

Граничные значений достоверности выборочного коэффициента корреляции

Число степеней свободы при определении коэффициентов корреляции принимают равным 2 (т.е. n = 2) Указанные в табл. 7.3 значения имеют нижней границей доверительного интервала истинного коэффициента корреляции 0, то есть при таких значениях нельзя утверждать, что корреляция вообще имеет место. При значении выборочного коэффициента корреляции выше указанного в таблице можно при соответствующем уровне значимости считать, что истинный коэффициент корреляции не равен нулю.

Но ответ на вопрос, есть ли реальная связь между рассматриваемыми факторами, оставляет место для другого вопроса: в каком интервале лежит истинное значение коэффициента корреляции, каким он может быть на самом деле, при бесконечно большом n ? Этот интервал для любого конкретного значения r и n сопоставляемых факторов можно рассчитать, но удобнее пользоваться системой графиков (номограммой ), где каждая пара кривых, построенная для не которого указанного над ними n , соответствует границам интервала.

Рис. 7.4. Доверительные границы выборочного коэффициента корреляции (a = 0,05). Каждая кривая соответствует указанному над ней n .

Обратясь к номограмме на рис. 7.4, можно определить интервал значений истинного коэффициента корреляции для вычисленных значений выборочного коэффициента корреляции при a = 0,05.

7.3.5. Корреляционные отношения. Если парная корреляция нелинейна , нельзя вычислять коэффициент корреляции, определяют корреляционные отношения . Обязательное требование: признаки должны быть измерены в шкале отношений или в шкале интервалов. Можно вычислять корреляционную зависимость фактора X от фактора Y и корреляционную зависимость фактора Y от фактора X - они различаются. При небольшом объеме n рассматриваемых выборок, представляющих факторы, для вычисления корреляционных отношений можно пользоваться формулами:

корреляционное отношение h x ½ y = ;

корреляционное отношение h y ½ x = .

Здесь и - средние арифметические выборок X и Y, и - внутриклассовые средние арифметические. Tо есть - среднее арифметическое тех значений в выборке фактора Х, с которыми сопряжены одинаковые значения в выборке фактора Y (например, если в факторе X имеются значения 4, 6, и 5, с которыми в выборке фактора Y сопряжены 3 варианты с одинаковым значением 9, то = (4+6+5)½ 3 = 5). Соответственно - среднее арифметическое тех значений в выборке фактора Y, с которыми сопряжены одинаковые значения в выборке фактора Х. Приведем пример и проведем расчет:

Х: 75 77 78 76 80 79 83 82 ; Y: 42 42 43 43 43 44 44 45 .

Таблица 7.4

Расчетная таблица

х i y i x y х i – х (х i – х ) 2 х i – х y (x i x y ) 2
–4 –1
–2
–3 –2
–1
–3
x=79 y=43 S=76 S=28

Следовательно, h y ½ x = » 0,63.

7.3.6. Частные и множественный коэффициенты корреляции. Чтобы оценить зависимость между 2-мя факторами, вычисляя коэффициенты корреляции, мы как бы по умолчанию предполагаем, что никакие другие факторы на эту зависимость никакого воздействия не оказывают. В реальности дело обстоит не так. Так, на зависимость между весом и ростом очень существенно влияют калорийность питания, величина систематической физической нагрузки, наследственность и др. Когда нужно при оценке связи между 2-мя факторами учесть существенное влияние других факторов и в то же время как бы изолироваться от них, считая их неизменными , вычисляют частные (иначе - парциальные ) коэффициенты корреляции.

Пример: нужно оценить парные зависимости между 3-мя существенно действующими факторами X, Y и Z. Обозначим r XY (Z) частный (парциальный) коэффициент корреляции между факторами X и Y (при этом величину фактора Z считаем неизменной), r ZX (Y) - частный коэффициент корреляции между факторами Z и X (при неизменном значении фактора Y), r YZ (X) - частный коэффициент корреляции между факторами Y и Z (при неизменном значении фактора X). Используя вычисленные простые парные (по Бравэ-Пирсону) коэффициенты корреляции r XY , r XZ и r YZ , м

ожно вычислить частные (парциальные) коэффициенты корреляции по формулам:

r XY – r XZ ´r YZ r XZ – r XY ´r ZY r ZY –r ZX ´r YZ

r XY (Z) = ; r XZ (Y) = ; r ZY (Х) =

Ö(1–r 2 XZ)(1–r 2 YZ) Ö(1– r 2 XY)(1–r 2 ZY) Ö(1–r 2 ZX)(1–r 2 YX)

И частные коэффициенты корреляции могут принимать значения от –1 до +1. Возведя их в квадрат, получают соответствующие частные коэффициенты детерминации , называемые также частными мерами определенности (умножив на 100, выразим в %%). Частные коэффициенты корреляции больше или меньше отличаются от простых (полных) парных коэффициентов, что зависит от силы влияния на них 3-го фактора (как бы неизменного). Нулевая гипотеза (Н 0), то есть гипотеза об отсутствии связи (зависимости) между факторами X и Y, проверяется (при общем количество признаков k ) вычислением t-критерия по формуле: t Р = r XY (Z) ´ (n –k) 1 ½ 2 ´ (1–r 2 XY (Z)) –1 ½ 2 .

Если t Р < t a n , гипотеза принимается (считаем, что зависимости нет), если же t Р ³ t a n - гипотеза опровергается, то есть считается, что зависимость действительно имеет место. t a n берется по таблице t -критерия Стьюдента, причем k - количество учитываемых факторов (в нашем примере 3), число степеней свободы n = n – 3. Другие частные коэффициенты корреляции проверяют аналогично (в формулу вместо r XY (Z) подставляют соответственно r XZ (Y) или r ZY (X)).

Таблица 7.5

Исходные данные

Ö (1 – 0,71 2)(1 – 0,71 2) Ö (1 – 0,5)(1 – 0,5)

Для оценки зависимости фактора Х от совместного действия нескольких факторов (здесь факторы Y и Z), вычисляют значения простых парных коэффициентов корреляции и, используя их, вычисляют множественный коэффициент корреляции r X (YZ) :

Ö r 2 XY + r 2 XZ – 2r XY ´ r XZ ´ r YZ

r X (YZ) = .

Ö 1 – r 2 YZ

7.2.7. Коэффициент ассоциации. Нередко требуется количественно оценить зависимость между качественными признаками, т.е. такими признаками, которые нельзя представить (охарактеризовать) количественно, которые неизмеримы . Например, стоит задача выяснить, существует ли зависимость между спортивной специализацией занимающихся и такими личностными свойствами, как интравертность (направленность личности на явления собственного субъективного мира) и экстравертность (направленность личности на мир внешних объектов). Условные обозначения представим в табл. 7.6.

Таблица 7.6.

X (лет) Y (раз) Z (раз) X (лет) Y (раз) Z (раз)
Признак 1 Признак 2 Интравертность Экстравертность
Спортивные игры а b
Гимнастика с d

Очевидно, что числами, имеющимися в нашем распоряжении, здесь могут быть только частоты распределений. В таком случае вычисляют коэффициент ассоциации (другое название «коэффициент сопряженности »). Рассмотрим простейший случай: связь между двумя парами признаков, при этом вычисленный коэффициент сопряженности называют тетрахорическим (см. табл.).

Таблица 7.7.

а =20 b = 15 a + b = 35
с =15 d = 5 c + d = 20
a + c = 35 b + d = 20 n = 55

Вычисления производим по формуле:

ad – bc 100 – 225 –123

Вычисление коэффициентов ассоциации (коэффициентов сопряжения) при большем количестве признаков связано с расчетами по аналогичной матрице соответствующего порядка.


Коэффициенты корреляции

До сих пор мы выясняли лишь сам факт существования статистической зависимости между двумя признаками. Далее мы попробуем выяснить, какие заключения можно сделать о силе или слабости этой зависимости, а также о ее виде и направленности. Критерии количественной оценки зависимости между переменными называются коэффициентами корреляции или мерами связанности. Две переменные коррелируют между собой положительно, если между ними существует прямое, однонаправленное соотношение. При однонаправленном соотношении малые значения одной переменной соответствуют малым значениям другой переменной, большие значения - большим. Две переменные коррелируют между собой отрицательно, если между ними существует обратное, разнонаправленное соотношение. При разнонаправленном соотношении малые значения одной переменной соответствуют большим значениям другой переменной и наоборот. Значения коэффициентов корреляции всегда лежат в диапазоне от -1 до +1.

В качестве коэффициента корреляции между переменными, принадлежащими порядковой шкале применяется коэффициент Спирмена , а для переменных, принадлежащих к интервальной шкале - коэффициент корреляции Пирсона (момент произведений). При этом следует учесть, что каждую дихотомическую переменную, то есть переменную, принадлежащую к номинальной шкале и имеющую две категории, можно рассматривать как порядковую .

Для начала мы проверим существует ли корреляция между переменными sex и psyche из файла studium.sav . При этом дихотомическую переменную sex можно считать порядковой. Выполните следующие действия:

    Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)

    Перенесите переменную sex в список строк, а переменную psyche - в список столбцов.

    Щелкните на кнопке Statistics ... (Статистика). В диалоге Crosstabs: Statistics установите флажок Correlations (Корреляции). Подтвердите выбор кнопкой Continue.

    В диалоге Crosstabs откажитесь от вывода таблиц, установив флажок Supress tables (Подавлять таблицы). Щелкните на кнопке ОК.

Будут вычислены коэффициенты корреляции Спирмена и Пирсона, а также проведена проверка их значимости:

Symmetric Measures (Симметричные меры)

Value (Значение) Asympt. Std. Error (а) (Асимптотическая стандартная ошибка) Approx. Т (b) (Приблиз. Т) Approx. Sig. (Приблизительная значимость)
Interval by Interval (Интервальный - интервальный) Pearson"s R
(R Пирсона)
,441 ,081 5,006 ,000 (с)
Ordinal by Ordinal (Порядковый - Порядковый) Spearman Correlation (Корреляция по Спирмену) ,439 ,083 4,987 ,000 (с)
N of Valid Cases (Кол-во допустимых случаев) 106

Так как здесь нет переменных с интервальной шкалой, мы рассмотрим коэффициент корреляции Спирмена. Он составляет 0,439 и является максимально значимым (р<0,001).

Для словесного описания величин коэффициента корреляции применяется следующая таблица:

Исходя из вышеприведенной таблицы, можно сделать следующие заключения: Между переменными sex и psyche существует слабая корреляция (заключение о силе зависимости), переменные коррелируют положительно (заключение о направлении зависимости).

В переменной psyche меньшие значения соответствуют отрицательному психическому состоянию, а большие - положительному. В переменной sex, в свою очередь, значение "1" соответствует женскому полу, а "2" - мужскому.

Следовательно, однонаправленность соотношения можно интерпретировать следующим образом: студентки оценивают свое психическое состояние более негативно, чем ".х коллеги-мужчины или, что вероятнее всего, в большей степени склонны согласиться на такую оценку при проведении анкетирования. Строя подобные интерпретации, нужно учитывать, что корреляция между двумя признаками не обязательно равнозначна их Функциональной или причинной зависимости. Подробнее об этом см. в разделе 15.3.

Теперь проверим корреляцию между переменными alter и semester. Применим методику, описанную выше. Мы получим следующие коэффициенты:

Symmetric Measures

Asympt. Std. Error (a)

Interval by Interval

Ordinal by Ordinal

Spearman Correlation

N of Valid Cases

a. Not assuming the null hypothesis (Нулевая гипотеза не принимается).

э. Using the asymptotic standard error assuming the null hypothesis (Используется асимптотическая стандартная ошибка с принятием нулевой гипотезы).

с. Based on normal approximation (На основе нормальной аппроксимации).

Так как переменные alter и semester являются метрическими, мы рассмотрим коэффициент Пирсона (момент произведений). Он составляет 0,807. Между переменными alter и semester существует сильная корреляция. Переменные коррелируют положительно. Следовательно, старшие по возрасту студенты учатся на старших курсах, что, собственно, не является неожиданным выводом.

Проверим на корреляцию переменные sozial (оценку социального положения) и psyche. Мы получим следующие коэффициенты:

Symmetric Measures

Asympt. Std. Error (a)

Interval by Interval

Ordinal by Ordinal

Spearman Correlation

N of Valid Cases

a. Not assuming the null hypothesis (Нулевая гипотеза не принимается).

b. Using the asymptotic standard error assuming the null hypothesis (Используется асимптотическая стандартная ошибка с принятием нулевой гипотезы).

с. Based on normal approximation (На основе нормальной аппроксимации).

В этом случае мы рассмотрим коэффициент корреляции Спирмена; он составляет -0,703. Между переменными sozial и psyche существует средняя или сильная корреляция (граничное значение 0,7). Переменные коррелируют отрицательно, то есть чем больше значения первой переменной, тем меньше значения второй и наоборот. Так как малые значения переменной sozial характеризуют позитивное состояние (1 = очень хорошее, 2 = хорошее), а большие значения psyche - отрицательное состояние (1 = крайне неустойчивое, 2 = неустойчивое), следовательно, психологические затруднения во многом обусловлены социальными проблемами.

Коэффициент корреляции - это степень связи между двумя переменными. Его расчет дает представление о том, есть ли зависимость между двумя массивами данных. В отличие от регрессии, корреляция не позволяет предсказывать значения величин. Однако расчет коэффициента является важным этапом предварительного статистического анализа. Например, мы установили, что коэффициент корреляции между уровнем прямых иностранных инвестиций и темпом роста ВВП является высоким. Это дает нам представление о том, что для обеспечения благосостояния нужно создать благоприятный климат именно для зарубежных предпринимателей. Не такой уж и очевидный вывод на первый взгляд!

Корреляция и причинность

Пожалуй, нет ни одной сферы статистики, которая бы так прочно вошла в нашу жизнь. Коэффициент корреляции используется во всех областях общественных знаний. Основная его опасность заключается в том, что зачастую его высокими значениями спекулируют для того, чтобы убедить людей и заставить их поверить в какие-то выводы. Однако на самом деле сильная корреляция отнюдь не свидетельствует о причинно-следственной зависимости между величинами.

Коэффициент корреляции: формула Пирсона и Спирмана

Существует несколько основных показателей, которые характеризуют связь между двумя переменными. Исторически первым является коэффициент линейной корреляции Пирсона. Его проходят еще в школе. Он был разработан К. Пирсоном и Дж. Юлом на основе работ Фр. Гальтона. Этот коэффициент позволяет увидеть взаимосвязь между рациональными числами, которые изменяются рационально. Он всегда больше -1 и меньше 1. Отрицательно число свидетельствует об обратно пропорциональной зависимости. Если коэффициент равен нулю, то связи между переменными нет. Равен положительному числу - имеет место прямо пропорциональная зависимость между исследуемыми величинами. Коэффициент ранговой корреляции Спирмана позволяет упростить расчеты за счет построения иерархии значений переменных.

Отношения между переменными

Корреляция помогает найти ответ на два вопроса. Во-первых, является ли связь между переменными положительной или отрицательной. Во-вторых, насколько сильна зависимость. Корреляционный анализ является мощным инструментом, с помощью которого можно получить эту важную информацию. Легко увидеть, что семейные доходы и расходы падают и растут пропорционально. Такая связь считается положительной. Напротив, при росте цены на товар, спрос на него падает. Такую связь называют отрицательной. Значения коэффициента корреляции находятся в пределах между -1 и 1. Нуль означает, что зависимости между исследуемыми величинами нет. Чем ближе полученный показатель к крайним значениям, тем сильнее связь (отрицательная или положительная). Об отсутствии зависимости свидетельствует коэффициент от -0,1 до 0,1. Нужно понимать, что такое значение свидетельствует только об отсутствии линейной связи.

Особенности применения

Использование обоих показателей сопряжено с определенными допущениями. Во-первых, наличие сильной связи, не обуславливает того факта, что одна величина определяет другую. Вполне может существовать третья величина, которая определяет каждую из них. Во-вторых, высокий коэффициент корреляции Пирсона не свидетельствует о причинно-следственной связи между исследуемыми переменными. В-третьих, он показывает исключительно линейную зависимость. Корреляция может использоваться для оценки значимых количественных данных (например, атмосферного давления, температуры воздуха), а не таких категорий, как пол или любимый цвет.

Множественный коэффициент корреляции

Пирсон и Спирман исследовали связь между двумя переменными. Но как действовать в том случае, если их три или даже больше. Здесь на помощь приходит множественный коэффициент корреляции. Например, на валовый национальный продукт влияют не только прямые иностранные инвестиции, но и монетарная и фискальная политика государства, а также уровень экспорта. Темп роста и объем ВВП - это результат взаимодействия целого ряда факторов. Однако нужно понимать, что модель множественной корреляции основывается на целом ряде упрощений и допущений. Во-первых, исключается мультиколлинеарность между величинами. Во-вторых, связь между зависимой и оказывающими на нее влияние переменными считается линейной.

Области использования корреляционно-регрессионного анализа

Данный метод нахождения взаимосвязи между величинами широко применяется в статистике. К нему чаще всего прибегают в трех основных случаях:

  1. Для тестирования причинно-следственных связей между значениями двух переменных. В результате исследователь надеется обнаружить линейную зависимость и вывести формулу, которая описывает эти отношения между величинами. Единицы их измерения могут быть различными.
  2. Для проверки наличия связи между величинами. В этом случае никто не определяет, какая переменная является зависимой. Может оказаться, что значение обеих величин обуславливает какой-то другой фактор.
  3. Для вывода уравнения. В этом случае можно просто подставить в него числа и узнать значения неизвестной переменной.

Человек в поисках причинно-следственной связи

Сознание устроено таким образом, что нам обязательно нужно объяснить события, которые происходят вокруг. Человек всегда ищет связь между картиной мира, в котором он живет, и получаемой информацией. Часто мозг создает порядок из хаоса. Он запросто может увидеть причинно-следственную связь там, где ее нет. Ученым приходится специально учиться преодолевать эту тенденцию. Способность оценивать связи между данными объективно необходима в академической карьере.

Предвзятость средств массовой информации

Рассмотрим, как наличие корреляционной связи может быть неправильно истолковано. Группу британских студентов, отличающихся плохим поведением, опросили относительно того, курят ли их родители. Потом тест опубликовали в газете. Результат показал сильную корреляцию между курением родителей и правонарушениями их детей. Профессор, который проводил это исследование, даже предложил поместить на пачки сигарет предупреждение об этом. Однако существует целый ряд проблем с таким выводом. Во-первых, корреляция не показывает, какая из величин является независимой. Поэтому вполне можно предположить, что пагубная привычка родителей вызвана непослушанием детей. Во-вторых, нельзя с уверенностью сказать, что обе проблемы не появились из-за какого-то третьего фактора. Например, низкого дохода семей. Следует отметить эмоциональный аспект первоначальных выводов профессора, который проводил исследование. Он был ярым противником курения. Поэтому нет ничего удивительного в том, что он интерпретировал результаты своего исследования именно так.

Выводы

Неправильное толкование корреляции как причинно-следственной связи между двумя переменными может стать причиной позорных ошибок в исследованиях. Проблема состоит в том, что оно лежит в самой основе человеческого сознания. Многие маркетинговые трюки построены именно на этой особенности. Понимание различия между причинно-следственной связью и корреляцией позволяет рационально анализировать информацию как в повседневной жизни, так и в профессиональной карьере.

Где x·y , x , y - средние значения выборок; σ(x), σ(y) - среднеквадратические отклонения.
Кроме того, коэффициент линейной парной корреляции Пирсона может быть определен через коэффициент регрессии b: , где σ(x)=S(x), σ(y)=S(y) - среднеквадратические отклонения, b - коэффициент перед x в уравнении регрессии y=a+bx .

Другие варианты формул:
или

К xy - корреляционный момент (коэффициент ковариации)

Для нахождения линейного коэффициента корреляции Пирсона необходимо найти выборочные средние x и y , и их среднеквадратические отклонения σ x = S(x), σ y = S(y):

Линейный коэффициент корреляции указывает на наличие связи и принимает значения от –1 до +1 (см. шкалу Чеддока). Например, при анализе тесноты линейной корреляционной связи между двумя переменными получен коэффициент парной линейной корреляции, равный –1 . Это означает, что между переменными существует точная обратная линейная зависимость.

Вычислить значение коэффициента корреляции можно по заданным средним выборки, либо непосредственно .

Xy#x #y #σ x #σ y " data-id="a;b;c;d;e" data-formul="(a-b*c)/(d*e)" data-r="r xy ">Рассчитать свое значение

Геометрический смысл коэффициента корреляции : r xy показывает, насколько различается наклон двух линий регрессии: y(x) и х(у) , насколько сильно различаются результаты минимизации отклонений по x и по y . Чем больше угол между линиями, то тем больше r xy .
Знак коэффициента корреляции совпадает со знаком коэффициента регрессии и определяет наклон линии регрессии, т.е. общую направленность зависимости (возрастание или убывание). Абсолютная величина коэффициента корреляции определяется степенью близости точек к линии регрессии.

Свойства коэффициента корреляции

  1. |r xy | ≤ 1;
  2. если X и Y независимы, то r xy =0, обратное не всегда верно;
  3. если |r xy |=1, то Y=aX+b, |r xy (X,aX+b)|=1, где a и b постоянные, а ≠ 0;
  4. |r xy (X,Y)|=|r xy (a 1 X+b 1 , a 2 X+b 2)|, где a 1 , a 2 , b 1 , b 2 – постоянные.

Поэтому для проверки направления связи выбирается проверка гипотезы при помощи коэффициента корреляции Пирсона с дальнейшей проверкой на достоверность при помощи t-критерия (пример см. ниже).

Типовые задания (см. также нелинейная регрессия)

Типовые задания
Исследуется зависимость производительности труда y от уровня механизации работ x (%) по данным 14 промышленных предприятий. Статистические данные приведены в таблице.
Требуется:
1) Найти оценки параметров линейной регрессии у на х. Построить диаграмму рассеяния и нанести прямую регрессии на диаграмму рассеяния.
2) На уровне значимости α=0.05 проверить гипотезу о согласии линейной регрессии с результатами наблюдений.
3) С надежностью γ=0.95 найти доверительные интервалы для параметров линейной регрессии.

Вместе с этим калькулятором также используют следующие:
Уравнение множественной регрессии

Пример . На основе данных, приведенных в Приложении 1 и соответствующих Вашему варианту (таблица 2), требуется:

  1. Рассчитать коэффициент линейной парной корреляции и построить уравнение линейной парной регрессии одного признака от другого. Один из признаков, соответствующих Вашему варианту, будет играть роль факторного (х), другой – результативного (y). Причинно-следственные связи между признаками установить самим на основе экономического анализа. Пояснить смысл параметров уравнения.
  2. Определить теоретический коэффициент детерминации и остаточную (необъясненную уравнением регрессии) дисперсию. Сделать вывод.
  3. Оценить статистическую значимость уравнения регрессии в целом на пятипроцентном уровне с помощью F-критерия Фишера. Сделать вывод.
  4. Выполнить прогноз ожидаемого значения признака-результата y при прогнозном значении признака-фактора х, составляющим 105% от среднего уровня х. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал с вероятностью 0,95.
Решение . Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение



Связь между признаком Y фактором X сильная и прямая (определяется по шкале Чеддока).
Уравнение регрессии

Коэффициент регрессии: k = a = 4.01
Коэффициент детерминации
R 2 = 0.99 2 = 0.97, т.е. в 97% случаев изменения х приводят к изменению y . Другими словами - точность подбора уравнения регрессии - высокая. Остаточная дисперсия: 3%.
x y x 2 y 2 x·y y(x) (y i -y ) 2 (y-y(x)) 2 (x-x p) 2
1 107 1 11449 107 103.19 333.06 14.5 30.25
2 109 4 11881 218 107.2 264.06 3.23 20.25
3 110 9 12100 330 111.21 232.56 1.47 12.25
4 113 16 12769 452 115.22 150.06 4.95 6.25
5 120 25 14400 600 119.23 27.56 0.59 2.25
6 122 36 14884 732 123.24 10.56 1.55 0.25
7 123 49 15129 861 127.26 5.06 18.11 0.25
8 128 64 16384 1024 131.27 7.56 10.67 2.25
9 136 81 18496 1224 135.28 115.56 0.52 6.25
10 140 100 19600 1400 139.29 217.56 0.51 12.25
11 145 121 21025 1595 143.3 390.06 2.9 20.25
12 150 144 22500 1800 147.31 612.56 7.25 30.25
78 1503 650 190617 10343 1503 2366.25 66.23 143

Примечание: значения y(x) находятся из полученного уравнения регрессии:
y(1) = 4.01*1 + 99.18 = 103.19
y(2) = 4.01*2 + 99.18 = 107.2
... ... ...

Значимость коэффициента корреляции

Выдвигаем гипотезы:
H 0: r xy = 0, нет линейной взаимосвязи между переменными;
H 1: r xy ≠ 0, есть линейная взаимосвязь между переменными;
Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H 1 ≠ 0, надо вычислить наблюдаемое значение критерия (величина случайной ошибки):

По таблице Стьюдента находим t табл (n-m-1;α/2) = (10;0.025) = 2.228
Поскольку Tнабл > t табл, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим.
Интервальная оценка для коэффициента корреляции (доверительный интервал)


r - Δ r ≤ r ≤ r + Δ r
Δ r = ±t табл m r = ±2.228 0.0529 = 0.118
0.986 - 0.118 ≤ r ≤ 0.986 + 0.118
Доверительный интервал для коэффициента корреляции: 0.868 ≤ r ≤ 1

Анализ точности определения оценок коэффициентов регрессии





S a =0.2152

Доверительные интервалы для зависимой переменной

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 7
(122.4;132.11)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии

1) t-статистика




Статистическая значимость коэффициента регрессии подтверждается
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(a - t a S a ; a + t a S a)
(3.6205;4.4005)
(b - t b S b ; b + t b S b)
(96.3117;102.0519)



© 2024 gimn70.ru -- Учимся легко - Портал полезных знаний