Характеристики рассеяния случайной величины. Характеристика рассеяния

Главная / А. П. Чехов

Для математико-статистического анализа результатов выборки знать только характеристики положения недостаточно. Одна и та же величина среднего значе­ния может характеризовать совершенно различные выборки.

Поэтому кроме них в статистике рассматривают также характеристики рассеяния (вариации, или колеблемости ) результатов .

1. Размах вариации

Определение. Размахом вариации называется разница между наибольшим и наименьшим результатами выборки, обозначается R и определяется

R =X max - X min .

Информативность этого показателя невелика, хотя при малых объёмах вы­борки по размаху легко оценить разницу между лучшим и худшим результатами спортсменов.

2. Дисперсия

Определение. Дисперсией называется средний квадрат отклонения значений признака от среднего арифметического.

Для несгруппированных данных дисперсия определяется по формуле

где Х i – значение признака, - среднее арифметическое.

Для данных, сгруппированных в интервалы, дисперсия определяется по формуле

,

где х i – среднее значение i интервала группировки, n i – частоты интервалов.

Для упрощения расчётов и во избежание погрешностей вычисления при округ­лении результатов (особенно при увеличении объёма выборки) используются также другие формулы для определения дисперсии. Если среднее арифметическое уже вычислено, то для несгруппированных данных используется следующая фор­мула:

 2 =
,

для сгруппированных данных:

.

Эти формулы получаются из предыдущих раскрытием квадрата разности под знаком суммы.

В тех случаях, когда среднее арифметическое и дисперсия вычисляются од­новременно, используются формулы:

для несгруппированных данных:

 2 =
,

для сгруппированных данных:

.

3. Среднее квадратическое (стандартное ) отклонение

Определение. Среднее квадратическое (стандартное ) отклонение характе­ризует степень отклонения результатов от среднего значения в абсолютных единицах, т. к. в отличие от дисперсии имеет те же единицы измерения, что и результаты измерения. Иначе говоря, стандартное отклонение показывает плотность распределения результатов в группе около среднего значения, или однородность группы.

Для несгруппированных данных стандартное отклонение можно определить по формулам

 =
,

 =
или =
.

Для данных, сгруппированных в интервалы, стандартное отклонение определяется по формулам:

,

или
.

4. Ошибка средней арифметической (ошибка средней)

Ошибка средней арифметической характеризует колеблемость средней и вычисляется по формуле:

.

Как видно из формулы, с увеличением объёма выборки ошибка средней уменьшается пропорционально корню квадратному из объёма выборки.

5. Коэффициент вариации

Коэффициент вариации определяется как отношение среднего квадратического отклонения к среднему арифметическому, выраженное в процентах:

.

Считается, что если коэффициент вариации не превышает 10 %, то выборку можно считать однородной, то есть полученной из одной генеральной совокупности.

Основными характеристиками рассеивания, применяемых для оценки вариации величин относительно выборочной средней, являются дисперсия, среднеквадратическое отклонение, коэффициент вариации.

1. Дисперсия (от лат. dispersio - рассеяние ) – среднее арифметическое из квадратов отклонений величин x i от их среднего арифметического.

Дисперсия (D) - мера рассеивания (отклонения от среднего), определяется следующим образом - из каждого варианта вычитают среднюю арифметическую, разность возводят в квадрат и умножают на соответствующую ей частоту. Далее определяют сумму всех произведений и делят её на объём совокупности:

Для сгруппированных данных дисперсию определяют:

Размерность дисперсии не совпадает с единицами измерения варьирующего признака.

При решении практических задач помимо использования формул расчета выборочной дисперсии используется величина, которая называется исправленной дисперсией . Дело в том, что значение выборочной дисперсии дает заниженные значения по отношению к действительной дисперсии, поэтому при малых выборках (n < 30) необходимо применять исправленную дисперсию и среднеквадратическое отклонение :

или

2. Выборочное и исправленное среднеквадратическое отклонение (σ, s) – корень квадратный из дисперсии. Размерность среднеквадратического отклонения в отличие от размерности дисперсии совпадает с единицами измерения экспериментальных данных, поэтому его в основном используют для характеристики рассеивания изучаемого признака.

Приведем расчет дисперсии (табл. 5) для примера 1.

Таблица 5

Промежуточные вычисления расчета дисперсии

№п/п Серединные значения, x i Классовые частоты, n i
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
сумма

Дисперсия для сгруппированных данных примера равна:

Среднеквадратическое отклонение соответственно равно:

Исправленное среднеквадратическое отклонение равно:

Заметим, что формулы для вычисления выборочной и исправленной дисперсий отличаются только знаменателями. При достаточно больших n выборочная и исправленная дисперсии мало отличаются, поэтому на практике исправленной дисперсией пользуются, если n < 30 .

3. Коэффициент вариации (v) – является относительной мерой рассеивания признака, используется как показатель однородности выборочных наблюдений (табл. 6).

Коэффициент вариации - это отношение среднеквадратического отклонения к средней арифметической, выраженное в процентах. Кроме того, коэффициент вариации часто используется при сопоставлении (сравнении) степени варьирования различных признаков, выраженных в различных единицах измерения.

Для определения характера рассеивания безразмерный коэффициент вариации v рассчитывают по формуле:

,

где σ – среднеквадратическое отклонение;

Среднее арифметическое выборочных данных.

Рассеивание случайной величины характеризует её разброс относительно точки математического ожидания. Так как разброс элементов спектра случайной величины происходит по обе стороны от центра рассеивания, то для его учета используют либо четные степени центральных моментов, либо абсолютные центральные моменты. Достаточно рассмотреть центральный момент второго порядка m 2 и абсолютный центральный момент первого порядка t 1 . Первый из них называется дисперсией , а второй – средним отклонением . Изучим их подробнее.

Дисперсия случайной величины Х имеет несколько обозначений:

ДСВ ;

D(X ) = = m 2 = E ( 2) = (59)

НСВ ,

Оператор дисперсии D обладает следующими свойствами:

1) D (C ) = 0

2) D (CX ) = C 2 ·D (X ) . (60)

3) D (C +X ) = D (X )

Ситуация с доказательством свойств оператора дисперсии аналогична той, которая была отмечена для оператора математического ожидания. Остановимся на физическом смысле этих свойств.

Первое свойство говорит, что постоянная величина не имеет разброса. Комментарий не требуется.

При изменении масштаба по оси абсцисс (второе свойство ), новое значение дисперсии получается из старого путем умножения последнего на величину квадрата масштабного коэффициента.

Третье свойство дисперсии заключается в том, что при переносе начала координат на величину C по оси абсцисс дисперсия случайной величины не меняется, так как центрирование компенсирует перенос.

Объединение этих свойств выражается реакцию оператора дисперсии на линейное преобразование случайной величины X :

D(C 1 + C 2 ∙ X ) = C 2 2 ∙ D (X ) . (61)

Из определения дисперсии следует, что ее размерность равна квадрату размерности случайной величины, которую она характеризует. Это не всегда удобно для восприятия. Например, если сказать, что некоторое расстояние S = 567,89 м , а его дисперсия D (S ) = 9∙10 -4 м 2 , то сопоставление этих величин, имеющих отличающиеся размерности , не дает представления о точности измерений. Этот факт способствовал использованию дополнительно в качестве характеристики рассеивания другого показателя – стандарта .

Стандарт или среднее квадратическое отклонение (СКО) представляет собой положительное значение квадратного корня из дисперсии и характеризует разброс СВ относительно ее центра рассеивания в тех же единицах, в каких выражена и сама случайная величина:

(62)

Свойства стандарта определяются свойствами дисперсии:

1) s C = 0

2) s CX = C ·s X (63)

3) s C + X = s X

Если теперь мы охарактеризуем ранее приведенное расстояние S=567,89 м стандартом s S =3*10 -2 м , то наше представление о точности этого расстояния будет адекватным.

Среднее отклонение – это абсолютный центральный момент первого порядка для случайной величиныХ , обозначаемый буквой ϑ X и вычисляемый по определению (58) при r = 1 :

ДСВ ;

ϑ X = τ 1 = E (| |)= (64)

НСВ .

Свойства среднего отклонения аналогичны свойствам стандарта (убедитесь в этом в качестве Упражнения 2.1 ):

1) ϑ X = 0

2)ϑ CX = |C |·ϑ X (65)

3) ϑ C + X = ϑ X

2.2.6 Примеры одномерных распределений .

Рассмотрим законы распределений некоторых дискретных и непрерывных случайных величин, играющих важную роль в теории и практике.

Индикатор события.

Индикатор события I A представляет собой частный случай испытаний Бернулли. Это дискретная случайная величина, принимающая только два возможных значения 0 и 1 с вероятностями (1 – p ) и p соответственно. Здесь p = P (A ) – вероятность наступления события A , описанного на некотором пространстве W . Рассмотрим все введенные выше характеристики для этой случайной величины в качестве примера и с целью их использования при изучении более сложных законов.

Дано :X = I A = {x 1 = 0; x 2 = 1} ; P (x 1) = P (Ā ) = 1 – p =q ; P (x 2) = P (A ) = p .

Найти : 1) F (I A ) – ? 2) E (I A ) – ? 3) D (I A ) – ? 4) s I – ?

Решение :

1)Функцию распределения разместим в расширенной таблице ряда распределения, как это предложено в (44):

X = I A -
P(X = I A ) q p -
F(I A ) q

Числовые характеристики определим по формулам (51), (59) и (62):

2)E (I A ) = 0∙q + 1∙p = p ;

3)D (I A ) = =a 2 - = 0 2 ∙q +1 2 ∙p p 2 = p ∙(1 – p ) = pq ;

4) = .

Индикатор событий используется при изучении повторных испытаний и решении других задач как вспомогательная случайная величина.

2.2.6.2 Равномерное распределение .

В качестве иллюстрации, поясняющей материал раздела 2.2 для непрерывных случайных величин, исследуем непрерывное равномерное распределение на некотором отрезке [a ; b ]. Распределение называется равномерным на отрезке, если его плотность вероятности постоянна на этом отрезке и равна нулю за его пределами. Представим изучение данного распределения в виде решения задачи.

Дано : f (x ) = c , [a ; b ] ; f (x ) = 0 вне этого отрезка.

Найти : 1 ) постоянную плотность распределения c – ?, 2 ) F (x ) – ?, 3 )E (X ) – ?, 4 ) Mo(X ) – ?, 5 ) Me(X ) – ?, 6 ) D (X ) – ?, 7 ) s X – ?, 8 ) ϑ X – ?, 9 )P (x 1 <X <x 2) – ?

Решение : Выполнить самостоятельно в качестве Упражнения 2.2 .

Ответы : 1 ) c = 1 / (b a ) ; 2 ) F (x ) = (x a ) / (b a ) ; 3 ) E (X ) = (a + b )/2 ;

4 ) Mo(X ) – не определена; 5 ) Me(X ) = E (X ) ; 6 ) D (X ) = (b a ) 2 / 12 ;

7 ) s x = (b a ) /() ;8 ) ϑ X = (b a ) / 4 ; 9 ) P (x 1 < X < x 2) = (x 2 – x 1)/(b a ) , когда ]x 1 ; x 2 [ [a ;b ] .

Графики плотности и функции равномерного распределения представлены на следующих рисунках (Рис.19 и 20 ).

f (x ) F (x )

c

S =1 c =1/

0 a E (X ) b X 0 a E (X ) b X

Рис. 2.19 Плотность равномерного Рис. 2.20 Функция равномерного

Характеристики положения описывают центр распределения. В то же время значения вариант могут группироваться вокруг него как в широкой, так и в узкой полосе. Поэтому для описания распределения необходимо охарактеризовать диапазон изменения значений признака. Для описания диапазона варьирования признака используются характеристики рассеяния. Наиболее широкое применение нашли размах вариации, дисперсия, стандартное отклонение и коэффициент вариации.

Размах вариации определяется как разность между максимальным и минимальным значением признака в изучаемой совокупности:

R =x max -x min .

Очевидным достоинством рассматриваемого показателя является простота расчета. Однако поскольку размах вариации зависит от величин только крайних значений признака, то область его применения ограничена достаточно однородными распределениями. В остальных случаях информативность этого показателя весьма невелика, поскольку существует очень много распределений, сильно отличающихся по форме, но имеющих одинаковый размах. В практических исследованиях размах вариации используется иногда при малых (не более 10) объемах выборки. Так, например, по размаху вариации легко оценить, насколько различаются лучший и худший результаты в группе спортсменов.

В рассматриваемом примере:

R =16,36 – 13,04=3,32 (м).

Второй характеристикой рассеяния является дисперсия. Дисперсия представляет собой средний квадрат отклонения значения случайной величины от ее среднего значения. Дисперсия есть характеристика рассеяния, разбросанности значений величины около ее среднего значения. Само слово «дисперсия» означает «рассеяние».

При проведении выборочных исследований необходимо установить оценку для дисперсии. Дисперсия, вычисляемая по выборочным данным, называется выборочной дисперсией и обозначается S 2 .

На первый взгляд наиболее естественной оценкой для дисперсии является статистическая дисперсия, вычисленная, исходя из определения, по формуле:

В этой формуле - сумма квадратов отклонений значений признака х i от среднего арифметиче­ского . Для получения среднего квадрата отклонений эта сумма поделена на объем выборки п .

Однако такая оценка не является несмещенной. Можно показать, что сумма квадратов отклонений значений признака для выборочного среднего арифметического меньше, чем сумма квадратов отклонений от любой другой величины, в том числе от истинного среднего (математического ожидания). Поэтому результат, получаемый по приведенной выше формуле, будет содержать систематическую ошибку, и оценочное значение дисперсии окажется заниженным. Для ликвидации смещения достаточно ввести поправочный коэффициент . В результате получается следующее соотношение для оценочной дисперсии:

При больших значениях n , естественно, обе оценки - смещенная и несмещенная – будут различаться очень мало и введение поправочного множителя теряет смысл. Как правило, уточнение формулы для оценки дисперсии следует производить при n <30.

В случае сгруппированных данных последнюю формулу для упрощения вычислений можно привести к следующему виду:

где k - число интервалов группировки;

n i - частота интервала c номером i ;

x i - срединное значение интервала c номером i .

В качестве примера проведем вычисление дисперсии для сгруппированных данных разбираемого нами примера (см. табл. 4.):

S 2 =/ 28=0,5473 (м 2).

Дисперсия случайной величины имеет размерность квадрата размерности случайной величины, что затрудняет ее интерпретацию и делает не очень наглядной. Для более наглядного описания рассеяния удобнее пользоваться характеристикой, размерность которой совпадает с размерностью исследуемого признака. С этой целью вводится понятие стандартного отклонения (или среднего квадратического отклонения ).

Стандартным отклонением называется положительный корень квадратный из дисперсии:

В разбираемом нами примере стандартное отклонение равно

Стандартное отклонение имеет те же единицы измерения, что и результаты измерения исследуемого признака и, таким образом, оно характеризует степень отклонения признака от среднего арифметического. Иными словами, оно показывает, как расположена основная часть вариант относительно среднего арифметического.

Стандартное отклонение и дисперсия являются наиболее широко применяемыми показателями вариации. Связано это с тем, что они входят в значительную часть теорем теории вероятностей, служащей фундаментом математической статистики. Помимо этого, дисперсия может быть разложена на составные элементы, позволяющие оценить влияние различных факторов на вариацию исследуемого признака.

Помимо абсолютных показателей вариации, которыми являются дисперсия и стандартное отклонение, в статистике вводятся относительные. Наиболее часто применяется коэффициент вариации. Коэффициент вариации равен отношению стандартного отклонения к среднему арифметическому, выраженному в процентах:

Из определения ясно, что по своему смыслу коэффициент вариации представляет собой относительную меру рассеяния признака.

Для рассматриваемого примера:

Коэффициент вариации широко используется при проведении статистических исследований. Будучи величиной относительной, он позволяет сравнивать колеблемости как признаков, имеющих различные единицы измерения, так одного и того же признака в нескольких разных совокупностях с различными значениями среднего арифметического.

Коэффициент вариации используется для характеристики однородности полученных экспериментальных данных. В практике физической культуры и спорта разброс результатов измерений в зависимости от значения коэффициента вариации принято считать небольшим (V<10%), средним (11-20%) и большим (V> 20%).

Ограничения на использование коэффициента вариации связаны с его относительным характером – определение содержит нормировку на среднее арифметическое. В связи с этим при малых абсолютных значениях среднего арифметического коэффициент вариации может потерять свою информативность. Чем ближе значение среднего арифметического к нулю, тем менее информативным становится этот показатель. В предельном случае среднее арифметическое обращается в ноль (например, температура) и коэффициент вариации обращается в бесконечность независимо от разброса признака. По аналогии со случаем погрешности можно сформулировать следующее правило. Если значение среднего арифметического в выборке больше единицы, то использование коэффициента вариации правомерно, в противном случае для описания разброса опытных данных следует использовать дисперсию и стандартное отклонение.

В заключение этой части рассмотрим оценку варьирования значений оценочных характеристик. Как уже было отмечено, значения характеристик распределения, рассчитанные по данным эксперимента, не совпадают с их истинными значениями для генеральной совокупности. Точно установить последние не представляется возможным, поскольку, как правило, невозможно обследовать всю генеральную совокупность. Если использовать для оценки параметров распределения результаты разных выборок из одной и той же генеральной совокупности, то окажется, что эти оценки для разных выборок отличаются друг от друга. Оценочные значения флуктуируют около своих истинных значений.

Отклонения оценок генеральных параметров от истинных значений этих параметров называются статистическими ошибками. Причиной их возникновения является ограниченный объем выборки - не все объекты генеральной совокупности входят в нее. Для оценки величины статистических ошибок используется стандартное отклонение выборочных характеристик.

В качестве примера рассмотрим наиболее важную характеристику положения - среднее арифметическое. Можно показать, что стандартное отклонение среднего арифметического определяется соотношением:

где σ - стандартное отклонение для генеральной совокупности.

Поскольку истинное значение стандартного отклонения не известно, то для оценки стандартного отклонения выборочного среднего используется величина, называемая стандартной ошибкой среднего арифметического и равная:

Величина характеризует ошибку, которая в среднем допускается при замене генерального среднего его выборочной оценкой. Согласно формуле, увеличение объема выборки при проведении исследования приводит к уменьшению стандартной ошибки пропорционально корню квадратному из объема выборки.

Для рассматриваемого примера значение стандартной ошибки среднего арифметического равно . В нашем случае она оказалась в 5,4 раза меньше значения стандартного отклонения.

Главная характеристика рассеивания вариационного ряда называется дисперсией

Главная характеристика рассеивания вариационного ряда называется дисперсией . Выборочная дисперсия D в рассчитывается по следующей формуле:

где x i – i -ая величина из выборки, встречающаяся m i раз; n – объём выборки; – выборочная средняя; k – количество различных значений в выборке. В рассматриваемом примере: x 1 =72, m 1 =50; x 2 =85, m 2 =44; x 3 =69, m 3 =61; n =155; k =3; . Тогда:

Заметим, что чем больше значение дисперсии, тем сильнее отличие значений измеряемой величины друг от друга. Если в выборке все значения измеряемой величины равны между собой, то дисперсия такой выборки равна нулю.

Дисперсия обладает особыми свойствами.

Свойство 1. Значение дисперсии любой выборки неотрицательно, т.е. .

Свойство 2. Если измеряемая величина постоянна X=c, то дисперсия для такой величины равна нулю: D [ c ]= 0.

Свойство 3. Если все значения измеряемой величины x в выборке увеличить в c раз, то дисперсия данной выборки увеличится в c 2 раз: D [ cx ]= c 2 D [ x ], где c = const .

Иногда вместо дисперсии используют выборочное среднее квадратическое отклонение , которое равно арифметическому квадратному корню из выборочной дисперсии: .

Для рассмотренного примера выборочное среднее квадратическое отклонение равно .

Дисперсия позволяет оценить не только степень различия измеряемых показателей внутри одной группы, но может быть использована и для определения отклонения данных между разными группами. Для этого используется несколько видов дисперсии.

Если в качестве выборки берётся какая-либо группа, то дисперсия данной группы называется групповой дисперсией . Чтобы выразить численно различия между дисперсиями нескольких групп, существует понятие межгрупповой дисперсии . Межгрупповой дисперсией называется дисперсия групповых средних относительно общей средней:

где k – число групп в общей выборке, - выборочная средняя для i -ой группы, n i – объём выборки i -ой группы, - выборочная средняя для всех групп.

Рассмотрим пример.

Средняя оценка за контрольную работу по математике в 10 «А» классе составила 3.64, а в 10 «Б» классе 3.52. В 10 «А» учится 22 человека, а в 10 «Б» - 21. Найдём межгрупповую дисперсию.

В данной задаче выборка разбивается на две группы (два класса). Выборочная средняя для всех групп равна:

.

В таком случае межгрупповая дисперсия равна:

Поскольку межгрупповая дисперсия близка к нулю, то мы можем сделать вывод, что оценки одной группы (10 «А» класса) в малой степени отличаются от оценок второй группы (10 «Б» класса). Иными словами, с точки зрения межгрупповой дисперсии рассмотренные группы в незначительной степени отличаются по заданному признаку.

Если общая выборка (например, класс учеников) разбита на несколько групп, то помимо межгрупповой дисперсии можно рассчитать ещё внутригрупповую дисперсию . Такая дисперсия является средней величиной для всех групповых дисперсий.

Внутригрупповая дисперсия D внгр рассчитывается по формуле:

где k – количество групп в общей выборке, D i – дисперсия i -ой группы объёма n i .

Существует взаимосвязь между общей (D в ), внутригрупповой ( D внгр ) и межгрупповой ( D межгр ) дисперсиями:

D в = D внгр + D межгр .



© 2024 gimn70.ru -- Учимся легко - Портал полезных знаний