Малый объем выборки. Основные статистические параметры большой и малой выборочной совокупности и их характеристика

Главная / Максим Горький

Выборка – ограниченная по численности группа объектов (в психологии – испытуемых, респондентов) специально отбираемая из генеральной совокупности для изучения ее свойств .

Генеральная совокупность – это все множество объектов, в отношении которого формулируется исследовательская гипотеза .

Изучение на выборке свойств генеральной совокупности называется выборочным исследованием . Практически все психологические исследования являются выборочными, а их выводы распространяются на генеральные совокупности.

Основное требование к выборке испытуемых – ее репрезентативность – представительность, показательность, соответствие характеристик, полученных в результате частичного (выборочного) обследования какой-либо группы, характеристикам этой группы в целом. . Исследователь должен помнить о возможности распространения выводов конкретного обследования на всю популяцию, частью которой является обследуемая группа.

Необходимо очень внимательно подходить к составлению выборки в испытуемых в эмпирическом исследовании. Важно учитывать пол, возраст, социальное положение, уровень образования, состояние здоровья, индивидуально-психологические особенности испытуемых и другие параметры, которые могут оказать влияние на результаты.

Выделяют два основных типа выборки: вероятностную (построенную на математических и статистических расчетах) ицелевую (заданную целью исследования и определяемую доступностью, типичностью и равным представительством испытуемых).

В строгом понимании репрезентативной может быть только вероятностная выборка, т.к. она соответствует принципу рандомизации: одинаково равной вероятности попадания каждого члена генеральной совокупности в выборочную совокупность. Существуют следующие виды вероятностной выборки: простая, случайная, систематическая, стратифицированная, кластерная, многоступенчатая .

Чаще всего в психологических исследованиях применяют целевой отбор, используют целевую выборку. Критериями для построения целевой выборки являются: доступность, типичность, равное представительство. В связи с этим можно выделить следующие виды выборки по принципу целевого отбора: выборка на основании принципа доступных случаев; отбор критических, либо типичных случаев; выборка, построенная на основании метода «снежного кома»; квотная выборка.

Выборка на основании принципа доступных случаев – наиболее распространенный вариант выборки испытуемых. Применяется при изучении больших по численности групп испытуемых, не обладающих уникальными, специфическими параметрами.

Выборка по принципу отбора критических, либо типичных случаев , построенана основаниитеоретических представлений или предшествующего эмпирического опыта исследователя. Из всей обследуемой совокупности испытуемых отбираются те, которые обладают необходимыми специфическими характеристиками.

Пример: Выборку исследования составляют родители, которыми ситуация поступления их ребенка в школу оценивается как стрессовая.

Выборка, построенная по методу «снежного кома» или методу «редких» совокупностей . Первоначально опрашиваются один или несколько человек интересующей исследователя выборочной совокупности, которые в дальнейшем служат источниками информации о других членах данной совокупности. Выборка расширяется в геометрической прогрессии, подобно формирующемуся «снежному кому». Данный метод применяется тогда, когда испытуемые по различным причинам не афишируют свою принадлежность к той или иной группе людей.

Пример: Выборку составляют ученые, исследования которых касаются узкой научной проблемы.

Квотная выборка связана с разбиением изучаемой совокупности на подгруппы на основании социально-демографических или иных характеристик, которые являются важными для проведения исследования. Опираясь на известные пропорции определенных групп в генеральной совокупности, исследователь выделяет «квоту» для каждой обследуемой подгруппы. (Социально-демографические данные можно найти в статистических сборниках, выпускаемых ежегодно отделами статистики регионов).

Пример: Выборка исследования включает мужчин и женщин предпенсионного возраста – 50-60 лет. По статистике мужчины данного возраста составляют 46%, а женщины – 54 % генеральной совокупности. Следовательно, при общей численности выборки 100 человек должно быть обследовано не менее 46 мужчин и 54 женщин.

Одни из важных вопросов психологического исследования является вопрос объема выборки испытуемых , который должен обеспечивать доказательность выводов научного исследования. Исходя из методов математической обработки, к объему выборки предъявляются следующие требования:

    Наибольший объем выборки необходим при разработке диагностической методики – от 200 до 1000-2500 человек.

    При сравнении двух выборок, их общая численность должна быть не менее 50 человек. При этом численность сравниваемых выборок должна быть примерно одинаковой.

    При изучении взаимосвязи между свойствами, чертами и т.п. объем выборки должен быть не меньше 30-35 человек.

    Если для обработки данных применяется факторный анализ, важно помнить, что надежные факторные решения можно получить лишь в том случае, если количество испытуемых превышает число регистрируемых переменных в три и более раз.

    Чем больше изменчивость изучаемого свойства, тем больше объем выборки. Изменчивость можно уменьшить, увеличивая однородность выборки, например, по полу, возрасту и т.д. Но возможности распространения выводов исследования на генеральную совокупность уменьшатся.

    Целесообразно увеличение количества испытуемых на 5-10 % по сравнению с планируемым, так как часть полученных бланков будет отбракована в ходе исследования (не поняли инструкцию, не приняли задачу, дали отклоняющиеся результаты и т.п.) .

Зависимые и независимые выборки

Часто исследование строится таким образом, что свойство, интересующее исследователя, изучается на двух или более выборках с целью их дальнейшего сравнения. Эти выборки могут находиться в различных соотношениях – в зависимости от цели и задач исследования.

Независимые выборк и характеризуются тем, что вероятность отбора любого испытуемого из одной выборки не зависит от отбора любого испытуемого другой выборки.

Зависимые выборки характеризуются тем, что каждому испытуемому одной выборки поставлен в соответствие по определенному критерию испытуемый из другой выборки.

Пример 1: Зависимые выборки – два ряда значений, полученных при обследовании одной и той же группы испытуемых: измерено состояние какого-либо свойства «до» и «после» экспериментального воздействия.

В этом случае выборки (одна – «до», другая – «после» воздействия) зависимы в максимально возможной степени, так как они включают одних и тех же испытуемых.

Пример 2: Зависимые выборки: мужья – 1 выборка, жены – 2 выборка.

Пример 3: Зависимые выборки: дети 5-7 лет – 1 выборка, их братья и сестры – 2 выборка.

В примерах 2,3 представлены варианты менее зависимых выборок.

В общем случае зависимые выборки предполагают попарный подбор испытуемых в сравниваемые выборки, а независимые выборки – независимый отбор испытуемых .

В процессе оценки степени представительности данных выборочного наблюдения важное значение приобретает вопрос об объеме выборочной совокупности. выборка пересчет коэффициент стьюдент

От него зависит не только величина пределов, которые с данной вероятностью не превзойдет ошибка выборки, но и способы определения этих пределов.

При большом числе единиц выборочной совокупности () распределение случайных ошибок выборочной средней в соответствии с теоремой Ляпунова нормально или приближается к нормальному по мере увеличения числа наблюдений.

Вероятность выхода ошибки за определенные пределы оценивается на основе таблиц интеграла Лапласа . Расчет ошибки выборки базируется на величине генеральной дисперсии, так как при больших коэффициент, на который для получения генеральной умножается выборочная дисперсия, большой роли не играет.

В практике статистического исследования часто приходится сталкиваться с небольшими по объему так называемыми малыми выборками.

Под малой выборкой понимается такое выборочное наблюдение, численность единиц которого не превышает 30.

Разработка теории малой выборки была начата английским статистиком В.С. Госсетом (печатавшимся под псевдонимом Стьюдент ) в 1908 г. Он доказал, что оценка расхождения между средней малой выборки и генеральной средней имеет особый закон распределения.

Для определения возможных пределов ошибки пользуются так называемым критерием Стьюдента , определяемым по формуле

где - мера случайных колебаний выборочной средней в

малой выборке.

Величина вычисляется на основе данных выборочного наблюдения:

Данная величина используется лишь для исследуемой совокупности, а не в качестве приближенной оценки в генеральной совокупности.

При небольшой численности выборки распределение Стьюдента отличается от нормального: большие величины критерия имеют здесь большую вероятность, чем при нормальном распределении.

Предельная ошибка малой выборки в зависимости от средней ошибки представлена как

Но в данном случае величина иначе связана с вероятной оценкой, чем при большой выборке.

Согласно распределению Стьюдента , вероятная оценка зависит как от величины, так и от объема выборки в случае, если предельная ошибка не превысит среднюю ошибку в малых выборках.

Таблица 3.1 Распределение вероятности в малых выборках в зависимости от коэффициента доверия и объема выборки


Как видно из табл. 3.1 , при увеличении это распределение стремится к нормальному и при уже мало от него отличается.

Покажем, как пользоваться таблицей распределения Стьюдента.

Предположим, что выборочное обследование рабочих малого предприятия показало, что на выполнение одной из производственных операций рабочие затрачивали времени (мин.): . Найдем выборочные средние затраты:

Выборочная дисперсия

Отсюда средняя ошибка малой выборки

По табл. 3.1 находим, что для коэффициента доверия и объема малой выборки вероятность равна.

Таким образом, с вероятностью можно утверждать, что расхождение между выборкой и генеральной средней лежит в пределах от до, т.е. разность не превысит по абсолютной величине ().

Следовательно, средние затраты времени во всей совокупности будут находиться в пределах от до.

Вероятность того, что это предположение в действительности неверно и ошибка по случайным причинам будет больше, чем, равна: .

Таблица вероятностей Стьюдента часто приводится в иной форме, нежели в табл.3.1 . Считается, что в ряде случаев такая форма более удобна для практического использования (табл. 3.2 ).

Из табл. 3.2 следует, что для каждого числа степеней свободы указана предельная величина, которая с данной вероятностью не будет превышена в силу случайных колебаний результатов выборки.

На основе указанной в табл. 3.2 величины определяются доверительные интервалы : и.

Это область тех значений генеральной средней, выход за пределы которой имеет весьма малую вероятность, равную:

В качестве доверительной вероятности при двусторонней проверке используют как правило, или, что не исключает, однако, выбора и других, не приведенных в табл. 3.2 .

Таблица 3.2 Некоторые значения -распределения Стьюдента

Вероятности случайного выхода оцениваемой средней величины за пределы доверительного интервала соответственно будут равны и, т.е. весьма малы.

Выбор между вероятностями и является до известной степени произвольным. Этот выбор во многом определяется содержанием тех задач, для решения которых применяется малая выборка.

В заключение отметим, что расчет ошибок в малой выборке мало отличается от аналогичных вычислений большой выборке. Различие заключается в том, что при малой выборки вероятность нашего утверждения несколько меньше, чем при больше выборке (в частности, в приведенном ранее примере и соответственно).

Однако все это не означает, что можно использовать малую выборку тогда, когда нужна большая выборка. Во многих случаях расхождения между найденными пределами могут достигать значительных размеров, что вряд ли удовлетворяет исследователей. Поэтому малую выборку следует применять в статистическом исследовании социально-экономических явлений с большой осторожностью, при соответствующем теоретическом и практическом обосновании.

Итак, выводы по результатам малой выборки имеют практическое значение лишь при условии, что распределение признака в генеральной совокупности является нормальным или асимптотически нормальным. Необходимо также принимать во внимание и то, что точность результатов выборки малого объема все же ниже, чем при большой выборке.

На практике довольно часто приходится иметь дело с выборками весьма малого объема, численности которых значительно меньше двадцати - тридцати. Такие выборки в статистике получили название малых выборок. Необходимость специального рассмотрения малых выборок вызвана тем, что разобранные выше методы точечной и интервальной оценки выборочных характеристик предполагают достаточно большую численность выборок.

Понятие о малых выборках. Распределение Стьюдента

Выборочная средняя и, соответственно, ее ошибка распределены нормально, а поправка на величину смещения выборочной дисперсии очень близка к единице и не имеет практического значения. Ошибка выборки в этих условиях очень редко превышает величину. Иное дело при небольшом объеме выборки. При малых выборках выборочная дисперсия оказывается значительно смещенной. Поэтому применять функцию нормального распределения для вероятностных выводов о возможной величине ошибки было бы неправомерно. При малом объеме выборки всегда нужно пользоваться несмещенной оценкой дисперсии:

Следовательно, для получения несмещенной оценки дисперсии по данным малой выборки сумму квадратов отклонений нужно делить на величину. Эта величина называется числом степеней свободы вариации. В дальнейшем для краткости число степеней свободы вариации будет обозначаться греческой буквой (ню).

Проблема оценки выборочных характеристик на основе малых выборок впервые была исследована английским математиком статистиком В. Госсетом, публиковавшим свои работы под псевдонимов Стьюдент (1908 г.).

Исходя из предложения о нормальности распределения признака в генеральной совокупности и рассматривая вместо абсолютных отклонений их отношения к независимому стандарту, Стьюдент нашел распределение, которое зависит только от численности выборки. Позже (1925 г.) Р. Фишер дал более строгое доказательство этого распределения, которое получило название распределение Стьюдента.

Величина Стьюдента выражается как следующее отношение:

В числителе выражения фигурирует переменная величина, которая отражает возможные значения отклонений выборочных средних от генеральной средней. Величина распределена нормально с центром, равным нулю, и дисперсией, равной.

Следует особо подчеркнуть, что знаменатель выражения нельзя рассматривать как среднюю ошибку переменной. Величина рассматривается здесь как независимо распределенная от числителя переменная. означает среднее квадратическое (стандартное) отклонение данной выборки и не является оценкой генеральной совокупности, так как распределение Стьюдента не зависит ни от одного параметра генеральной совокупности. определяется по данным выборки как

Распределения независимы друг от друга. Только при этом условии и для выборок из нормальных совокупностей имеет место распределение Стьюдента.

Основное преимущество распределения Стьюдента состоит в том, что оно не зависит от параметров генеральной совокупности и имеет дело только с величинами, полученными непосредственно из выборки.

Дифференциальный закон распределение Стьюдента (плотность вероятности) имеет вид:

где объем выборки;

величина соответствующая максимальной ординате кривой распределения при t = 0.

Соответственно функция распределения Стьюдента выражается:

Иначе говоря,

где t ф стандартизированная (нормированная) разность, вычисляемая по результатам малой выборки.

Величины Г() и Г() являются гамма- функциями. Для некоторого числа гамма - функция выражается несобственным интегралом:

В малых выборках всегда целое положительное число (объем выборки).

В этом случае гамма - функция всегда имеет конечную величину и выражается через факториалы:

следовательно:

При вычислении гамма - функции полезно знать следующие свойства:

1) При есть;

  • 3) Например,

Используя это свойство, легко можно вычислить значения Г() и Г() в выражении плотности распределения;

4) Функция достигает минимума при дробном значении

Рис 3.1

Общий вид гамма - функции показан на рис. 3.1.

Из свойств распределения Стьюдента, рассматриваемых обычно в курсе теории вероятностей, обращается внимание на следующее:

1) Распределение Стьюдента замечательно тем, что зависит только от одного параметра - объема выборки и не зависит от средней и дисперсии генеральной совокупности (в отличие от нормального распределения, зависящего о этих двух параметров).

  • 2) Распределение Стьюдента точно для любого объема выборки следовательно, и для малых выборок, что позволяет делать вероятностные выводы по малому числу наблюдений.
  • 3) При увеличении объема выборки величина приближается к значению, а распределение Стьюдента приближается к нормальному. При распределение Стьюдента становится нормальным. Практически для нормального приближения считается достаточным.

Рис 3.2

На рис. 3.2 показаны соотношения между распределением Стьюдента и нормальным распределением.

Как видно из рис. 3.2, под концами кривой распределения Стьюдента, например или, расположена значительно большая часть площади, чем под кривой нормального распределения при тех же значениях. Это значит, что при малом объеме выборок вероятность допущения больших ошибок заметно увеличивается. Из рисунка видно, что при значениях нормированного отклонения, превышающих по абсолютному значению, площадь под кривой распределения Стьюдента гораздо больше, чем под кривой нормального распределения.

О величине расхождений между значениями функции распределения Стьюдента в зависимости от объема выборки и значениями нормальной функции распределения можно судить по данным табл. 3.2, где приведены значения площадей под кривой распределения от при разной численности выборки при.

Таблица 3.1

Значение нормальной функции распределения

Таблица 3.2

Значения вероятностей при разном объеме выборки

Нормированное отклонение

Значение при малых выборках с численностями

Значение при больших выборках

Из таблицы 3.2. видно, что с увеличением объема выборки малая выборка быстро приближается к нормальной. В то же время при очень маленькой численности выборки расхождения между значениями при данном значении весьма значительны.

Исследованиями было установлено, что распределение Стьюдента практически применимо не только в случае нормального распределения признака в генеральной совокупности. Оказалось, что оно происходит к практически приемлемым выводам и тогда, когда распределения признака в генеральной совокупности не является нормальным, а лишь симметрично и даже несколько асимметрично, но объем выборки не слишком мал.

Значения функции распределения Стьюдента затабулированы при различных значениях Поэтому при оценке выборочных характеристик пользуются готовыми таблицами:

Таблица 3.3

Таблица значений функции

Значения функции распределения Стьюдента могут быть использованы различными способами в зависимости от характера решаемых задач при определении вероятности отклонения выборочной от генеральной. Наиболее часто используются:

1) Определение вероятности того, что разность между выборочной средней и генеральной средней окажется меньше на некоторую заданную величину. В нормированных отклонениях задача сводится к определению вероятности того, что окажется меньше значения, задаваемого условиями задачи, т.е. к нахождению значения

Рис 3.3

Это есть вероятность больших отрицательных отклонений, которая на рис. 3.3 соответствует заштрихованной площади.

2) Определение вероятности того, что разность между выборочной средней и средней генеральной окажется не менее некоторой заданной величины, иначе говоря, следует найти

Рис 3.4

Это есть вероятность больших положительных отклонений, которая показана в виде заштрихованной площади на рис. 3.4. эту вероятность легко найти, используя таблицы.

3) Определение вероятности того, что нормированное отклонение по абсолютной величине окажется менее, выражается

Это есть вероятность меньших по абсолютной величине отклонений. Эта вероятность может быть определена с использованием таблиц. Поскольку на практике чаще всего приходится определять эту вероятность, составленной специальной таблицы значения (табл. 3.3).

Графическая иллюстрация вероятности меньших по абсолютной величине отклонений дана на рис. 3.5

Рис 3.5

4) Определение вероятности того, что ошибка выборки по абсолютной величине окажется не менее некоторой заданной величины. В нормированных единицах вероятность того, что по абсолютной величине окажется не менее, выразится

Это есть вероятность больших по абсолютной величине отклонений. Графически она иллюстрируется на рис. 3.6.

Рис 3.6

Для нахождения вероятности больших по абсолютной величине отклонений имеются специальные таблицы (приложение 3). Эту вероятность легко можно вычислить, также используя таблицы.

Помимо собственно случайной выборки с ее четким вероятностным обоснованием существуют и другие выборки, которые не являются абсолютно случайными, однако широко применяются. Следует заметить, что строгое применение собственно случайного отбора единиц из генеральной совокупности далеко не всегда возможно на практике. К таким выборкам относятся механическая выборка, типическая, серийная (или гнездовая), многофазовая и ряд других.

Редко бывает, чтобы генеральная совокупность была однородной, это скорее исключение, нежели правило. Поэтому при наличии в составе генеральной совокупности различных типов явления часто желательно обеспечить более равномерное представительство в выборочной совокупности различных типов. Эта цель успешно достигается при применении типической выборки. Главная трудность заключается в том, что мы должны иметь дополнительную информацию о всей генеральной совокупности, что в ряде случаев является затруднительным.

Типическую выборку называют еще расслоенной или стратифицированной выборкой; ее применяют также в целях более равномерного представления в выборке различных районов, и в этом случае выборку называют районированной.

Итак, под типической выборкой понимается такая выборка, при которой генеральная совокупность разделена на типические подгруппы, сформированные по одному или нескольким существенным признакам (например, население разделено на 3-4 подгруппы по величине среднедушевого дохода или по уровню образования - начальное, среднее, высшее и т.п.). Далее из всех типических групп можно вести отбор единиц в выборку несколькими способами, формируя:

а) типическую выборку с равномерным размещением, где из разных типов (слоев) отбирается равное число единиц. Эта схема работает хорошо, если в генеральной совокупности слои (типы) не очень сильно отличаются друг от друга по числу единиц;

б) типическую выборку с пропорциональным размещением, когда требуется (в отличие от равномерного размещения), чтобы доля (%) отбора для всех слоев была бы одинаковой (например, 5 или 10%);

в) типическую выборку с оптимальным размещением, когда учитывается степень вариации признаков в различных группах генеральной совокупности. При таком размещении пропорция отбора для групп с большой колеблемостью признака увеличивается, что в итоге приводит к уменьшению случайной ошибки.

Формула средней ошибки при типическом отборе похожа на обычную ошибку выборки для собственно случайной выборки с той лишь разницей, что вместо общей дисперсии проставляется средняя из частных внутригрупповых дисперсий, что, естественно, приводит к уменьшению погрешности по сравнению с собственно случайной выборкой. Однако ее применение не всегда возможно (по многим причинам). Если нет необходимости в большой точности, легче и дешевле использовать серийную выборку.

Серийная (гнездовая) выборка состоит в том, что в выборку отбираются не единицы совокупности (например, студенты), а отдельные серии или гнезда (например, учебные группы). Говоря иначе, при серийном (гнездовом) отборе единица наблюдения и единица отбора не совпадают: отбираются некоторые группы примыкающих друг к другу единиц (гнезда), а обследованию подлежат входящие в состав этих гнезд единицы. Так, например, при выборочном обсле­довании жилищных условий мы можем в случайном порядке вы­брать некоторое число домовладений (единица отбора) и выяснить далее жилищные условия проживающих в этих домах семей (единицы наблюдения).

Серии (гнезда) состоят из единиц, связанных между собой территориально (районы, города и т.д.), организационно (предприятия, цеха и т.д.), или во времени (например, совокупность единиц выработанной за данный отрезок времени продукции).

Серийный отбор может быть организован в форме одноступенчатого, двухступенчатого или многоступенчатого отбора.

Случайно отобранные серии подвергаются сплошному исследованию. Таким образом, серийная выборка состоит из двух этапов случайного отбора серий и сплошного изучения этих серий. Серийный отбор дает значительную экономию в силах и средствах и поэтому часто используется на практике. Ошибка серийного отбора отличается от ошибки собственно случайного отбора тем, что вместо значения общей дисперсии используется межсерийная (межгрупповая) дисперсия, а вместо объема выборки - количество серий. Точность обычно не очень велика, но в ряде случаев это допустимо. Серийная выборка может быть повторной и бесповторной, а серии - равновеликими и неравновеликими.

Серийная выборка может быть организована по разным схемам. Например, можно сформировать выборочную совокупность в два этапа: сначала в случайном порядке выбираются подлежащие обследованию серии, затем из каждой отобранной серии также в случайном порядке отбирается определенное количество единиц, подлежащих непосредственному наблюдению (измерению, взвешиванию и пр.). Ошибка такой выборки будет зависеть от ошибки серийного отбора и от ошибки индивидуального отбора, т.е. многоступенчатый отбор дает, как правило, менее точные результаты по сравнению с одноступенчатым, что объясняется возникновением ошибок репрезентативности на каждой ступени выборки. В этом случае требуется использовать формулу ошибки выборки для комбинированного отбора.

Другой формой отбора является многофазовый отбор (1, 2, 3 фазы или этапа). Этот отбор по своей структуре отличается от многоступенчатого, так как при многофазном отборе пользуются на каждой фазе одними и теми же единицами отбора. Ошибки при многофазном отборе рассчитывают на каждой фазе отдельно. Главная особенность двухфазовой выборки состоит в том, что выборки отличаются друг от друга по трем критериям в зависимости: 1) от доли единиц, изученных на первой фазе выборки и вновь включенных во вторую и последующие фазы; 2) от соблюдения равенства шансов каждой единицы выборки первой фазы вновь быть объектом изучения; 3) от величины интервала, отделяющего фазы друг от друга.

Остановимся еще на одном виде отбора, а именно механическом (или систематическом). Этот отбор являет­ся, вероятно, самым распространенным. Это объясняется, видимо, тем, что из всех приемов выбора данный прием является простейшим. В частности, он зна­чительно проще, чем случайный отбор, предполагающий умение пользоваться таблицами случайных чисел, и не требует дополнительных сведений о генеральной совокупности и ее структуре. К то­му же механический отбор тесно переплетается с про­порциональным стратифицированным отбором, что при­водит к снижению ошибки выборки.

Например, применение механического отбора чле­нов жилищного кооператива из списка, составленного в по­рядке поступления в данный кооператив, обеспечит пропорциональное представительство членов кооператива с разным стажем. Использование этого же приема для отбора респондентов из списка лиц, составленного по алфа­виту, обеспечивает равные шансы для фамилий, начи­нающихся на разные буквы, и т.п. Использование та­бельных или иных списков на предприятиях или в учебных заведениях и др. может обеспечить не­обходимую пропорциональность в представительстве ра­ботников с разным стажем. Заметим, что механический отбор широко применяется в социологии, при изучении общественного мнения и др.

В целях снижения величины ошибки и особенно расходов на проведение выборочного исследования широко используются разные комбинации отдельных видов отбора (механического, серийного, индивидуального, многофазного и т.п.) В таких случаях следует рассчитывать более сложные ошибки выборок, которые состоят из ошибок, имеющих место на разных этапах исследования.

Малая выборка - это совокупность единиц меньше 30. Малые выборки встречаются на практике довольно часто. Например, число заболеваний редкими болезнями или число единиц, обладающих редким признаком; кроме того, к малой выборке прибегают, когда исследование стоит дорого или исследование связано с уничтожением продукции или образцов. Широкое применение малые выборки получили в сфере обследования качества продукции. Теоретические основы для определения ошибок малой выборки были заложены английским ученым У. Госсетом (псевдоним Стьюдент).

Необходимо помнить, что при определении ошибки для малой выборки следует вместо численности выборки брать величину (n – 1) или же до определения средней ошибки выборки рассчитывать так называемую исправленную дисперсию выборки (в знаменателе вместо n следует ставить (n – 1)). Отметим, что такая поправка делается только один раз - при расчете выборочной дисперсии или при определении ошибки. Величина (n – 1) носит название степени свободы. Кроме того, нормальное распределение заменяется t -распределением (распределением Стьюдента), которое табулировано и зависит от количества степеней свободы. Единственным параметром распределения Стьюдента является величина (n – 1). Еще раз подчеркнем, что поправка (n – 1) важна и существенна лишь при малых по численности выборочных совокупностях; при n > 30 и выше различие сходит на нет, приближаясь к нулю.

До сих пор шла речь о случайных выборках, т.е. таких, когда выбор единиц из генеральной совокупности производится случайно (или почти случайно) и все единицы имеют равную (или почти равную) вероятность попасть в выборку. Однако отбор единиц может быть основан на принципе неслучайного отбора, когда во главу угла ставится принцип доступности и целенаправленности. В таких случаях нельзя говорить о репрезентативности полученной выборки, а исчисление ошибок репрезентативности можно производить, лишь имея сведения о генеральной совокупности.

Известны несколько схем формирования неслучайной выборки, которые получили значительное распространение и используются главным образом в социологических исследованиях: отбор доступных единиц наблюдения, отбор по нюрнбергскому методу, целевая выборка при определении экспертов и др. Важное значение имеет также квотная выборка, которая формируется исследователем по небольшому количеству существенных параметров и дает очень близкое совпадение с генеральной совокупностью. Говоря иначе, квот­ный отбор должен обеспечить исследователю почти полное совпадение выборочной и генеральной совокупностей по избранным им параметрам. Целенаправленное дости­жение близости двух совокупностей по ограниченному кругу показателей достигается, как правило, с помощью выборки существенно меньшего объема, чем при исполь­зовании случайного отбора. Именно это обстоятельство делает квотный отбор привлекательным для исследова­теля, не имеющего возможности ориентироваться на самовзвешивающуюся случайную выборку большого объ­ема. Следует добавить, что сокращение объема выборки чаще всего сочетается с уменьшением денежных затрат и сроков проведения исследования, что увеличивает преимущества указанного способа отбора. Отметим также, что при квотной выборке имеется довольно значительная предварительная информация о структуре генеральной совокупности. Главное преимущество здесь состоит в том, что объем выборки существенно меньше, чем при случайной выборке. Выделенные признаки (чаще всего социально-демографические - пол, возраст, образование) должны тесно коррелировать с изучаемыми характеристиками генеральной совокупности, т.е. объекта исследования.

Как уже указывалось, выборочный метод дает возможность получить сведения о генеральной совокупности с гораздо меньшими затратами средств, времени и усилий, чем при сплошном наблюдении. Понятно также, что сплошное изучение всей генеральной совокупности в ряде случаев невозможно, например при проверке качества продукции, образцы которой уничтожаются.

Вместе с этим, однако, следует указать, что генеральная совокупность не является полностью «черным ящиком» и кое-какими сведениями о ней мы все же располагаем. Проводя, например, выборочное исследование, касающееся жизни, быта, имущественного положения, доходов и расходов студентов, их мнений, интересов и т.п., мы все же располагаем сведениями об общей их численности, группировке по полу, возрасту, семейному положению, местожительству, курсе обучения и другими характеристиками. Эти сведения всегда используются в выборочном исследовании.

Существует несколько разновидностей распространения выборочных характеристик на генеральную совокупность: способ прямого пересчета и способ поправочных коэффициентов. Пересчет выборочных характеристик производится, как правило, с учетом доверительных интервалов и может быть выражен в абсолютных и относительных величинах.

Здесь вполне уместно подчеркнуть, что бóльшая часть статистической информации, касающейся экономической жизни общества в самых разных ее проявлениях и видах, основана на выборочных данных. Конечно, они дополняются и данными сплошного учета, и сведениями, полученными в результате переписей (населения, предприятий и пр.). Так, например, все сведения бюджетной статистики (о доходах и расходах населения), приводимые Росстатом, основаны на данных выборочного исследования. Сведения о ценах, размерах производства, объемах торговли, выраженные в соответствующих индексах, также в значительной мере основаны на выборочных данных.

Статистические гипотезы и статистические критерии. Основные понятия

Понятия статистического критерия и статистической гипотезы тесно связаны с выборкой. Статистическая гипотеза (в отличие от других научных гипотез) состоит в предположении о некоторых свойствах генеральной совокупности, которые можно проверить, опираясь на данные случайной выборки. При этом следует помнить, что полученный результат имеет вероятностный характер. Следовательно, итог исследования, подтверждающий справедливость выдвинутой гипотезы, почти никогда не может служить основанием для ее окончательного принятия, и наоборот, результат, несовместный с ней, вполне достаточен для отклонения выдвинутой гипотезы как ошибочной или ложной. Это так, потому что полученный результат может быть совместным и с другими гипотезами, а не только с выдвинутой.

Под статистическим критерием понимается свод правил, которые позволяют ответить на вопрос, при каких результатах наблюдения гипотеза отклоняется, а при каких нет. Другими словами, статистический критерий - это некое решающее правило, обеспечивающее принятие истинной (верной) гипотезы и отклонение ложной гипотезы с большой степенью вероятности. Статистические критерии бывают односторонними и двусторонними, параметрическими и непараметрическими, более или менее мощными. Некоторые критерии применяются часто, другие используются реже. Часть критериев предназначена для решения специальных вопросов, а некоторые критерии могут использоваться при решении широкого класса задач. Эти критерии получили повсеместное распространение в социологии, экономике, психологии, естественных науках и т.д.

Введем некоторые основные понятия статистической проверки гипотез. Проверка гипотезы начинается с выдвижения нулевой гипотезы Н 0 , т.е. некоторого предположения исследователя, а также конкурирующей, альтернативной гипотезы Н 1 , которая противоречит основной. Например: Н 0: , Н 1: или Н 0: , Н 1: (где а - генеральная средняя).

Основная цель исследователя при проверке гипотезы заключается в том, чтобы отвергнуть выдвигаемую им гипотезу. Как писал Р. Фишер, цель проверки любой гипотезы - ее отклонить. Проверка гипотезы строится от противного. Следовательно, если мы считаем, что, например, средняя заработная плата рабочих, полученная по данным конкретной выборки и равная 186 денежным единицам в месяц, не совпадает с действительным размером заработной платы по всей генеральной совокупности, то в качестве нулевой гипотезы принимается, что эти зарплаты равны.

Конкурирующая гипотеза Н 1 может быть сформулирована по-разному:

Н 1: , Н 1: , Н 1: .

Далее определяется ошибка I рода (a), которая устанавливает вероятность того, что верная гипотеза будет отклонена. Очевидно, что такая вероятность должна быть небольшой (обычно от 0,01 до 0,1, чаще всего по умолчанию 0,05, или так называемый 5%-ный уровень значимости). Эти уровни вытекают из метода выборочного наблюдения, согласно которому двукратная или трехкратная ошибка представляет собой те пределы, за которые чаще всего не выходит случайная вариация выборочных характеристик. Ошибка II рода (b) - это вероятность того, что будет принята неверная гипотеза. Как правило, более «опасна» ошибка I рода; именно она фиксируется статистиком. Если в начале исследования мы хотим фиксировать a и b одновременно (например, a = 0,05; b = 0,1), то для этого необходимо сначала рассчитать объем выборки.

Критическая зона (или область) - это совокупность значений критерия, при которых Н 0 отклоняется. Критической точкой Т кр называется точка, отделяющая область принятия гипотезы от области отклонения, или критической зоны.

Как уже упоминалось, ошибка I рода (a) - это вероятность отклонения верной гипотезы. Чем меньше a, тем меньше вероятность совершить ошибку I рода. Но вместе с тем при уменьшении a (например, с 0,05 до 0,01) труднее отклонить нулевую гипотезу, что, собственно говоря, и ставит перед собой исследователь. Подчеркнем еще раз, что дальнейшее снижение a до 0,05 и далее фактически приведет к тому, что все гипотезы, верные и ложные, попадут в область принятия нулевой гипотезы, и сделает невозможным провести их различие.

Ошибка II рода (b) возникает в тех случаях, когда принимается Н 0 , но на самом деле верна альтернативная ей гипотеза Н 1 . Величина g = 1 – b называется мощностью критерия. Ошибка II рода (т.е. ошибочное принятие ложной гипотезы) уменьшается с возрастанием объема выборки и увеличением уровня значимости. Из этого следует, что нельзя одновременно уменьшить a и b. Это достигается лишь при увеличении объема выборки (что не всегда возможно).

Чаще всего задачи проверки гипотезы сводятся к сравнению двух выборочных средних или долей; к сопоставлению генеральной средней (или доли) с выборочной; сравнению эмпирического и теоретического распределений (критерии согласия); сравнению двух выборочных дисперсий (c 2 -критерий); сравнению двух выборочных коэффициентов корреляции или коэффициентов регрессии и некоторым другим сравнениям.

Решение о принятии или отклонении нулевой гипотезы заключается в сопоставлении фактического значения критерия с табличным (теоретическим). Если фактическое значение меньше табличного, то делается вывод, что расхождение носит случайный, несущественный характер и нулевую гипотезу отклонить нельзя. Обратная ситуация (фактическое значение больше табличного) ведет к отклонению нулевой гипотезы.

При проверке статистических гипотез чаще всего используются таблицы нормального распределения, распределения c 2 (читается: хи-квадрат), t -распределения (распределения Стьюдента) и F -распределения (распределения Фишера).



© 2024 gimn70.ru -- Учимся легко - Портал полезных знаний