4.6. Состоятельные критерии проверки однородности для
независимых выборок
В
соответствии с эконометрической теорией естественно потребовать, чтобы
рекомендуемый для массового использования в экономических и
технико-экономических исследованиях критерий однородности был состоятельным. Напомним: это значит, что для любых отличных друг от друга функций
распределения F(x) и G(x) (другими словами, при справедливости альтернативной гипотезы H1) вероятность отклонения гипотезы H0 должна стремиться к
1 при увеличении объемов выборок т и п. Из перечисленных выше в
конце п.4 критериев состоятельными являются только критерии Смирнова и типа
омега-квадрат.
Проведенное
исследование мощности (методом статистических испытаний) первых четырех из
перечисленных выше критериев (при различных вариантах функций распределения F(x) и G(x)) подтвердило
преимущество критериев Смирнова и омега-квадрат и при объемах выборок 6-12.
Критерий Смирнова
однородности двух выборок. Он предложен членом-корреспондентом АН СССР Н.В. Смирновым в 1939 г. (см.
справочник [8]). Единственное ограничение - функции распределения F(x) и G(x) должны быть
непрерывными. Напомним, что согласно Л.Н. Большеву и
Н.В. Смирнову [8] значение эмпирической функции распределения в точке х равно доле результатов наблюдений в выборке,
меньших х. Критерий Смирнова основан на использовании эмпирических
функций распределения Fm(x) и Gn(x), построенных по первой и второй выборкам
соответственно. Значение статистики Смирнова
сравнивают с
соответствующим критическим значением (см., например, [8]) и по результатам
сравнения принимают или отклоняют гипотезу Н0 о совпадении (однородности) функций распределения. Практически
значение статистики Dm,п рекомендуется согласно монографии [8] вычислять по формулам
,
,
,
где x'1<x'2<…<x'm -
элементы первой выборки x1,x2,…,xm , переставленные в порядке возрастания, а y'1<y'2<…<y'n -
элементы второй выборки y1,y2,…,yn , также переставленные в порядке возрастания.
Разработаны алгоритмы
и программы для ЭВМ, позволяющие рассчитывать точные распределения, процентные
точки и достигаемый уровень значимости для двухвыборочной статистики Смирнова , разработаны подробные таблицы (см., например, методику
[15], содержащую тексты программ и подробные таблицы).
Однако
у критерия Смирнова есть и недостатки. Его распределение сосредоточено в
сравнительно небольшом числе точек, поэтому функция распределения растет большими
скачками. В результате не удается выдержать заданный уровень
значимости, реальный уровень значимости может в несколько раз отличаться от
номинального (подробному обсуждению неклассического феномена существенного
отличия реального уровня значимости от номинального посвящена работа [16]).
Критерий типа
омега-квадрат (Лемана-Розенблатта). Статистика критерия типа омега-квадрат
для проверки однородности двух независимых выборок имеет вид:
A = Fm(x) – Gn(x))2 dHm+n(x) ,
где Hm+n(x) – эмпирическая функция распределения, построенная по
объединенной выборке,
Hm+n(x) = Fm(x) + Gn(x) .
Статистика A типа омега-квадрат
была предложена Э. Леманом в 1951 г., изучена М. Розенблаттом в 1952 г., а затем и другими исследователями.
Она зависит лишь от рангов элементов двух выборок в объединенной выборке. Пусть - первая выборка, - соответствующий вариационный ряд, -вторая выборка, - вариационный ряд, соответствующий второй выборке. Поскольку
функции распределения независимых выборок непрерывны, то с вероятностью 1 все
выборочные значения различны, совпадения отсутствуют. Статистика А представляется в виде (см., например, [8]):
где ri - ранг x'i и sj - ранг y'j в общем вариационном ряду,
построенном по объединенной выборке.
Правила принятия
решений при проверке однородности двух выборок на основе статистик Смирнова и
типа омега-квадрат, т.е. таблицы критических значений в зависимости от уровней
значимости и объемов значимости приведены, например, в таблицах [8].
Рекомендации по
выбору критерия однородности. Для критерия типа омега-квадрат нет выраженного эффекта различия между
номинальными и реальными уровнями значимости. Поэтому мы рекомендуем для
проверки однородности функций распределения (гипотеза H0) применять
статистику А типа омега-квадрат. Если методическое,
табличное или программное обеспечение для статистики Лемана-Розенблатта отсутствует, рекомендуем использовать критерий Смирнова. Для проверки
однородности математических ожиданий (гипотеза H'0) целесообразно
применять критерий Крамера-Уэлча. По
нашему мнению, статистики Стьюдента, Вилкоксона и др.
допустимо использовать лишь в отдельных частных случаях, рассмотренных выше.
Некоторые
соображения о внедрении современных методов прикладной статистики в практику
технических и технико-экономических исследований. Даже из проведенного
выше разбора лишь одной из типичных статистических задач - задачи проверки
однородности двух выборок - можно сделать вывод о целесообразности широкого развертывания
в организациях различных форм собственности работ по критическому анализу
сложившейся в технических и технико-экономических исследованиях практики
статистической обработки данных и по внедрению накопленного арсенала
современных методов прикладной статистики. По нашему мнению, широкого
внедрения заслуживают, в частности, методы многомерного статистического
анализа, планирования эксперимента, статистики объектов нечисловой природы.
Очевидно, рассматриваемые работы должны быть плановыми, организационно
оформленными, проводиться мощными самостоятельными организациями и
подразделениями. Целесообразно создание службы статистических консультаций в
системе научно-исследовательских учреждений и вузов технического и
технико-экономического профиля.