Проблема
исключения промахов
При первичной обработке статистических данных важной
задачей является исключение результатов наблюдений, полученных в результате
грубых погрешностей и промахов. Например, при просмотре данных о весе (в
килограммах) новорожденных детей наряду с числами 3,500, 2,750, 4,200 может
встретиться число 35,00. Ясно, что это промах, и получено ошибочное число при
ошибочной записи – запятая сдвинута на один знак, в результате результат
наблюдения ошибочно увеличен в 10 раз.
Статистические
методы исключения резко выделяющихся результатов наблюдений основаны на
предположении, что подобные результаты наблюдений имеют распределения, резко
отличающиеся от изучаемых, а потому их следует исключить из выборки.
Простейшая вероятностная
модель такова. При нулевой гипотезе результаты наблюдений рассматриваются как
реализации независимых одинаково распределенных случайных величин X1, X2 , , Xn с функцией распределения F(x). При альтернативной гипотезе X1, X2 , , Xn-1 – такие же, как и при нулевой
гипотезе, а Xn соответствует грубой погрешности и имеет функцию
распределения G(x) = F(x – c), где с велико. Тогда с
вероятностью, близкой к 1 (точнее, стремящейся к 1 при росте объема выборки),
Xn = max { X1, X2 , , Xn} = Xmax ,
т.е. при описании данных в качестве возможной грубой ошибки
следует рассматривать Xmax . Критическая область имеет вид
Ψ = {x: x > d}.
Критическое значение d = d(α,n) выбирают в зависимости от уровня
значимости α и объема выборки n из условия
P{Xmax > d | H0} = α . (1)
Условие (1) эквивалентно
при больших n и малых α следующему:
(2)
Если функция
распределения результатов наблюдений F(x) известна, то критическое значение d находят из соотношения (2). Если F(x) известна с точностью до параметров,
например, известно, что F(x) – нормальная функция распределения, то также
разработаны правила проверки рассматриваемой гипотезы [8].
Однако часто вид функции
распределения результатов наблюдений известен не абсолютно точно и не с точностью
до параметров, а лишь с некоторой погрешностью. Тогда соотношение (2)
становится практически бесполезным, поскольку малая погрешность в определении F(x), как можно показать, приводит к
большой погрешности при определении критического значения d из условия (2), а при фиксированном d уровень значимости критерия может
существенно отличаться от номинального [2].
Поэтому в ситуации, когда
о F(x) нет полной информации, однако известны математическое ожидание М(Х)
и дисперсия σ2 = D(X) результатов наблюдений X1, X2 , , Xn, можно использовать непараметрические правила отбраковки,
основанные на неравенстве Чебышёва. С помощью этого неравенства найдем
критическое значение d = d(α,n) такое, что

Так как

то соотношение (3) будет выполнено, если
(4)
По неравенству Чебышёва
(5)
поэтому для того, чтобы (4) было
выполнено, достаточно приравнять правые части формул (4) и (5), т.е. определить d из условия
(6)
Правило отбраковки, основанное на
критическом значении d, вычисленном по формуле (6), использует минимальную
информацию о функции распределения F(x) и поэтому исключает лишь результаты
наблюдений, весьма далеко отстоящие от основной массы. Другими словами,
значение d1, заданное соотношением (1), обычно много меньше, чем значение d2, заданное соотношением (6).