Орлов А.И. Математика случая: Вероятность и статистика – основные факты: Проблема исключения промахов

6. Некоторые типовые задачи прикладной статистики и методы их решения

Проблема исключения промахов

При первичной обработке статистических данных важной задачей является исключение результатов наблюдений, полученных в результате грубых погрешностей и промахов. Например, при просмотре данных о весе (в килограммах) новорожденных детей наряду с числами 3,500, 2,750, 4,200 может встретиться число 35,00. Ясно, что это промах, и получено ошибочное число при ошибочной записи – запятая сдвинута на один знак, в результате результат наблюдения ошибочно увеличен в 10 раз.

Статистические методы исключения резко выделяющихся результатов наблюдений основаны на предположении, что подобные результаты наблюдений имеют распределения, резко отличающиеся от изучаемых, а потому их следует исключить из выборки.

Простейшая вероятностная модель такова. При нулевой гипотезе результаты наблюдений рассматриваются как реализации независимых одинаково распределенных случайных величин X₁, X₂ , , X_n с функцией распределения F(x). При альтернативной гипотезе X₁, X₂ , , X_n_-1 – такие же, как и при нулевой гипотезе, а X_n соответствует грубой погрешности и имеет функцию распределения G(x) = F(x – c), где с велико. Тогда с вероятностью, близкой к 1 (точнее, стремящейся к 1 при росте объема выборки),

X_n = max { X₁, X₂ , , X_n} = X_max ,

т.е. при описании данных в качестве возможной грубой ошибки следует рассматривать X_max . Критическая область имеет вид

Ψ = {x: x > d}.

Критическое значение d = d(α,n) выбирают в зависимости от уровня значимости α и объема выборки n из условия

P{X_max > d | H₀} = α . (1)

Условие (1) эквивалентно при больших n и малых α следующему:

(2)

Если функция распределения результатов наблюдений F(x) известна, то критическое значение d находят из соотношения (2). Если F(x) известна с точностью до параметров, например, известно, что F(x) – нормальная функция распределения, то также разработаны правила проверки рассматриваемой гипотезы [8].

Однако часто вид функции распределения результатов наблюдений известен не абсолютно точно и не с точностью до параметров, а лишь с некоторой погрешностью. Тогда соотношение (2) становится практически бесполезным, поскольку малая погрешность в определении F(x), как можно показать, приводит к большой погрешности при определении критического значения d из условия (2), а при фиксированном d уровень значимости критерия может существенно отличаться от номинального [2].

Поэтому в ситуации, когда о F(x) нет полной информации, однако известны математическое ожидание М(Х) и дисперсия σ² = D(X) результатов наблюдений X₁, X₂ , , X_n, можно использовать непараметрические правила отбраковки, основанные на неравенстве Чебышёва. С помощью этого неравенства найдем критическое значение d = d(α,n) такое, что

Так как

то соотношение (3) будет выполнено, если

(4)

По неравенству Чебышёва

(5)

поэтому для того, чтобы (4) было выполнено, достаточно приравнять правые части формул (4) и (5), т.е. определить d из условия

(6)

Правило отбраковки, основанное на критическом значении d, вычисленном по формуле (6), использует минимальную информацию о функции распределения F(x) и поэтому исключает лишь результаты наблюдений, весьма далеко отстоящие от основной массы. Другими словами, значение d₁, заданное соотношением (1), обычно много меньше, чем значение d₂, заданное соотношением (6).

Материал предоставлен сайтом AUP.Ru (Электронная библиотека экономической и деловой литературы)