1.6.Статистика интервальных данных - научное
направление на стыке метрологии и математической
статистики
В статистике интервальных данных (СИД)
элементами выборки являются не числа, а интервалы, в частности, порожденные
наложением ошибок измерения на значения случайных величин. Подробнее этот
сравнительно новый, но весьма перспективный раздел эконометрики рассмотрим в
главе 9. Здесь дадим лишь общее представление о статистике интервальных данных
в сравнении с классической математической статистикой. Прежде всего отметим,
что СИД входит в теорию устойчивости (робастности) статистических процедур и
примыкает к интервальной математике. В СИД изучены практически все задачи
классической прикладной математической статистики, в частности, задачи
регрессионного анализа, планирования эксперимента, сравнения альтернатив и
принятия решений в условиях интервальной неопределенности и др. Основная идея
СИД является общеинженерной - каждая величина должна приводиться вместе с
погрешностью ее определения. К сожалению, эта идея еще не стала
общеэкономической.
Рассмотрим развитие в течение последних 15 лет
асимптотических методов статистического анализа интервальных данных при больших
объемах выборок и малых погрешностях измерений. В отличие от классической
математической статистики, сначала устремляется к бесконечности объем выборки и
только потом - уменьшаются до нуля погрешности. Разработана общая схема
исследования, включающая расчет двух основных характеристик - нотны
(максимально возможного отклонения статистики, вызванного интервальностью
исходных данных) и рационального объема выборки (превышение которого не дает
существенного повышения точности оценивания и статистических выводов, связанных
с проверкой гипотез). Она применена к оцениванию математического ожидания и
дисперсии, медианы и коэффициента вариации, параметров гамма-распределения в
ГОСТ 11.011-83 и характеристик аддитивных статистик, для проверки гипотез о
параметрах нормального распределения, в т.ч. с помощью критерия Стьюдента, а
также гипотезы однородности двух выборок по критерию Смирнова, и т.д..
Разработаны подходы к учету интервальной неопределенности в основных
постановках регрессионного, дискриминантного и кластерного анализов.
Многие утверждения СИД отличаются от
аналогов из классической математической статистики. В частности, не существует
состоятельных оценок: средний квадрат ошибки оценки, как правило,
асимптотически равен сумме дисперсии этой оценки, рассчитанной согласно
классической теории, и квадрата нотны. Метод моментов иногда оказывается точнее
метода максимального правдоподобия (см. ГОСТ 11.011-83). Нецелесообразно с целью
повышения точности выводов увеличивать
объем выборки сверх некоторого предела. В СИД классические доверительные
интервалы должны быть расширены вправо и влево на величину нотны, и длина их не
стремится к 0 при росте объема выборки.
СИД позволяет снять некоторые
противоречия между метрологией и классической математической статистикой.
Например, вторая из названных дисциплин утверждает, что путем увеличения числа
измерений можно сколь угодно точно оценить параметр, а первая вполне
справедливо оспаривает это утверждение. Результаты СИД уточняют интуитивные
представления метрологов (которые сосредотачивались, впрочем, вокруг весьма
частного с точки зрения эконометрики вопроса - оценивания математического
ожидания) и развенчивают "гордыню" математической статистики.