Глава
4. Статистика интервальных данных
4.8. Статистика интервальных данных в прикладной статистике
Кратко рассмотрим положение статистики интервальных данных (СИД)
среди других методов описания неопределенностей и анализа данных.
Нечеткость и СИД. С формальной точки зрения описание
нечеткости интервалом – это частный случай описания ее нечетким множеством. В
СИД функция принадлежности нечеткого множества имеет специфический вид – она
равна 1 в некотором интервале и 0 вне его. Такая функция принадлежности
описывается всего двумя параметрами (границами интервала). Эта простота
описания делает математический аппарат СИД гораздо более прозрачным, чем
аппарат теории нечеткости в общем случае. Это, в свою очередь, позволяет
продвинуться дальше, чем при использовании функций принадлежности произвольного
вида.
Интервальная математика и СИД. Можно было бы
сказать, что СИД – часть интервальной математики, что СИД так соотносится с
прикладной математической статистикой, как интервальная математика – с
математикой в целом. Однако исторически сложилось так, что интервальная
математика занимается прежде всего вычислительным погрешностями. С точки зрения
интервальной математики две известные формулы для выборочной дисперсии,
рассмотренные выше, имеют разные погрешности. А с точки зрения СИД эти две
формулы задают одну и ту же функцию, и поэтому им соответствуют совпадающие
нотны и рациональные объемы выборок. Интервальная математика прослеживает
процесс вычислений, СИД этим не занимается. Необходимо отметить, что типовые
постановки СИД могут быть перенесены в другие области математики, и, наоборот,
вычислительные алгоритмы прикладной математической статистики и СИД заслуживают
изучения. Однако и то, и другое – скорее дело будущего. Из уже сделанного
отметим применение методов СИД при анализе такой характеристики финансовых
потоков, как NPV – чистая текущая стоимость (см. выше).
Математическая
статистика и СИД. Как уже отмечалось, математическая статистика и СИД отличаются тем, в каком
порядке делаются предельные переходы
и
При этом СИД переходит
в математическую статистику при
. Правда, тогда исчезают основные особенности СИД: нотна
становится равной 0, а рациональный объем выборки – бесконечности.
Рассмотренные выше методы СИД разработаны в предположении, что погрешности малы
(но не исчезают), а объем выборки велик. СИД расширяет классическую
математическую статистику тем, что в исходных статистических данных каждое
число заменяет интервалом. С другой стороны, можно считать СИД новым этапом
развития математической статистики.
Статистика
объектов нечисловой природы и СИД. Статистика объектов нечисловой природы (СОНП) расширяет
область применения классической математической статистики путем включения в нее
новых видов статистических данных. Естественно, при этом появляются новые виды
алгоритмов анализа статистических данных и новый математический аппарат (в
частности, происходит переход от методов суммирования к методам оптимизации). С
точки зрения СОНП частному виду новых статистических данных – интервальным
данным – соответствует СИД. Напомним, что одно из двух основных понятий СИД –
нотна – определяется как решение оптимизационной задачи. Однако СИД, изучая
классические методы прикладной статистики применительно к интервальным данным,
по математическому аппарату ближе к классике, чем другие части СОНП, например,
статистика бинарных отношений.
Робастные
методы статистики и СИД. Если понимать робастность согласно [3] как теорию устойчивости
статистических методов по отношению к допустимым отклонениям исходных данных и
предпосылок модели, то в СИД рассматривается одна из естественных постановок
робастности. Однако в массовом сознании специалистов термин «робастность»
закрепился за моделью засорения выборки большими выбросами (модель
Тьюки-Хубера), хотя эта модель не имеет большого практического значения [27]. К
этой модели СИД не имеет отношения.
Теория
устойчивости и СИД. Общей схеме устойчивости [3] математических моделей социально-экономических
явлений и процессов по отношению к допустимым отклонениям исходных данных и
предпосылок моделей СИД полностью соответствует. Он посвящен
математико-статистическим моделям, используемым при анализе статистических
данных, а допустимые отклонения – это интервалы, заданные ограничениями на
погрешности. СИД можно рассматривать как пример теории, в которой учет
устойчивости позволил сделать нетривиальные выводы. Отметим, что с точки зрения
общей схемы устойчивости [3] устойчивость по Ляпунову в теории дифференциальных
уравнений – весьма частный случай, в котором из-за его конкретности удалось
весьма далеко продвинуться.
Минимаксные
методы, типовые отклонения и СИД. Постановки СИД относятся к минимаксным. За основу берется
максимально возможное отклонение. Это – «подход пессимиста», используемый,
например, в теории антагонистических игр. Использование минимаксного подхода
позволяет подозревать СИД в завышении роли погрешностей измерения. Однако
примеры изучения вероятностно-статистических моделей погрешностей, проведенные,
в частности, при разработке методов оценивания параметров гамма-распределения
[4], показали, что это подозрение не подтверждается. Влияние погрешностей
измерений по порядку такое же, только вместо максимально возможного отклонения
(нотны) приходится рассматривать математическое ожидание соответствующего
отклонения (см. выше). Подчеркнем, что применение в СИД
вероятностно-статистических моделей погрешностей не менее перспективно, чем
минимаксных.
Подход
научной школы А.П. Вощинина и СИД. Если в математической статистике неопределенность только
статистическая, то в научной школе А.П. Вощинина - только интервальная. Можно
сказать, что СИД лежит между классической прикладной математической статистикой
и областью исследований научной школы А.П. Вощинина. Другое отличие состоит в
том, что в этой школе разрабатывают новые методы анализа интервальных данных, а
в СИД в настоящее время изучается устойчивость классических статистических
методов по отношению к малым погрешностям. Подход СИД оправдывается
распространенностью этих методов, однако в дальнейшем следует переходить к
разработке новых методов, специально предназначенных для анализа интервальных
данных.
Анализ
чувствительности и СИД. При анализе чувствительности, как и в СИД, рассчитывают производные по
используемым переменным, или непосредственно находят изменения при отклонении
переменной на +10% от базового значения. Однако этот анализ делают по
каждой переменной отдельно. В СИД все переменные рассматриваются совместно, и
находится максимально возможное отклонение (нотна). При малых погрешностях
удается на основе главного члена разложения функции в многомерный ряд Тейлора
получить удобную формулу для нотны. Можно сказать, что СИД – это многомерный
анализ чувствительности.
По нашему мнению, во все виды статистического программного
обеспечения должны быть включены алгоритмы интервальной статистики,
"параллельные" обычно используемым в настоящее время алгоритмам
прикладной математической статистики. Это позволит в явном виде учесть наличие
погрешностей у результатов наблюдений (измерений, испытаний, анализов, опытов).