А.И.
Орлов
Теория принятия решений
Учебное пособие. - М.: Издательство "Март", 2004.
2. ОПИСАНИЕ НЕОПРЕДЕЛЕННОСТЕЙ В ТЕОРИИ ПРИНЯТИЯ РЕШЕНИЙ
2.3.8. Интервальный дискриминантный анализ
Перейдем
к задачам классификации в статистике интервальных данных. Как известно [27],
важная их часть – задачи дискриминации (диагностики, распознавания образов с
учителем). В этих задачах заданы классы (полностью или частично, с помощью обучающих
выборок), и необходимо принять решение –к какому этих
классов отнести вновь поступающий объект.
В
линейном дискриминантном анализе правило принятия
решений основано на линейной функции f(x) от распознаваемого вектора
Рассмотрим для
простоты случай двух классов. Правило принятия решений определяется константой
С – при f(x)>C распознаваемый объект относится к первому
классу, при f(x)<C – ко второму.
В
первоначальной вероятностной модели Р.Фишера предполагается, что классы заданы
обучающими выборками объемов N1 и N2 соответственно из многомерных
нормальных распределений с разными математическими ожиданиями, но одинаковыми
ковариационными матрицами. В соответствии с леммой Неймана-Пирсона, дающей правило
принятия решений при поверке статистических гипотез, дискриминантная функция является линейной. Для ее практического
использования теоретические характеристики распределения необходимо заменить
на выборочные. Тогда дискриминантная функция приобретает следующий вид
Здесь
- выборочное среднее
арифметическое по первой выборке а - выборочное среднее
арифметическое по второй выборке В роли S может выступать любая состоятельная
оценка общей для выборок ковариационной матрицы. Обычно используют следующую
оценку, естественным образом сконструированную на основе выборочных ковариационных
матриц:
В
соответствии с подходом статистики интервальных данных считаем, что специалисту
по анализу данных известны лишь значения с погрешностями
Таким
образом, вместо f(x) статистик делает выводы на основе искаженной линейной
дискриминантной функции f1(x), в которой коэффициенты рассчитаны не по исходным данным
, а по искаженным
погрешностями значениям .
Это
– модель с искаженными параметрами дискриминантной
функции. Следующая модель – такая, в которой распознаваемый вектор x также известен с ошибкой. Далее, константа С может появляться в модели различными способами. Она
может задаваться априори абсолютно точно. Может задаваться с какой-то ошибкой,
не связанной с ошибками, вызванными конечностью обучающих выборок. Может рассчитываться
по обучающим выборкам, например, с целью уравнять ошибки классификации, т.е.
провести плоскость дискриминации через середину отрезка, соединяющего центры
классов. Итак – целый спектр моделей ошибок.
На
какие статистические процедуры влияют ошибки в исходных данных? Здесь тоже много
постановок. Можно изучать влияние погрешностей измерений на значения дискриминантной
функции f, например, в той точке, куда попадает вновь поступающий объект х.
Очевидно, случайная величина f(x) имеет некоторое распределение, определяемое распределениями
обучающих выборок. Выше описана модель Р.Фишера с нормально распределенными
совокупностями. Однако реальные данные, как правило, не подчиняются нормальному
распределению [27]. Тем не менее линейный статистический анализ имеет смысл
и для распределений, не являющихся нормальными (при этом вместо свойств многомерного
нормального распределения приходится опираться на многомерную центральную
предельную теорему и теорему о наследовании сходимости [3]). В частности, приравняв
метрологическую ошибку, вызванную погрешностями исходных данных, и статистическую
ошибку, получим условие, определяющее рациональность объемов выборок. Здесь
два объема выборок, а не один, как в большинстве рассмотренных постановок статистики
интервальных данных. С подобным мы сталкивались ранее при рассмотрении двухвыборочного
критерия Смирнова.
Естественно
изучать влияние погрешностей исходных данных не при
конкретном х, а для правила принятия решений в целом. Может представлять
интерес изучение характеристик этого правила по всем х или по какому-либо отрезку. Более интересно рассмотреть
показатель качества классификации, связанный с пересчетом на модель линейного
дискриминантного анализа [27].
Математический
аппарат изучения перечисленных моделей развит выше в предыдущих пунктах настоящей
главы. Некоторые результаты приведены в [14]. Из-за большого объема выкладок
ограничимся приведенными здесь замечаниями.
Материал предоставлен сайтом AUP.Ru (Электронная библиотека экономической и деловой литературы)
Похожие материалы:
Интервальный дискриминантный анализ
Прикладная статистика: Интервальный
кластер-анализ
Интервальный
дискриминантный анализ
Интервальный кластер-анализ
Теория принятия решений: Интервальный кластер-анализ
Интересы, страхование которых не допускается
|