Методы классификации
Следующий тип задач многомерного
статистического анализа – задачи классификации. Они согласно [2, 20] делятся на
три принципиально различных вида – дискриминантный анализ, кластер-анализ,
задачи группировки.
Задача дискриминантного
анализа состоит в нахождении правила отнесения наблюдаемого объекта к одному из
ранее описанных классов. При этом объекты описывают в математической модели с
помощью векторов, координаты которых – результаты наблюдения ряда признаков у
каждого объекта. Классы описывают либо непосредственно в математических
терминах, либо с помощью обучающих выборок. Обучающая выборка – это выборка,
для каждого элемента которой указано, к какому классу он относится.
Рассмотрим пример
применения дискриминантного анализа для принятия решений в технической
диагностике. Пусть по результатам измерения ряда параметров продукции
необходимо установить наличие или отсутствие дефектов. В этом случае для
элементов обучающей выборки указаны дефекты, обнаруженные в ходе
дополнительного исследования, например, проведенного после определенного
периода эксплуатации. Дискриминантный анализ позволяет сократить объем
контроля, а также предсказать будущее поведение продукции. Дискриминантный
анализ сходен с регрессионным – первый позволяет предсказывать значение
качественного признака, а второй – количественного. В статистике объектов
нечисловой природы разработана математическая схема, частными случаями которой
являются регрессионный и дискриминантный анализы [21].
Кластерный анализ
применяют, когда по статистическим данным необходимо разделить элементы выборки
на группы. Причем два элемента группы из одной и той же группы должны быть
«близкими» по совокупности значений измеренных у них признаков, а два элемента
из разных групп должны быть «далекими» в том же смысле. В отличие от
дискриминантного анализа в кластер-анализе классы не заданы, а формируются в
процессе обработки статистических данных. Например, кластер-анализ может быть
применен для разбиения совокупности марок стали (или марок холодильников) на
группы сходных между собой.
Другой вид
кластер-анализа – разбиение признаков на группы близких между собой.
Показателем близости признаков может служить выборочный коэффициент корреляции.
Цель кластер-анализа признаков может состоять в уменьшении числа контролируемых
параметров, что позволяет существенно сократить затраты на контроль. Для этого
из группы тесно связанных между собой признаков (у которых коэффициент
корреляции близок к 1 – своему максимальному значению) измеряют значение
одного, а значения остальных рассчитывают с помощью регрессионного анализа.
Задачи группировки решают
тогда, когда классы заранее не заданы и не обязаны быть «далекими» друг от
друга. Примером является группировка студентов по учебным группам. В технике
решением задачи группировки часто является параметрический ряд – возможные
типоразмеры группируются согласно элементам параметрического ряда. В
литературе, нормативно-технических и инструктивно-методических документах по
прикладной статистике также иногда используется группировка результатов
наблюдений (например, при построении гистограмм).
Задачи классификации
решают не только в многомерном статистическом анализе, но и тогда, когда
результатами наблюдений являются числа, функции или объекты нечисловой природы.
Так, многие алгоритмы кластер-анализа используют только расстояния между
объектами. Поэтому их можно применять и для классификации объектов нечисловой
природы, лишь бы были заданы расстояния между ними. Простейшая задача классификации
такова: даны две независимые выборки, требуется определить, представляют они
два класса или один. В одномерной статистике эта задача сводится к проверке
гипотезы однородности [2].