8.5.
Непараметрические оценки плотности в пространствах произвольной природы
Математический аппарат статистики
объектов нечисловой природы основан не на свойстве линейности пространства и
использовании разнообразных сумм элементов выборок и функций от них, как в
классической статистике, а на применении показателей различия, мер близости,
метрик, поэтому существенно отличается от классического. В статистике нечисловых данных выделяют общую теорию и
статистику в конкретных пространствах нечисловой природы (например, статистику ранжировок). В общей теории есть два основных сюжета. Один
связан со средними величинами и асимптотическим поведением решений
экстремальных статистических задач, второй - с непараметрическими оценками
плотности. Первый сюжет только что рассмотрен, второму посвящена заключительная
часть настоящей главы.
Понятие плотности в пространстве
произвольной природы Х требует специального обсуждения. В пространстве Х должна быть выделена некоторая специальная мера
,
относительно которой будут рассматриваться плотности, соответствующие другим
мерам, например, мере
,
задающей распределение вероятностей некоторого случайного элемента
. В таком
случае
(А)
= Р(
А)
для любого случайного события А. Плотность f(x), соответствующая мере
- это такая функция, что

для любого случайного события А. Для случайных величин и
векторов мера
- это объем множества А, в
математических терминах - мера Лебега. Для дискретных случайных величин и
элементов со значениями в конечном множестве Х в качестве меры
естественно использовать считающую меру,
которая событию А ставит в соответствие
число его элементов. Используют также нормированную случайную меру, когда число
точек в множестве А делят на число точек во всем пространстве Х.
В случае считающей меры значение плотности в точке х совпадает с вероятностью попасть в точку х,
т.е. f(x) = Р(ξ = х). Таким образом, с рассматриваемой точки зрения
стирается грань между понятиями «плотность вероятности» и «вероятность (попасть
в точку)».
Как могут быть использованы
непараметрические оценки плотности распределения вероятностей в пространствах
нечисловой природы? Например, для решения задач классификации (диагностики,
распознавания образов - см. главу 5). Зная плотности распределения классов,
можно решать основные задачи диагностики - как задачи выделения кластеров, так
и задачи отнесения вновь поступающего объекта к одному из диагностических
классов. В задачах кластер-анализа можно находить
моды плотности и принимать их за центры кластеров или за начальные точки итерационных
методов типа k-средних или
динамических сгущений. В задачах собственно диагностики (дискриминации,
распознавания образов с учителем) можно принимать решения о диагностике
объектов на основе отношения плотностей, соответствующих классам. При неизвестных
плотностях представляется естественным использовать их состоятельные оценки.
Методы оценивания плотности
вероятности в пространствах общего вида предложены и первоначально изучены в
работе [31]. В частности, в задачах диагностики объектов нечисловой природы
предлагаем использовать непараметрические ядерные оценки плотности типа Парзена - Розенблатта (этот вид
оценок и его название впервые были введены в статье [31] ).
Они имеют вид:

где К:
- так называемая ядерная функция, x1, x2, …, xn
X - выборка,
по которой оценивается плотность, d(xi , x) - показатель различия (метрика, расстояние, мера близости) между элементом
выборки xi и точкой x,
в которой оценивается плотность, последовательность hn показателей
размытости такова, что hn
0 и nhn
при
, а
- нормирующий множитель, обеспечивающий
выполнение условия нормировки (интеграл по всему пространству от
непараметрической оценки плотности fn(x) по мере
должен равняться 1). Ранее американские
исследователи Парзен и Розенблатт использовали подобные статистики в случае
с d(xi , x) = xi - x .
Введенные описанным образом
ядерные оценки плотности - частный случай так называемых линейных оценок, также
впервые предложенных в работе [31]. В теоретическом плане они выделяются тем,
что удается получать результаты такого же типа, что в классическом одномерном
случае, но, разумеется, с помощью совсем иного математического аппарата.
Свойства
непараметрических ядерных оценок плотности. Рассмотрим выборку со значениями в
некотором пространстве произвольного вида. В этом пространстве предполагаются
заданными показатель различия d и мера
. Одна из
основных идей рассматриваемого подхода состоит в том, чтобы согласовать их
между собой. А именно, на их основе построим новый показатель различия d1 , так называемый "естественный", в терминах которого проще
формулируются свойства непараметрической оценки плотности. Для этого рассмотрим
шары
радиуса t>0
и их меры Fx(t) =
(Lt(x)). Предположим,
что Fx(t) как функция t при фиксированном x непрерывна и строго возрастает. Введем
функцию d1(x,y)= Fx(d(x,y)). Это - монотонное преобразование показателя
различия или расстояния, а потому d1(x,y) - также показатель различия (даже если d - метрика, для d1 неравенство
треугольника может быть не выполнено). Другими словами, d1(x,y), как и d(x,y), можно рассматривать как показатель различия (меру
близости) между x и y.
Для вновь введенного показателя различия d1(x,y) введем соответствующие шары
.
Поскольку обратная функция F -1x(t) определена однозначно, то
, где T = F -1x(t). Следовательно, справедлива цепочка равенств F1x(t) =
(L1t(x)) =
(LT(x)) = Fx(F -1x(t)) = t.
Переход
от d к d1 напоминает
классическое преобразование, использованное Н.В. Смирновым при изучении
непараметрических критериев согласия и однородности, а именно, преобразование
,
переводящее случайную величину
с непрерывной функцией распределения F(x) в случайную величину
,
равномерно распределенную на отрезке [0,1]. Оба рассматриваемых преобразования
существенно упрощают дальнейшие рассмотрения. Преобразование d1= Fx(d) зависит от точки x, что не влияет на дальнейшие рассуждения,
поскольку ограничиваемся изучением сходимости в отдельно взятой точке.
Функцию d1(x,y), для которой мера шара радиуса t равна t, называем
в соответствии с работой [31] «естественным показателем различия» или
«естественной метрикой». В случае конечномерного пространства Rk и евклидовой метрики d имеем d1(x,y) = ck d k (x,y), где ck - объем шара единичного радиуса в Rk .
Поскольку можно записать, что
,
где
,
то переход от одного показателя различия к
другому, т.е. от d к d1 соответствует
переходу от одной ядерной функции к другой, т.е. от K к K1. Выгода от такого
перехода заключается в том, что утверждения о поведении непараметрических
оценок плотности приобретают более простую формулировку.
Теорема 5. Пусть d - естественная метрика, плотность f непрерывна в точке x и ограничена на всем
пространстве X , причем f(x)>0,
ядерная функция K(u) удовлетворяет простым условиям
регулярности
.
Тогда
n(hn ,x) = nhn , оценка fn(x) является
состоятельной, т.е. fn(x)
f(x) по вероятности при n
и, кроме того,

Теорема 5 доказывается методами,
развитыми в работе [31]. Однако остается открытым вопрос о скорости сходимости
ядерных оценок, в частности, о поведении величины
n = M(fn(x)-f(x))2 - среднего квадрата ошибки, и об оптимальном выборе показателей
размытости hn .
Для того, чтобы продвинуться в решении этого вопроса, введем новые понятия. Для
случайного элемента X(
) со
значениями в X рассмотрим т.н. круговое распределение G(x,t) = P{d(X(
), x)<t} и круговую
плотность g(x,t)= G't(x,t).
Теорема 6. Пусть ядерная
функция K(u) непрерывна и финитна, т.е. существует число E такое, что K(u)=0 при u>E. Пусть круговая плотность является достаточно
гладкой, т.е. допускает разложение


при некотором k, причем остаточный член равномерно ограничен
на [0,hE]. Пусть

Тогда


Доказательство теоремы 6
проводится с помощью разработанной в статистике объектов нечисловой природы
математической техники, образцы которой представлены, в частности, в работе
[31]. Если коэффициенты при основных членах в правой части последней формулы не
равны 0, то величина
n достигает минимума, равного
при
Эти выводы
совпадают с классическими результатами, полученными ранее рядом авторов для
весьма частного случая прямой X = R1 (см., например,
монографию [32, с.316]). Заметим, что для уменьшения смещения оценки приходится
применять знакопеременные ядра K(u).
Непараметрические оценки плотности
в конечных пространствах. В
случае конечных
пространств естественных метрик не существует. Однако можно получить аналоги
теорем 5 и 6, переходя к пределу не только по объему выборки n, но и по новому параметру дискретности m.
Рассмотрим некоторую
последовательность Xm , m = 1,2,…- конечных пространств. Пусть в Xm заданы показатели
различия dm . Будем использовать
нормированные считающие меры
ставящие в соответствие каждому подмножеству А долю элементов всего пространства Xm , входящих в А.
Как и ранее, рассмотрим как функцию t объем
шара радиуса t, т.е.
Введем
аналог естественного показателя различия
Наконец, рассмотрим аналоги преобразования
Смирнова
Функции
, в
отличие от ситуации предыдущего раздела, уже не совпадают тождественно с t, они кусочно-постоянны и
имеют скачки в некоторых точках ti , i =1,2,…, причем в этих точках 
Теорема 7. Пусть точки
скачков равномерно сближаются, т.е.
при
(другими словами,
-t|
при
). Тогда
существует последовательность параметров дискретности mn такая, что при
предельном переходе
справедливы заключения теорем 5 и 6.
Пример
1. Пространство
всех подмножеств конечного множества
из m элементов допускает (см. монографию [3]) аксиоматическое введение
метрики
где
- символ симметрической разности множеств.
Рассмотрим непараметрическую ядерную оценку плотности типа Парзена - Розенблатта

где
- функция нормального стандартного
распределения. Можно показать, что эта оценка удовлетворяет условиям теоремы 7 с 
Пример 2. Рассмотрим
пространство функций
определенных на конечном множестве
, со
значениями в конечном множестве
. Это
пространство можно интерпретировать как пространство нечетких множеств (см. о
нечетких множествах, напаример, монографии [3,10]), а
именно, Yr - носитель
нечеткого множества, а Zq - множество значений функции
принадлежности. Очевидно, число элементов пространства Xm равно (q+1)r . Будем использовать расстояние
Непараметрическая оценка плотности имеет вид:

Если
, то при
>
выполнены условия теоремы 7, а потому
справедливы теоремы 5 и 6.
Пример 3. Рассматривая
пространства ранжировок m объектов, в качестве расстояния d(A,B) между ранжировками A и B примем
минимальное число инверсий, необходимых для перехода от A к B. Тогда max(ti -ti-1) не стремится к 0 при
, условия
теоремы 7 не выполнены.
Пример 4. В прикладных
работах наиболее распространенный пример объектов нечисловой природы – вектор
разнотипных данных: реальный объект описывается вектором, часть координат
которого - значения количественных признаков, а часть - качественных
(номинальных и порядковых). Для пространств разнотипных признаков, т.е.
декартовых произведений непрерывных и дискретных пространств, возможны
различные постановки. Пусть, например, число градаций качественных признаков
остается постоянным. Тогда непараметрическая оценка плотности сводится к
произведению частоты попадания в точку в пространстве качественных признаков на
классическую оценку Парзена-Розенблатта в
пространстве количественных переменных. В общем случае расстояние d(x,y) можно, например,
рассматривать как сумму трех расстояний. А именно, евклидова расстояния d1 между
количественными факторами, расстояния d2 между номинальными признаками (d2(x,y) = 0, если x = y, и d2(x,y) = 1, если
) и
расстояния d3 между порядковыми
переменными (если x и y - номера градаций, то d3(x,y) = |x - y|). Наличие
количественных факторов приводит к непрерывности и строгому возрастанию функции Fmx(t), а потому для непараметрических оценок
плотности в пространствах разнотипных признаков верны теоремы 5 - 6.
Статистика
объектов нечисловой природы как часть эконометрики продолжает бурно
развиваться. Увеличивается количество ее практически полезных применений при
анализе конкретных экономических данных - в маркетинговых исследованиях, контроллинге, при управлении предприятием и др.