Глава 2. Статистические методы в
пространствах произвольной природы
2.1. Эмпирические и теоретические
средние
Одна
из основных статистических процедур - вычисление средних величин для тех или
иных совокупностей данных. Законы больших чисел состоят в том, что эмпирические
средние сходятся к теоретическим. В классическом варианте: выборочное среднее
арифметическое при определенных условиях сходится по вероятности при росте
числа слагаемых к математическому ожиданию. На основе законов больших чисел
обычно доказывают состоятельность различных статистических оценок. В целом эта
тематика занимает заметное место в теории вероятностей и математической
статистике.
Однако
математический аппарат при этом основан на свойствах сумм случайных величин
(векторов, элементов линейных пространств). Следовательно, он не пригоден для
изучения вероятностных и статистических проблем, связанных со случайными
объектами нечисловой природы. Это такие объекты, как бинарные отношения,
нечеткие множества, вообще элементы пространств без векторной структуры.
Объекты нечисловой природы все чаще встречаются в прикладных
исследованиях. Много конкретных примеров
приведено выше в главе 1. Поэтому необходимо научиться усреднять различные
нечисловые данные, т.е. определять эмпирические и теоретические средние в
пространствах произвольной природы. Кроме того, представляется полезным
получение законов больших чисел в пространствах нечисловой природы.
Для
осуществления описанной научной программы необходимо решить следующие задачи.
А)
Определить понятие эмпирического среднего.
Б)
Определить понятие теоретического среднего.
В)
Ввести понятие сходимости эмпирических средних к теоретическому.
Г)
Доказать при тех или иных комплексах условий сходимость эмпирических средних к
теоретическому.
Д)
Обобщив это доказательство, получить метод обоснования состоятельности
различных статистических оценок.
Е)
Дать применения полученных результатов при решении конкретных задач.
Ввиду принципиальной
важности рассматриваемых результатов приводим в настоящей главе доказательство
закона больших чисел, а также результаты компьютерного анализа множества
эмпирических средних.
Определения средних
величин. Пусть X - пространство произвольной природы, x1, x2, x3,...,xn - его элементы. Чтобы ввести
эмпирическое среднее для x1, x2, x3,...,xn будем использовать действительнозначную (т.е.
с числовыми значениями) функцию f(x,y) двух переменных со
значениями в X. В стандартных математических обозначениях:
Величина f(x,y)
интерпретируется как показатель различия между x и y: чем f(x,y)
больше, тем x и y сильнее различаются. В качестве f можно
использовать расстояние в Х, квадрат расстояния и т.п.
Определение 1. Средней величиной для совокупности x1, x2, x3,...,xn (относительно меры различия f), обозначаемой
любым из трех способов:
хср = En(f) = En(x1, x2, x3,...,xn; f),
называем решение оптимизационной
задачи
(1)
Это
определение согласуется с классическими определениями средних величин. Если Х
= R1, f(x,y) = (x - y)2, то хср - выборочное среднее арифметическое.
Если же Х = R1, f(x,y) = |x - y|, то при n = 2k+1 имеем хср = x(k+1), при n= 2k эмпирическое
среднее является отрезком [x(k), x(k+1)]. Здесь
через x(i) обозначен i-ый член вариационного ряда,
построенного по x1, x2, x3,...,xn, т.е. i-я
порядковая статистика. Таким образом, при Х = R1, f(x,y) = |x - y| решение задачи (1) дает естественное определение выборочной
медианы. Правда, несколько отличающееся от определения, обычно предлагаемого в
курсах "Общей теории статистики", в котором при n = 2k медианой называют полусумму двух центральных членов вариационного ряда (x(k) + x(k+1))/2. Иногда x(k) называют левой медианой, а х(k+1) - правой медианой [1].
Решением
задачи (1) является множество En(f), которое может быть
пустым, состоять из одного или многих элементов. Выше приведен пример, когда
решением является отрезок. Если Х = R1\{х0}, f(x,y) = (x - y)2 , а среднее арифметическое
выборки равно х0, то En(f) пусто.
При
моделировании реальных ситуаций часто можно принять, что Х состоит из конечного
числа элементов. Тогда множество En(f) непусто - минимум на
конечном множестве всегда достигается.
Понятия случайного элемента
со значениями в Х, его распределения,
независимости случайных элементов используем согласно определениям главы 1, т.е.
каноническому справочнику Ю.В. Прохорова и Ю.А. Розанова [2]. Будем считать,
что функция f измерима относительно
-алгебры,
участвующей в определении случайного элемента
. Тогда
при фиксированном y является
действительнозначной случайной величиной. Предположим, что она имеет
математическое ожидание.
Определение 2. Теоретическим средним E(x,f)
(другими словами, математическим ожиданием) случайного элемента
относительно меры различия f называется
решение оптимизационной задачи
(2)
Это
определение, как и для эмпирических средних, согласуется с классическим. Если Х
= R1, f(x,y) = (x - y)2, то Е(x,f) = М(x(ω)) - обычное математическое ожидание. При этом М
- дисперсия случайной величины
. Если же Х = R1, f(x,y) = |x - y| , то E(x,f)
= [a,b], где a = sup{t: F(t)<0,5}, b = inf{t:
F(t)>0,5}, где F(t) - функция распределения случайной
величины
. Если
график F(t) имеет плоский участок на уровне F(t) = 0,5, то
медиана - теоретическое среднее в смысле определения 2 - является отрезком. В
классическом случае обычно говорят, что каждый элемент отрезка [a; b] является одним из возможных значений медианы. Поскольку наличие указанного
плоского участка - исключительный случай, то обычно решением задачи (2)
является множество из одного элемента a = b - классическая медиана
распределения случайной величины
.
Теоретическое
среднее E(x, f) можно определить лишь тогда, когда
существует при всех
. Оно
может быть пустым множеством, например, если Х = R1\{х0}, f(x,y) = (x - y)2, x0= М(x(ω)). И то, и
другое исключается, если Х конечно. Однако и для конечных Х теоретическое среднее может состоять не из одного, а из многих элементов.
Отметим, однако, что в множестве всех распределений вероятностей на Х подмножество тех распределений, для которых E(x,f) состоит более
чем из одного элемента, имеет коразмерность 1, поэтому основной является
ситуация, когда множество E(x,f) содержит единственный элемент [1].
Существование средних
величин. Под
существованием средних величин будем понимать непустоту множеств решений
соответствующих оптимизационных задач.
Если Х состоит из конечного числа элементов, то минимум в задачах (1) и (2)
берется по конечному множеству. А потому, как уже отмечалось, эмпирические и
теоретические средние существуют.
Ввиду
важности обсуждаемой темы приведем доказательства. Для строгого математического
изложения нам понадобятся термины из раздела математики под названием
"общая топология". Топологические термины и результаты будем
использовать в соответствии с классической монографией [3]. Так, топологическое
пространство называется бикомпактным в том и только в том случае, когда из
каждого его открытого покрытия можно выбрать конечное подпокрытие [3, с.183].
Теорема
1. Пусть Х - бикомпактное пространство, функция f непрерывна на Х2 (в топологии произведения). Тогда эмпирическое и
теоретическое средние существуют.
Доказательство. Функция f(xi, y) от y непрерывна, сумма непрерывных функций
непрерывна, непрерывная функция на бикомпакте достигает своего минимума, откуда
и следует заключение теоремы относительно эмпирического среднего.
Перейдем
к теоретическому среднему. По теореме Тихонова [3, с.194] из бикомпактности Х вытекает бикомпактность Х2. Для каждой точки (x, y) из Х2 рассмотрим
- окрестность в Х2 в смысле
показателя различия f, т.е. множество

Поскольку f непрерывна, то
множества U(x,y) открыты в рассматриваемой топологии в Х2.
По теореме Уоллеса [3, с.193] существуют открытые (в Х) множества V(x)
и W(y), содержащие x и y соответственно и
такие, что их декартово произведение V(x)ЧW(y) целиком
содержится внутри U(x, y).
Рассмотрим
покрытие Х2 открытыми множествами V(x)ЧW(y). Из бикомпактности Х2 вытекает существование конечного
подпокрытия {V(xi)ЧW(yi), i = 1, 2, ... , m}. Для каждого х из Х рассмотрим все декартовы произведения V(xi)ЧW(yi), куда входит точка (x, y)
при каком-либо y. Таких декартовых произведений и их первых множителей V(xi) конечное число. Возьмем пересечение
таких первых множителей V(xi) и обозначим его Z(x). Это пересечение открыто, как пересечение конечного числа открытых множеств,
и содержит точку х. Из покрытия бикомпактного пространства X открытыми множествами Z(x) выберем открытое подпокрытие Z1,
Z2, ..., Zk.
Покажем,
что если
и
принадлежат одному и тому же Zj при некотором j, то
(3)
Пусть Zj = Z(x0) при
некотором x0. Пусть V(xi)ЧW(yi),
, -
совокупность всех тех исходных декартовых произведений из системы {V(xi)ЧW(yi), i = 1, 2, ... , m},
куда входят точки (x0, y) при различных y.
Покажем, что их объединение содержит также точки
и
при всех y. Действительно, если (х0,
y) входит в V(xi)ЧW(yi), то y входит в W(yi), а
и
вместе с x0 входят в V(xi), поскольку
,
и x0 входят в Z(x0).
Таким образом,
и
принадлежат V(xi)ЧW(yi), а потому согласно
определению V(xi)ЧW(yi)

откуда и следует неравенство (3).
Поскольку Х2 - бикомпактное пространство, то функция f ограничена на Х2,
а потому существует математическое ожидание Mf(
,y)
для любого случайного элемента
,
удовлетворяющего приведенным выше условиям согласования топологии, связанной с f,
и измеримости, связанной с
.
Если х1 и х2 принадлежат одному открытому
множеству Zj, то

а потому функция
g(y) = Mf(
,y) (4)
непрерывна на Х. Поскольку
непрерывная функция на бикомпактном множестве достигает своего минимума, т.е.
существуют такие точки z, на которых g(z) = inf{g(y),
y
X}, то теорема 1 доказана.
В
ряде интересных для приложений ситуаций Х не является бикомпактным
пространством. Например, если Х = R1. В этих случаях
приходится наложить на показатель различия f некоторые ограничения,
например, так, как это сделано в теореме 2.
Теорема
2. Пусть Х - топологическое пространство, непрерывная (в
топологии произведения) функция f: X2
R2 неотрицательна, симметрична (т.е. f(x,y) = f(y,x) для любых x и y из X), существует число D > 0
такое, что при всех x, y, z из X
f(x,y) < D{f(x,z) + f(z,y)}. (5)
Пусть в Х существует точка x0 такая, что при любом положительном R множество {x: f(x, x0) < R} является
бикомпактным. Пусть для случайного элемента
,
согласованного с топологией в рассмотренном выше смысле, существует g(x0) = Mf(
, x0).
Тогда
существуют (т.е. непусты) математическое ожидание E(x,f) и эмпирические
средние En(f).
Замечание. Условие (5) - некоторое обобщение неравенства треугольника. Например,
если g - метрика в X, а f = gp при некотором натуральном p,
то для f выполнено соотношение (5) с D = 2p.
Доказательство. Рассмотрим функцию g(y), определенную формулой (4). Имеем
f(
,y) < D {f(
, x0) +
f(x0,,y)}. (6)
Поскольку по условию теоремы g(x0)
существует, а потому конечно, то из оценки (6) следует существование и
конечность g(y) при всех y из Х. Докажем
непрерывность этой функции.
Рассмотрим
шар (в смысле меры различия f) радиуса R с центром в x0:
K(R) = {x : f(x, x0) < R}, R > 0.
В соответствии с условием теоремы K(R)
как подпространство топологического пространства Х является
бикомпактным. Рассмотрим произвольную точку х из Х. Справедливо
разложение

где
(С)
- индикатор множества С. Следовательно,
(7)
Рассмотрим второе слагаемое в (7). В
силу (5)
(8)
Возьмем математическое ожидание от
обеих частей (8):
(9) 
В правой части (9) оба слагаемых
стремятся к 0 при безграничном возрастании R: первое - в силу того, что

второе - в силу того, что
распределение случайного элемента
сосредоточено на Х и

Пусть U(x) - такая
окрестность х (т.е. открытое множество, содержащее х), для
которой
sup {f(y, x), y
U(x)}
<
Имеем
(10)
В силу (9) и (10) при безграничном
возрастании R
(11)
равномерно по y
U(x). Пусть R(0) таково, что левая часть (11) меньше
> 0
при R>R(0) и, кроме того, y
U(x)
K(R(0)). Тогда при R>R(0)
(12)
Нас интересует поведение выражения в
правой части формулы (12) при y
U(x). Рассмотрим f1 - сужение функции f на замыкание
декартова произведения множеств U(x)ЧK(R), и
случайный элемент
Тогда
при y
U(x), а непрерывность функции
была доказана в
теореме 1. Последнее означает, что существует окрестность U1(x)
точки х такая, что
(13)
при y
U1(x). Из (12) и (13)
вытекает, что при 

что и доказывает непрерывность
функции g(x).
Докажем
существование математического ожидания E(x,f). Пусть R(0)
таково, что
(14)
Пусть H - некоторая константа,
значение которой будет выбрано позже. Рассмотрим точку х из множества K(HR(0))С - дополнения K(HR(0)), т.е. из внешности шара радиуса HR(0) с центром в х0. Пусть
Тогда
имеем

откуда
(15)
Выбирая H достаточно большим,
получим с учетом условия (14), что при x
K(HR(0))С справедливо
неравенство
(16)
Можно выбрать H так, чтобы
правая часть (16) превосходила
Сказанное
означает, что Argmin g(x) достаточно искать внутри бикомпактного
множества K(HR(0)). Из непрерывности функции g вытекает, что ее
минимум достигается на указанном бикомпактном множестве, а потому - и на всем Х.
Существование (непустота) теоретического среднего E(x,f)
доказана.
Докажем
существование эмпирического среднего En(f). Есть искушение проводить его дословно так
же, как и доказательство существования математического ожидания E(x,f), лишь с заменой 1/2 в формуле (16) на частоту попадания элементов выборки xi в шар K(R(0)). Эта частота, очевидно, стремится
к вероятности попадания случайного элемента
в K(R(0)),
большей 1/2 в соответствии с (14). Однако это рассуждение показывает лишь, что
вероятность непустоты En(f) стремится к 1 при
безграничном росте объема выборки. Точнее, оно показывает, что

Поэтому пойдем другим путем, не
опирающимся к тому же на вероятностную модель выборки. Положим
(17)
Если х входит в дополнение
шара K(HR(1)), то аналогично (15) имеем
(18)
При достаточно большом H из
(17) и (18) следует, что

Следовательно, Argmin достаточно
искать на K(HR(1)). Заключение теоремы 2 следует из того, что на
бикомпактном пространстве K(HR(1)) минимизируется
непрерывная функция.
Теорема
2 полностью доказана. Перейдем к законам больших чисел.