Часть 3. Методы прикладной статистики
3.4. Статистика нечисловых данных
3.4.2. Теория случайных
толерантностей
В
прикладных исследованиях обычно используют три конкретных вида бинарных
отношений – ранжировки, разбиения и толерантности.
Статистические теории ранжировок [13] и разбиений [15]
достаточно сложны с математиче6ской точки зрения. Поэтому продвинуться удается
не очень далеко. Теория случайных ранжировок,
в частности, изучает в основном равномерные распределения на множестве ранжировок. Теория случайных толерантностей позволяет рассмотреть более общие ситуации. Это объясняется, грубо говоря,
тем, что для теории толерантностей оказываются полезными суммы некоторых
независимых случайных величин, а для теории ранжировок и разбиений аналогичные случайные величины зависимы. Теория случайных
толерантностей является частным случаем теории люсианов,
рассматриваемой в подразделе 3.4.3. Здесь приводим результаты, специфичные
именно для толерантностей.
Пусть X - конечное
множество из k элементов. Толерантность А на множестве Х, как и любое бинарное отношение, однозначно
описывается матрицей ||a(i, j)||, 1 < i, j < k, где a(i, j) = 1, если элементы с номерами i и j связаны отношением толерантности, и a(i, j) = 0 в противном случае. Поскольку
толерантность – это рефлексивное и симметричное бинарное отношение, то
достаточно рассматривать часть матрицы, лежащую над главной диагональю: ||a(i, j), 1 < i<j < k||. Между наборами ||a(i, j), 1 < i<j < k|| из 0 и 1 и толерантностями на Х имеется
взаимнооднозначное соответствие.
Пусть А = А(ω)
– случайная толерантность, равномерно распределенная на множестве всех
толерантностей на Х. Легко видеть, что в этом случае a(i, j), 1 < i<j < k, - независимые случайные величины, принимающие
значения 0 и 1 с вероятностями 0,5. Этот факт, несмотря на свою математическую
тривиальность, является решающим для построения теории толерантностей. Для
аналогичных постановок в теории ранжировок и
разбиений величины a(i, j) оказываются зависимыми.
Следовательно,
случайная величина

имеет биномиальное распределение с
параметрами k(k-1)/2, ½ и асимптотически нормальна при k →
∞.
Проверка
гипотез о согласованности. Рассмотрим s независимых толерантностей А1, А2, …, Аs, равномерно распределенных на
множестве всех толерантностей на Х. Рассмотрим вектор
, (1)
где d(Ap, Aq) – расстояние между толерантностями Ap и Aq, аксиоматически введенное в главе
1.1. В (1) предполагается, что пары (p, q), p < q, располагаются в раз навсегда
установленном порядке, для определенности в лексиграфическом (т.е. пары упорядочиваются в соответствии со значением р, а при одинаковых р – по значению q).
Вектор ξks является
суммой k(k-1)/2 независимых одинаково распределенных случайных векторов, а потому
асимптотически нормален при k → ∞. Координаты этого вектора независимы,
поскольку, как нетрудно видеть, координаты каждого слагаемого независимы (это
свойство не сохраняется при отклонении от равномерности распределения).
Распределения случайных величин ap(i, j) и |ap(i, j) - aq(i, j)| совпадают, поэтому распределения В(А) и d(Ap, Aq) также совпадают.
В
силу многомерной центральной предельной теоремы (глава 1.4) распределение
вектора

сходится при k → ∞ к распределению
многомерного нормального вектора ηs, ковариационная матрица которого
совпадает с ковариационной матрицей вектора ηks, а
математическое ожидание равно 0. Таким образом, координаты случайного вектора ηs независимы и имеют стандартное
нормальное распределение с математическим ожиданием 0 и дисперсией 1. В
соответствии с теоремами о наследовании сходимости (глава 1.4) распределение f(ηks) сходится
при k →
∞ к распределению f(ηs) для достаточно широкого класса
функций f, в частности, для всех непрерывных функций. В качестве примеров рассмотрим
статистики
.
При k → ∞ распределения
случайных величин

сходятся соответственно к
стандартному нормальному распределению с математическим ожиданием 0 и
дисперсией 1 и распределению хи-квадрат с s(s – 1)/2 степенями свободы. Статистики W и N могут быть использованы для проверки гипотезы о равномерности
распределения толерантностей.
Как
известно, в теории ранговой корреляции [13], т.е. в теории случайных ранжировок, в качестве единой выборочной меры связи
нескольких признаков используется коэффициент согласованности W(R), называемый также коэффициентом конкордации [16, табл.6.10]. Его распределение затабулировано в предположении равномерности распределения
на пространстве ранжировок (без связей). Непосредственным
аналогом W(R) в случае толерантностей является статистика W. Статистики W и N играют ту же роль для
толерантностей, что W(R) для ранжировок, однако
математико-статистическая теория в случае толерантностей гораздо проще, чем для ранжировок.
Обобщением
равномерно распределенных толерантностей являются толерантности с независимыми
связями. В этой постановке предполагается, что a(i, j), 1 < i<j < k, - независимые случайные величины, принимающие
значения 0 и 1. Обозначим Р(a(i,
j) = 1) = р(i,j). Тогда Р(a(i, j) = 0) = 1 - р(i,j). Таким образом, распределение толерантности с независимыми
связями задается нечеткой толерантностью, т.е. вектором
P = {р(i, j), 1 < i<j < k}.
Пусть
имеется s независимых случайных толерантностей А1, А2, …, Аs с независимыми связями,
распределения которых задаются векторами Р1, Р2,
…, Рs соответственно. Рассмотрим проверку гипотезы согласованности
Н0: Р1 = Р2 =…= Рs.
Она является более слабой, чем
гипотеза равномерности
: Р1 = Р2 =…= Рs =(½, ½, ...,
½),
для проверки которой используют статистики W и N (см. выше).
Пусть сначала s = 2. Тогда
P{|a1(i, j) - a2(i, j)| = 1} = q(i,
j), P{|a1(i, j)
- a2(i, j)| = 0} = 1
- q(i, j),
где
q(i, j) = p1(i, j) (1 - p2(i, j)) + p2(i, j) (1 - p1(i, j)).
Следовательно, расстояние d(A1, A2) между двумя случайными толерантностями с
независимыми связями есть сумма k(k - 1)/2 независимых случайных
величин, принимающих значения 0 и 1, причем математическое ожидание и дисперсия d(A1, A2) таковы:
. (2)
Пусть k → ∞. Если Dd(A1, A2) → ∞, то условие Линденберга Центральной
Предельной Теоремы теории вероятностей выполнено (см. главу 1.4), и
распределение нормированного расстояния
(3)
сходится к стандартному нормальному
распределению с математическим ожиданием 0 и дисперсией 1. Если существует
число δ > 0 такое, что при всех k, i, j, 1 < i<j < k, вероятности p1(i, j) и p2(i, j) лежат внутри интервала (δ; 1 – δ), то Dd(A1, A2) → ∞.
Соотношения
(2), (3) и им подобные позволяют рассчитать мощность критериев, основанных на
статистиках W и N, при k → ∞, подобно тому, как это сделано в [1, глава
4.5]. Поскольку подобные расчеты не требуют новых идей, не будем приводить их
здесь.
Обычно Р1 и Р2 неизвестны. Для проверки гипотезы Р1 = Р2 в
некоторых случаях можно порекомендовать отвергать гипотезу на уровне значимости α, если d(A1, A2) > d0, где d0 есть (1-α)-квантиль
распределения расстояния между двумя независимыми равномерно распределенными
случайными толерантностями, т.е. квантиль биномиального распределения В(А). Укажем достаточные условия такой
рекомендации.
Пусть
р =(p1(i, j) + p2(i, j))/2, p1(i, j) = р + Δ,
тогда
p2(i, j)
= р – Δ, q= q(i,
j) = 2р(1 – р) + 2Δ2. (4)
Если существует число δ > 0 такое, что
q – ½ > δ > 0 (5)
при всех k, i, j, то гипотеза Р1 = Р2 будет отвергаться с вероятностью, стремящейся к 1 при k → ∞. Из (4) следует, что
при фиксированном р существует Δ такое, что выполнено (5), тогда и только тогда, когда 0,25
< p < 0,75.
Своеобразие
постановки задачи проверки гипотезы состоит в том, что при росте k число неизвестных параметров, т.е.
координат векторов Pi, растет пропорционально объему
данных. Поэтому и столь далекая от оптимальности процедура, как описанная в
двух предыдущих абзацах, представляет некоторый практический интерес. Для
случая s > 4 в теории люсианов (глава 3.4.3) разработаны методы проверки гипотезы согласованности Н0: Р1 = Р2 =…= Рs.
Нахождение
группового мнения. Пусть А1, А2,
…, Аs - случайные толерантности, описывающие мнения s экспертов. Для нахождения группового
мнения будем использовать медиану Кемени, т.е. эмпирическое среднее
относительно расстояния, введенного в главе 1.1. Медианой Кемени является
.
Легко видеть, что Аср = ||aср(i, j)|| удовлетворяет условию: aср(i, j) = 1, если
,
и aср(i, j) = 0, если
.
Следовательно, при нечетном s групповое
мнение Аср определяется однозначно. При четном s неоднозначность возникает в случае
.
Тогда медиана Кемени Аср - не одна
толерантность, а множество толерантностей, минимум суммы расстояний достигается
и при aср(i,j) = 1, и при aср(i, j) = 0.
Асимптотическое
поведение группового мнения (медианы Кемени для толерантностей) вытекает из
общих результатов о законах больших чисел в пространствах произвольной природы
(глава 2.1), поэтому рассматривать его здесь нет необходимости.
Дихотомические
(бинарные) признаки в классической асимптотике. Многое в предыдущем
изложении определялось спецификой толерантностей. В частности, особая роль
равномерности распределения на множестве всех толерантностей оправдывала
специальное рассмотрение статистик W и N; аксиоматически введенное расстояние d между
толерантностями играло важную роль в приведенных выше результатах. Однако
модель толерантностей с независимыми связями уже меньше связана со спецификой
толерантностей. В ней толерантности можно рассматривать просто как частный
случай люсианов. Широко применяется следующая модель
порождения данных.
Пусть А1, А2, …, Аs - независимые люсианы.
Это значит, что статистические данные имеют вид
(А1, А2, …, Аs)
= ||Xij, i = 1,2, ..., s; j = 1, 2, ..., k||, (6)
где Xij - независимые в совокупности
испытания Бернулли с вероятностями успеха
(Р1, Р2, …, Рs)
= ||pij, , i = 1,2, ..., s; j = 1, 2, ..., k||, (7)
где Pi - вектор вероятностей, описывающий распределение люсиана Ai. Особое значение имеют одинаково
распределенные люсианы, для которых Р1 = Р2 =…= Рs = Р,
где символом Р обозначен общий вектор вероятностей.
Как
обычно в математической статистике, содержательные результаты при изучении
модели (6) - (7) можно получить в асимптотических постановках. При этом есть
два принципиально разных предельных перехода: s → ∞ и k → ∞. Первый из них -
традиционный: число неизвестных параметров постоянно, объем выборки s растет. Во втором число параметров
растет, объем выборки остается постоянным, но общий объем данных ks растет пропорционально числу неизвестных параметров.
Аналогом является асимптотическое изучение коэффициентов ранговой корреляции Кендалла и Спирмена: число ранжировок, т.е. объем выборки, постоянно (и равно 2), а
число ранжируемых объектов растет.
Вторая
постановка изучается в следующем подразделе, посвященном люсианам.
Некоторые задачи в первой постановке рассмотрим здесь.
Случайные
толерантности используются, в частности, для оценки нечетких толерантностей
[1]. Для описания результатов опроса группы экспертов о сходстве объектов
строят нечеткую толерантность M = ||μij||, μij = lij/nij, где nij - число ответов о сходстве i-го
и j-го объектов, а lij - число положительных ответов из
них. Если эксперты действуют в соответствии с единым вектором параметров Р, то М - состоятельная оценка для Р.
Следующий вопрос при таком подходе - верно ли, что две группы экспертов «думают
одинаково», т.е. используют совпадающие вектора Р? Рассмотрим эту
постановку на более общем языке люсианов.
Пусть A1, A2, ..., Am и B1, B2, ..., Bn - независимые в совокупности люсианы, одинаково распределенные в каждой группе с
параметрами Р(А) и Р(В)
соответственно. Требуется проверить гипотезу Р(А)
= Р(В). Естественным является переход к пределу при min(m, n) → ∞.
Пусть
гипотеза справедлива. Предположим, что pi = pi(A) = pi(B) ≠ 0 при всех i = 1, 2, ..., k. (Разбор нарушений этого условия
очевиден.) Пусть si - число единиц на i-м месте в первой группе люсианов,
а ti - во второй. Рассмотрим случайные
величины
. (8)
Они независимы в совокупности. В
соответствии с результатами главы 1.4 распределения ξi при min(m, n) → ∞ сходятся к
стандартному нормальному распределению с математическим ожиданием 0 и
дисперсией 1. Эти свойства сохраняются при замене pi в (8) на состоятельные оценки,
построенные по статистическим данным, соответствующим i-му месту. Будем использовать
эффективную оценку [17, с.529]

. (9)
Подставим (9) в (8), получим
статистики
.
Полученные статистики можно
использовать для проверки рассматриваемой гипотезы, например, с помощью
критериев, основанных на статистиках
.
С помощью результатов главы 1.4
получаем, что W имеет в пределе при min(m, n) → ∞ стандартное
нормальное распределение, а Т - распределение хи-квадрат с k степенями свободы.
Рассмотрим
распределение статистики W при альтернативных гипотезах. Положим
.
Эти случайные величины независимы,
распределение каждой из них при min(m, n) → ∞ сходится к стандартному нормальному
распределению. Поскольку
,
то
,
где
и
.
В силу результатов главы 1.4
распределение F при min(m, n) → ∞ сближается с нормальным распределением,
математическое ожидание которого равно 0, а дисперсия
.
Поэтому, чтобы получить собственное
(т.е. невырожденное) распределение W при альтернативах, естественно
рассмотреть модель
,
где θi -
некоторые фиксированные числа. Тогда при min(m, n) → ∞ оценки
из (9) сходятся к pi и
являются независимыми
асимптотически нормальными случайными величинами с математическими ожиданиями θi и единичными дисперсиями. Опираясь на
результаты главы 1.4, заключаем, что распределение статистики W сходится к нормальному распределению
с математическим ожиданием
и единичной дисперсией.
Если
в последней формуле θ0 = 0, то асимптотическое
распределение W таково же, как и в случае справедливости нулевой гипотезы.
От указанного недостатка свободна статистика Т. Тем же путем, как и для W, получаем, что при min(m, n) → ∞ распределение Т сходится к нецентральному хи-квадрат распределению с k степенями свободы и параметром нецентральности
.
Можно
рассматривать ряд других задач, например, проверку совпадения параметров для
нескольких групп люсианов (аналог дисперсионного
анализа), установление зависимости Р(В)
от Р(А) (аналог регрессионного анализа), отнесение вновь
поступающего люсиана к одной из групп (задача
диагностики - аналог дискриминантного анализа;
представляет интерес, например, при применении тестов типа MMPI оценки психического состояния
личности) и т.д. Однако принципиальных трудностей на пути развития
соответствующих методов не видно, и мы не будем их здесь рассматривать.
Создание соответствующих алгоритмов проводится специалистами по прикладной
статистике в соответствии с непосредственными заказами пользователей.