Нечисловая статистика: Методы восстановления зависимостей

Глава 2. Статистические методы в пространствах произвольной природы

2.7. Методы восстановления зависимостей

Сначала рассмотрим параметрические постановки задач регрессионного анализа (восстановления зависимостей) в пространствах произвольной природы, затем - непараметрические, после чего перейдем к оцениванию нечисловых параметров в классической ситуации, когда отклик и факторы принимают числовые значения.

Задача аппроксимации зависимости (параметрической регрессии). Пусть X и Y – некоторые пространства. Пусть имеются статистические данные - n пар (x_k, y_k), где x_k X, y_k Y, k = 1, 2, …, n. Задано параметрическое пространство Θ произвольной природы и семейство функций g(x,θ): XЧΘ → Y. Требуется подобрать параметр θ Θ так. чтобы g(x_k ,θ) наилучшим образом приближали y_k, k = 1, 2, …, n. Пусть f_k – последовательность показателей различия в У. При сделанных предположениях параметр θ естественно оценивать путем решения экстремальной задачи:

. (1)

Часто, но не всегда, все f_k совпадают. В классической постановке, когда Х = R^k, У = R¹, функции f_k различны при неравноточных наблюдениях, например, когда число опытов меняется от одной точки х проведения опытов к другой.

Если f_k(y₁,y₂) = f(y₁,y₂) = (y₁- y₂)², то получаем общую постановку метода наименьших квадратов (см. подробности, например, в [6, гл.5]):

В рамках детерминированного анализа данных остается единственный теоретический вопрос – о существовании θ_n. Если все участвующие в формулировке задачи (1) функции непрерывны, а минимум берется по бикомпакту, то θ_n существует. Есть и иные условия существования θ_n [4, 36, 37].

При появлении нового наблюдения х в соответствии с методологией восстановления зависимости рекомендуется выбирать оценку соответствующего у по правилу

у* = g(x, θ_n).

Обосновать такую рекомендацию в рамках детерминированного анализа данных невозможно. Это можно сделать только в вероятностной теории, равно как и изучить асимптотическое поведение θ_n, доказать состоятельность этой оценки.

Как и в классическом случае, вероятностную теорию целесообразно строить для трех различных постановок.

1. Переменная х – детерминированная (например, время), переменная у – случайная, ее распределение зависит от х.

2. Совокупность (x_k, y_k), k = 1, 2, …, n, – выборка из распределения случайного элемента со значениями в ХЧУ.

3. Имеется детерминированный набор пар (x_k₀, y_k₀), k = 1, 2, …, n, результат наблюдения (x_k, y_k) является случайным элементом, распределение которого зависит от (x_k₀, y_k₀). Это – постановка т.н. конфлюэнтного анализа.

Во всех трех случаях

однако случайность входит в правую часть по-разному в зависимости от постановки, от которой зависит и определение предельной функции f(θ).

Проще всего выглядит f(θ) в случае второй постановки при f_k≡ f:

f(θ) = Mf(g(x₁,θ),y).

В случае первой постановки

в предположении существования указанного предела. Ситуация усложняется для третьей постановки:

Во всех трех случаях на основе общих результатов о поведении решений экстремальных статистических задач можно изучить [4, 36, 37] асимптотику оценок θ_n. При выполнении соответствующих внутриматематических условий регулярности оценки оказываются состоятельными, т.е. удается восстановить зависимость.

Аппроксимация и регрессия. Соотношение (1) дает решение задачи аппроксимации. Поясним, как эта задача соотносится с нахождением регрессии. Согласно [38] для случайной величины (ξ, η) со значениями в ХЧУ регрессией η на ξ относительно меры близости f естественно назвать решение задачи

Mf(g(ξ), η) → , (2)

где f: YЧY → R¹, g: X → Y, минимум берется по множеству всех измеримых функций.

Можно исходить и из формально другого определения. Для каждого хХ рассмотрим случайную величину η(х), распределение которой является условным распределением η при условии ξ = х. В соответствии с определением математического ожидания в пространстве общей природы назовем условным математическим ожиданием решение экстремальной задачи

Оказывается, при обычных предположениях измеримости решение задачи (2) совпадает с . (Внутриматематические уточнения типа «равенство имеет место почти всюду» здесь опущены.)

Если заранее известно, что условное математическое ожидание принадлежит некоторому параметрическому семейству g(x,θ), то задача нахождения регрессии сводится к оцениванию параметра θ в соответствии с рассмотренной выше второй постановкой вероятностной теории параметрической регрессии.

Если же нет оснований считать, что регрессия принадлежит некоторому параметрическому семейству, то можно использовать непараметрические оценки регрессии. Они строятся с помощью непараметрических оценок плотности (см. раздел 2.5).

Непараметрические методы восстановления зависимости. Пусть ν₁ – мера в Х, ν₂ – мера в У, а их прямое произведение ν = ν₁Чν₂ – мера в ХЧУ. Пусть g(x,y) – плотность случайного элемента (ξ,η) по мере ν. Тогда условная плотность g(y|x) распределения η при условии ξ=х имеет вид

(3)

(в предположении, что интеграл в знаменателе отличен от 0). Следовательно,

а потому

Заменяя g(x,y) в (3) непараметрической оценкой плотности g_n(x,y), получаем оценку условной плотности

. (4)

Если g_n(x,y) – состоятельная оценка g(x,y), то числитель (4) сходится к числителю (3). Сходимость знаменателя (4) к знаменателю (3) обосновывается с помощью предельной теории статистик интегрального типа (см. раздел 2.6). В итоге получаем утверждение о состоятельности непараметрической оценки (4) условной плотности (3).

Непараметрическая оценка регрессии ищется как

Состоятельность этой оценки следует из приведенных выше общих результатов об асимптотическом поведении решений экстремальных статистических задач.

Оценивание объектов нечисловой природы в классических постановках регрессионного анализа. Нечисловая статистика тесно связана с классическими областями прикладной статистики. Ряд трудностей в классических постановках удается понять и разрешить лишь с помощью общих результатов прикладной статистики. В частности, это касается оценивания параметров, когда параметр имеет нечисловую природу.

Рассмотрим типовую прикладную постановку задачи восстановления регрессионной зависимости, линейной по параметрам (см. также [6, глава 5.1]). Исходные данные имеют вид . Цель состоит в том, чтобы с достаточной точностью описать y как многочлен (полином) от x, т.е. модель имеет вид

, (5)

где m - неизвестная степень полинома; - неизвестные коэффициенты многочлена; , - погрешности, которые для простоты примем независимыми и имеющими одно и то же нормальное распределение с нулевым математическим ожиданием и дисперсией σ².

Замечание. Здесь наглядно проявляется одна из причин живучести вероятностно-статистических моделей на основе нормального распределения. Такие модели, как правило, неадекватны реальной ситуации [6, глава 4.1]. Однако с математической точки зрения они позволяют глубже проникнуть в суть изучаемого явления. Поэтому такие модели полезны для первоначального анализа ситуации. В ходе дальнейших исследований необходимо снять нереалистическое предположение нормальности и перейти к непараметрическим моделям.

В прикладной статистике часто используют следующую технологию анализа данных. Сначала пытаются применить модель (5) для линейной функции (m = 1), при неудаче (неадекватности модели) переходят к многочлену второго порядка (m = 2), если снова неудача, то берут модель (2) с m= 3 и т.д. Адекватность модели обычно проверяют по F-критерию Фишера.

Обсудим свойства этой процедуры. Если степень полинома задана (m = m₀), то его коэффициенты оценивают методом наименьших квадратов, свойства этих оценок хорошо известны. Однако в рассматриваемой постановке m тоже является неизвестным параметром и подлежит оценке. Таким образом, требуется оценить объект (m, a₀, a₁, a₂, …, a_m), множество значений которого можно описать как . Это - объект нечисловой природы, обычные методы оценивания для него неприменимы. Разработанные к настоящему времени методы оценивания степени полинома носят в основном эвристический характер (см., например, гл. 12 монографии [39]). Рассмотрим некоторые из них.

Оценивание степени полинома. Полезно рассмотреть основной показатель качества регрессионной модели (5). Одни и те же данные можно обрабатывать различными способами. На первый взгляд, показателем отклонений данных от модели может служить остаточная сумма квадратов SS. Чем этот показатель меньше, тем приближение лучше, значит, и модель лучше описывает реальные данные. Однако это рассуждение годится только для моделей с одинаковым числом параметров. Ведь если добавляется новый параметр, по которому можно минимизировать, то и минимум, как правило, оказывается меньше.

В качестве основного показателя качества регрессионной модели используют следующую оценку остаточной дисперсии

Таким образом, вводят корректировку на число параметров, оцениваемых по наблюдаемым данным. Корректировка состоит в уменьшении знаменателя на указанное число. В модели (5) это число равно (m+1). В случае задачи восстановления линейной функции одной переменной оценка остаточной дисперсии имеет вид

поскольку число оцениваемых параметров m + 1 =2.

Еще раз - почему при подборе вида модели знаменатель дроби, оценивающей остаточную дисперсию, приходится корректировать на число параметров? Если этого не делать, то придется заключить, что всегда многочлен второй степени лучше соответствует данным, чем линейная функция, многочлен третьей степени лучше приближает исходные данные, чем многочлен второй степени, и т.д. В конце концов доходим до многочлена степени (n-1) с n коэффициентами, который проходит через все заданные точки. Но его прогностические возможности, скорее всего, существенно меньше, чем даже у линейной функции. Излишнее усложнение статистических моделей вредно.

Типовое поведение скорректированной оценки остаточной дисперсии

в случае расширяющейся системы моделей (т.е. при возрастании натурального параметра m) выглядит так. Сначала наблюдаем заметное убывание. Затем оценка остаточной дисперсии колеблется около некоторой константы (дисперсии погрешности).

Поясним ситуацию на примере модели восстановления зависимости, выраженной многочленом:

Пусть эта модель справедлива при При в скорректированной оценке остаточной дисперсии учитываются не только погрешности измерений, но и соответствующие (старшие) члены многочлена (предполагаем, что коэффициенты при них отличны от 0). При имеем

Следовательно, скорректированная оценка остаточной дисперсии будет колебаться около указанного предела. Поэтому представляется естественным, что в качестве оценки неизвестной статистику степени многочлена (полинома) можно использовать первый локальный минимум скорректированной оценки остаточной дисперсии, т.е.

В работе [40] найдено предельное распределение этой оценки степени многочлена.

Теорема. При справедливости некоторых условий регулярности

где

Таким образом, предельное распределение оценки m* степени многочлена (полинома) является геометрическим. Это означает, в частности, что оценка не является состоятельной. При этом вероятность получить меньшее значение, чем истинное, исчезающе мала. Далее имеем:

Разработаны и иные методы оценивания неизвестной степени многочлена, например, путем многократного применения процедуры проверки адекватности регрессионной зависимости с помощью критерия Фишера. Предельное поведение таких оценок - таково же, как в приведенной выше теореме, только значение параметра иное. Отметим, что для степени многочлена давно предложены состоятельные оценки [41]. Для этого достаточно уровень значимости (при проверке адекватности регрессионной зависимости с помощью критерия Фишера) сделать убывающим при росте объема выборки.

Построение информативного подмножества признаков. В более общем случае многомерной линейной регрессии данные имеют вид , где - вектор предикторов (факторов, объясняющих переменных), а модель такова:

(6)

(здесь K - некоторое подмножество множества {1,2,…,n}; - те же, что и в модели (5); a_j - неизвестные коэффициенты при предикторах с номерами из K). Множество К называют информативным подмножеством признаков, поскольку согласно формуле (6) остальные признаки можно отбросить без потери информации. Проблема состоит в том, что при анализе реальных данных неизвестно, какие признаки входят в К, а какие нет. Ясна важность оценивания информативного подмножества признаков.

Модель (5) сводится к модели (6), если

В модели (5) есть естественный порядок ввода предикторов в рассмотрение - в соответствии с возрастанием степени многочлена, а в модели (6) естественного порядка нет, поэтому здесь приходится рассматривать произвольное подмножество множества предикторов. Есть только частичный порядок - чем мощность подмножества меньше, тем лучше. Модель (6) особенно актуальна в технических исследованиях (см. многочисленные примеры в журнале «Заводская лаборатория»). Она применяется в задачах управления качеством продукции и других технико-экономических исследованиях, в медицине, экономике, маркетинге и социологии, когда из большого числа факторов, предположительно влияющих на изучаемую переменную, надо отобрать по возможности наименьшее число значимых факторов и с их помощью сконструировать прогнозирующую формулу (6).

Задача оценивания модели (6) разбивается на две последовательные задачи: оценивание множества K - подмножества множества всех предикторов, а затем - неизвестных параметров a_j. Методы решения второй задачи хорошо известны и подробно изучены (обычно используют метод наименьших квадратов). Гораздо хуже обстоит дело с оцениванием объекта нечисловой природы K. Как уже отмечалось, существующие методы - в основном эвристические, они зачастую не являются даже состоятельными. Даже само понятие состоятельности в данном случае требует специального определения.

Определение. Пусть K₀ - истинное подмножество предикторов, т.е. подмножество, для которого справедлива модель (6), а подмножество предикторов K_n - его оценка. Оценка K_n называется состоятельной, если

где Δ - символ симметрической разности множеств; Card(K) означает число элементов множества K, а предел понимается в смысле сходимости по вероятности.

Задача оценивания в моделях регрессии, таким образом, разбивается на две - оценивание структуры модели и оценивание параметров при заданной структуре. В модели (5) структура описывается неотрицательным целым числом m, в модели (6) - множеством K. Структура - объект нечисловой природы. Задача ее оценивания сложна, в то время как задача оценивания численных параметров при заданной структуре хорошо изучена, разработаны эффективные (в смысле прикладной математической статистики) методы.

Такова же ситуация и в других методах многомерного статистического анализа - в факторном анализе (включая метод главных компонент) и в многомерном шкалировании, в иных оптимизационных постановках проблем прикладного многомерного статистического анализа.

Множество K и параметры a_j линейной зависимости можно оценивать путем решения задачи оптимизации

, (7)

в которой минимум берется по K, a_j, . Математическая природа множества, по которому проводится минимизация, весьма сложна. Это и объясняет тот факт, что к настоящему времени разработано много эвристических методов оценивания информативного множества параметров К, свойства которых плохо изучены. На основе общих результатов нечисловой статистики об асимптотическом поведении решений экстремальных статистических задач удалось показать, что оценки, полученные путем решения задачи (7), являются состоятельными [42].

Материал предоставлен сайтом AUP.Ru (Электронная библиотека экономической и деловой литературы)