А.И.
Орлов
Эконометрика
Учебник. М.: Издательство "Экзамен", 2002.
Приложение 1
Вероятностно-статистические
основы эконометрики
Эконометрика
опирается на твердый научный фундамент - теорию вероятностей и статистику. В
области теории вероятностей наша страна является признанным мировым лидером.
Практически все специалисты в этой области исходят в своей работе из аксиоматики
теории вероятностей, предложенной академиком А.Н. Колмогоровым в 1933 г. [1].
Однако
в отечественной и зарубежной литературе присутствуют различные интерпретации терминов
и разделов эконометрики, теории вероятностей, статистики. Одна из причин
состоит в том, что используют в своей работе эти научные области специалисты
разных профессий - экономисты, инженеры, математики… Поэтому мы приводим основную
терминологию и краткое описание математической статистики и ее новых разделов.
П1-1. Определения терминов
теории вероятностей и прикладной статистики
Определения
практически всех используемых в литературе понятий теории вероятностей и математической
статистики и основные сведения о соответствующих математических объектах
собраны в Энциклопедии [2]. Ниже приведены определения и обозначения (в стиле
[2]) лишь для основных понятий теории вероятностей и прикладной статистики,
используемых в настоящем учебном пособии. Как показали предыдущие публикации
(см., например, [3]), эта сводка позволяет осознанно изучать и применять
эконометрические методы для анализа конкретных экономических данных. Однако
она, очевидно, не заменяет систематических курсов теории вероятностей и
прикладной математической статистики, знакомство с которыми - необходимая
предпосылка для изучения эконометрики.
Споры
по поводу терминов весьма распространены. Весьма популярно желание добиться единства
терминологии. Однако практика терминологических дискуссий показывает, что
придти к единому мнению обычно не удается. Не помогают достижению единства и
административные меры, например, принятие государственных стандартов, "несоблюдение
которых карается по закону". Зачастую такие стандарты содержат в себе
много спорного, а то и ошибочного (подробнее об этом см. [3]).
Почти в каждой области
знания параллельно существуют различные терминологические системы. Большого
вреда это обычно не приносит. Так, операция умножения двух чисел a и b может быть обозначена четырьмя способами - крестиком (т.е. a х b),
точкой (a. b), отсутствием знака между сомножителями (ab) или звездочкой, как при программировании (a* b).
Случайные величины обозначают либо латинскими буквами, либо греческими. Для
математического ожидания используют либо символ М, либо символ Е,
и т.п.. Обычно можно без труда понять, о чем идет речь.
Однако при изучении
настоящего курса эконометрики необходимо пользоваться вполне определенной терминологической
системой. Она и приводится ниже. При этом мы отнюдь не отрицаем пригодности
других систем терминов и определений в тех или иных случаях.
№№ пп. |
Термины |
Определения |
Примечания |
|
|
1. Теория вероятностей |
|
|
|
1.1. Общие
понятия |
|
1.1.1. |
Пространство элементарных событий |
Множество, элементы которого,
называемые элементарными событиями, соответствуют возможным результатам
наблюдения, измерения, анализа, проверки, исходам опыта, эксперимента,
испытания. |
Пространство элементарных событий W = {w}
лежит в основе вероятностных моделей явлений (процессов). Вместо явного
описания пространства элементарных событий часто используют косвенное или
частичное
описание, например, с помощью
распределений случайных величин. |
1.1.2. |
Случайное событие |
Измеримое подмножество пространства элементарных
событий. |
Термин "измеримое" понимают в
смысле теории измеримых множеств. Случайные события образуют s-алгебру G. |
1.1.3. |
Вероятностная мера |
Сигма-аддитивная мера P, определенная
на всех случайных событиях и такая, что P(W)
= 1, где W - пространство элементарных событий |
Вероятностная мера P - функция,
ставящая в соответствие каждому случайному событию A его вероятность P(A).
Термин "мера" понимают в смысле математической теории меры.
Синонимы: вероятностное распределение, распределение вероятностей, распределение,
вероятность на пространстве элементарных событий. |
1.1.4. |
Вероятностное пространство |
Совокупность {W, G, P} пространства элементарных
событий W, класса случайных событий G и вероятностной меры
P. |
Вероятностное пространство (синоним:
поле вероятностей) - основной исходный объект теории вероятностей и
вероятностных моделей реальных явлений (процессов). |
1.1.5. |
Вероятность события A |
Значение P(A) вероятностной меры P на
случайном событии A. |
В силу закона больших чисел частота
реализации события A при неограниченном увеличении числа независимых
повторений одного и того же комплекса условий, описываемого вероятностным
пространством {W, G, P},
стремится к вероятности этого события P(A), т.е. для любого e > 0
limn®¥ P { | m/n - p | £ e } = 1,
где m/n - частота, p - вероятность события A, n - число повторений. Это
свойство нельзя принимать за определение вероятности события в математической
теории вероятностей. Оно указывает способ оценивания вероятности по опытным
данным. |
1.1.6. |
Независимость случайных событий |
Случайные события А и В являются независимыми,
если Р(АВ) = Р(А)Р(В), где АВ - пересечение
множеств А и В (произведение событий А и В). Случайные события А1, А2,..., Аn называются независимыми (в совокупности), если Р(А1А2...Аn)
= Р(А1)Р(А2)...Р(Аn) и аналогичные равенства
справедливы для всех поднаборов этих событий А(1), А(2),..., А(k), 2£k£n
-1. |
Общематематическое понятие пересечения
множеств АÇВ в теории вероятностей по традиции
эквивалентно понятию произведения событий АВ. |
1.1.7. |
Случайный элемент |
Измеримая функция, определенная на
вероятностном пространстве. |
Случайный элемент Х принимает значения
в измеримом пространстве (Z,J), где Z - пространство значений Х, а J - класс
измеримых подмножеств Z; при этом для любого QЄJ множество Х-1(Q) является случайным событием.
Если Z - множество действительных чисел
R1, то случайный элемент Х называют
случайной величиной. Если Z = Rk - конечномерное векторное пространство
размерности k=2,3,...., то случайный элемент Х называют случайным вектором. |
1.1.8. |
Распределение случайного элемента |
Функция множества, задающая вероятность
принадлежности случайного элемента измеримому подмножеству его области
значений. |
Для случайного элемента Х,
определенного на вероятностном пространстве {W,
G, P} со значениями в измеримом пространстве (Z,J), его распределение P1:J -® [0,1] задается формулой P1 (Q) = P (Х-1(Q)), QЄJ. |
1.1.9. |
Дискретный случайный элемент |
Случайный элемент, область значений которого
состоит из конечного или счетного множества точек. |
Распределение случайного элемента Х,
принимающего только значения х1, х2,..., полностью описывается числами рi = P(X=хi), i = 1,2,..., причем р1 + р2 +... = 1. |
1.1.10. |
Параметрическое семейство распределений |
Функция, определенная на
параметрическом пространстве (подмножестве конечномерного векторного
пространства), которая каждому значению параметра (числу или вектору, входящему
в параметрическое пространство) ставит в соответствие распределение случайного
элемента. |
Параметр может быть одномерным или
конечномерным. Вместо "зависимость от k-мерного параметра" часто
говорят "зависимость от k параметров". |
1.1.11. |
Независимость случайных элементов |
Определенные на одном и том же вероятностном
пространстве случайные элементы X1, X2,...,Xk со значениями в измеримых пространствах
(Z1,
J1), (Z2, J2),..., (Zk, Jk) соответственно называются
независимыми, если для любых Q1ЄJ1, Q2ЄJ2,..., QkЄJk имеем Р(X1ЄQ1, X2ЄQ2,..., XkЄQk) = Р(X1ЄQ1)P(X2ЄQ2)... P(XkЄQk). |
Для случайных величин и векторов,
имеющих плотности вероятности, независимость эквивалентна тому, что плотность
вероятности вектора (Х1, Х2,..., Хk) равна произведению плотностей
вероятностей случайных величин Хi, т.е.
f (x1, x2,..., xk) = f(x1)f(x2)...f(xk).
Результаты экспериментов, которые
проведены независимо друг от друга, как правило, моделируются с помощью
независимых случайных величин. |
1.1.12 |
Вероятностная модель явления (процесса) |
Математическая модель явления
(процесса), в которой использованы понятия теории вероятностей и
математической статистики. |
Установление (формулировка) исходной
вероятностной модели - необходимый первый этап для применения методов
прикладной статистики. |
|
|
1.2.
Случайная величина |
|
1.2.1. |
Случайная величина |
Однозначная действительная измеримая
функция на вероятностном пространстве. |
Однозначная действительная функция X:W®R1 является случайной величиной, если для
любого хЄR1 множество {w:X(w) £ x} является случайным событием.
Случайная величина - это случайный элемент со значениями в R1. (Здесь R1 - множество действительных чисел.) |
1.2.2. |
Функция распределения |
Функция, определяющая для всех действительных
чисел х вероятность того, что случайная величина Х принимает значения,
меньшие х. |
Функция распределения F(x) = P(X <
x) = P{w:X(w)
< x}. Функция распределения непрерывна слева.
Примечание. Иногда функцию распределения определяют
как F(x) = P(X < x) = P{w:X(w) < x}. Тогда она непрерывна справа. |
1.2.3. |
Плотность вероятности |
Функция p(t) такая, что

при всех х, где F(x) - функция
распределения рассматриваемой случайной величины. |
Сокращенная форма: плотность. |
1.2.4. |
Непрерывная случайная величина |
Случайная величина, функция
распределения которой при всех действительных x непрерывна. |
|
1.2.5. |
Квантиль порядка p |
Значение случайной величины, для
которого функция распределения принимает значение p или имеет место
"скачок" со значения меньше p до значения больше p. |
Число хр - квантиль порядка
р для случайной величины с функцией распределения F(x) тогда и только тогда,
когда
lim x®хр+0 F(x)³p, F(хр)£p.
Может случиться, что вышеуказанное
условие выполняется для всех значений х, принадлежащих некоторому интервалу.
Тогда каждое такое значение называется квантилью порядка р.
Примечание. Одни авторы употребляют
термин "квантиль" в мужском роде, другие - в женском. |
1.2.6. |
Медиана |
Квантиль порядка p = 1/2. |
|
1.2.7. |
Мода непрерывной случайной величины |
Значение случайной величины, соответствующее
локальному максимуму ее плотности вероятности. |
Мод у непрерывной случайной величины
может быть несколько (конечное число или бесконечно много).
Краткая форма термина: мода. |
1.2.8. |
Математическое ожидание |
Среднее взвешенное по вероятностям значение
случайной величины X(w), т.е.
|
Математическое ожидание обозначают
М(Х), Е(Х), МХ, ЕХ и др. Рекомендуемое обозначение: М(Х). При этом
= 
где F(x) - функция распределения, а
p(t) - плотность вероятности случайной величины Х = X(w).
Математическое ожидание существует не
для всех случайных величин Х. Для существования математического ожидания
необходимо и достаточно абсолютной сходимости соответствующего интеграла. |
1.2.9. |
Дисперсия (случайной величины X) |
Математическое ожидание квадрата
разности между случайной величиной и ее математическим ожиданием. |
Для случайной величины Х дисперсия D(X)
= s2=s2(X)=М(X-М(X))2. Дисперсия равна 0 тогда и только
тогда когда Р(Х=а)=1 для некоторого а. |
1.2.10. |
Среднее квадратическое отклонение |
Неотрицательный квадратный корень из дисперсии. |
|
1.2.11. |
Коэффициент вариации |
Отношение среднего квадратического отклонения
к математическому ожиданию. |
Применяется для положительных случайных
величин как показатель разброса. |
1.2.12. |
Момент порядка q (случайной величины X) |
Математическое ожидание случайной величины
Xq. |
|
1.2.13. |
Центральный момент порядка q (случайной
величины X) |
Математическое ожидание случайной величины
(X-М(X))q, где М(Х) - математическое ожидание Х. |
Дисперсия - центральный момент порядка
2. |
1.2.14. |
Характеристи-ческая функция (случайной
величины X) |
Функция от tЄR1 , при каждом t равная математическому
ожиданию случайной величины eitX, где i - мнимая единица, e -
основание натуральных логарифмов. |
М(eitX) = М(cos(tX) +
isin(tX)) = М(cos(tX)) + iМ(sin(tX)). |
|
|
1.3.
Случайный вектор |
|
1.3.1. |
Случайный вектор |
Однозначная измеримая функция на вероятностном
пространстве со значениями в конечномерном евклидовом пространстве Rk. |
Случайный вектор Х - это случайный
элемент со значениями в Rk, т.е. X = X(w) = (X1(w),
X2(w),....,
Xk(w)),
где Xi(w), i = 1,2,...,k, - случайные величины,
заданные на одном и том же вероятностном пространстве. |
1.3.2. |
Функция распределения (случайного
вектора) |
Функция распределения F(x1, x2,...., xk) случайного вектора X(w)
= (X1(w), X2(w),....,
Xk(w))
удовлетворяет равенству
F(x1, x2,...., xk)
=
P (X1<x1, X2<x2,...,
Xk<xk) = P{ w:X1(w)< x1, X2(w)< x2,..., Xk(w)< xk). |
|
1.3.3. |
Плотность вероятности (случайного вектора) |
Функция p(x) такая, что
для случайного вектора X = X(w) и любого борелевского подмножества А
конечномерного евклидова пространства Rk. |
|
1.3.4. |
Математическое ожидание случайного вектора |
Вектор, компоненты которого - математические
ожидания компонент случайного вектора. |
Математическое ожидание случайного
вектора X = (X1,
X2,...., Xk) есть (М(X1), М(X2),...., М(Xk)), где М(Xi) - математическое ожидание случайной величины
Xi, являющейся i - ой компонентой случайного вектора X, i
= 1,2,...,k. |
1.3.5. |
Ковариация (для двумерного вектора) |
Ковариацией вектора (X,Y) называется
математическое ожидание случайной величины
(X - МX))(Y - М(Y)), где М(X) и М(Y) -
математические ожидания случайных величин X и Y. |
cov(X,Y)
= М (X
- М(X))(Y
- М(Y))
;
если X = Y, то cov(X,Y) = D(X) -
дисперсия X. |
1.3.6. |
Ковариационная матрица случайного вектора |
Квадратная матрица ||cij||
порядка k, в которой cij - ковариация двумерного вектора (Xi, Xj), где Xi и Xj - компоненты случайного вектора X = (X1, X2,...., Xk), i,j = 1,2,...,k. |
Ковариационная матрица симметрична, на
главной диагонали стоят дисперсии Xi - компонент X, i = 1,2,...,k. |
1.3.7. |
Коэффициент корреляции (для двумерного
вектора) |
Отношение ковариации вектора (X,Y) к произведению
средних квадратических отклонений s(X) и s(У)
случайных величин Х и У. |
Если Y = aX+b, то |r(X,Y)| = 1. Верно и обратное: если |r(X,Y)| = 1, то Y = aX+b.. |
1.3.8. |
Корреляционная матрица случайного вектора |
Квадратная матрица ||rij||
порядка k, в которой rij - коэффициент корреляции двумерного вектора (Xi, Xj), где Xi и Xj - компоненты случайного вектора X = (X1, X2,...., Xk), i,j = 1,2,...,k. |
Корреляционная матрица симметрична, на
главной диагонали стоят единицы. |
|
|
2. Прикладная статистика |
|
|
|
2.1. Общие
понятия |
|
2.1.1. |
Признак |
Свойство (характеристика) объекта
наблюдения. |
Частными видами наблюдения являются
измерение, испытание, анализ, опыт, проверка и т.д. |
2.1.2. |
Результат наблюдения |
Значение признака объекта наблюдения. |
Результат наблюдения может быть числом,
вектором, элементом конечного множества или математическим объектом иной
природы. |
2.1.3. |
Выборка |
Совокупность значений одного и того же
признака у подвергнутых наблюдению объектов. |
Выборка - совокупность чисел или
векторов, или математических объектов иной природы, соответствующих изучаемым
реальным объектам наблюдения. |
2.1.4. |
Объем выборки |
Число результатов наблюдений,
включенных в выборку. |
Объем выборки обычно обозначают n. |
2.1.5. |
Вероятностная модель выборки |
Вероятностная модель получения
результатов наблюдений, включаемых в выборку. |
Примерами вероятностных моделей выборок
являются простая случайная выборка и случайная выборка из конечной совокупности. |
2.1.6. |
Простая случайная выборка |
Выборка, в которой результаты
наблюдений моделируются как совокупность независимых одинаково распределенных
случайных элементов. |
Если результаты наблюдений имеют
распределение F, то говорят, что "выборка извлечена из распределения
F". |
2.1.7. |
Случайная выборка из конечной совокупности |
Выборка объема n, в которую включены результаты
наблюдений над объектами, отбираемыми из конечной совокупности так, что любой
набор n объектов имеет одинаковую вероятность быть отобранным. |
Если N - число объектов конечной совокупности, то
для получения случайной выборки объема n из этой совокупности, n < N,
отбор объектов для проведения наблюдений должен проводиться так, чтобы любой
набор из n объектов имел одну и ту же вероятность быть отобранным, равную
n!(N-n)!/ N!, т.е. обратной величине к числу сочетаний из N элементов по n. |
2.1.8. |
Статистика |
Измеримая функция результатов
наблюдений, включенных в выборку, используемая для получения статистических
выводов. |
Статистики используются для описания
данных, оценивания, проверки гипотез. Статистика, как функция случайного
элемента, является случайным элементом. Статистика принимает значения в
некотором измеримом пространстве (Z,J), своем для каждой статистики. |
|
|
2.2.
Описание данных |
|
2.2.1. |
Частота события |
Отношение числа наблюдений, в которых
осуществилось событие, к объему выборки. |
|
2.2.2. |
Эмпирическое распределение |
Распределение случайного элемента, в
котором каждому результату наблюдения, включенному в выборку, соответствует
одна и та же вероятность, равная обратной величине объема выборки. |
Если в выборку включены результаты
наблюдений x1,
x2,...., xn, то эмпирическое распределение - это распределение
случайной величины Х такой, что Р(Х= xi) = 1/n, i = 1,2,..., n. Если несколько результатов наблюдений
совпадают: x1 = x2 =.... = xk = a, то полагают Р(Х=а) = k/n. |
2.2.3. |
Эмпирическая функция распределения |
Функция эмпирического распределения. |
Определена, когда результаты наблюдений
- числа или вектора (функции распределения по пп.1.2.2 и 1.3.2
соответственно). |
2.2.4. |
Выборочное среднее арифметическое |
Сумма результатов наблюдений,
включенных в выборку, деленная на ее объем. |
Выборочное среднее арифметическое равно
математическому ожиданию случайной величины, имеющей эмпирическое распределение. |
2.2.5. |
Выборочная дисперсия |
Сумма квадратов отклонений результатов
наблюдений, включенных в выборку, от их выборочного среднего арифметического,
деленная на объем выборки. |
Выборочная дисперсия
s2 = 1/n (хi - xср)2-,
где x1,
x2,...., xn - результаты наблюдений, включенные в
выборку; xср - выборочное среднее арифметическое,
xср = 1/n хi.
Выборочная дисперсия равна дисперсии
случайной величины, имеющей эмпирическое распределение. |
2.2.6. |
Выборочное среднее квадратическое отклонение |
Неотрицательный квадратный корень из выборочной
дисперсии. |
|
2.2.7. |
Выборочный момент порядка q |
Момент порядка q случайной величины,
имеющей эмпирическое распределение. |
mq = 1/n хiq, где хi по п.2.2.5. |
2.2.8. |
Выборочный центральный момент порядка q |
Центральный момент порядка q случайной
величины, имеющей эмпирическое распределение. |
mq = 1/n (хi - xср)q , где хi и xср по п.2.2.5. |
2.2.9. |
k-я порядковая статистика |
k-й элемент x(k) в вариационном ряду, полученном из
выборки объема n, элементы которой x1, x2,...., xn расположены в порядке неубывания: x(1)£x(2) £... £ x(k) £... £x(n). |
|
2.2.10. |
Размах выборки |
Разность между наибольшим и наименьшим
значениями результатов наблюдений в выборке. |
Если x(1) и x(n) - первая и n-ая порядковые статистики в
выборке объема n, то размах R = x(n) - x(1). |
2.2.11. |
Выборочная ковариация |
Ковариация двумерного случайного
вектора, имеющего эмпирическое распределение. |
Если (xi, yi),
i=1,2,....,n, - результаты наблюдений, включенные в выборку, то выборочная
ковариация равна 1/n (хi - xср)(yi - yср),
где хi и xср по п.2.2.5, yср = 1/n yi. |
2.2.12. |
Выборочная ковариационная матрица |
Ковариационная матрица случайного
вектора, имеющего эмпирическое распределение. |
На главной диагонали выборочной
ковариационной матрицы стоят выборочные дисперсии по п.2.2.5, а вне главной
диагонали - выборочные ковариации по п.2.2.11. |
2.2.13. |
Выборочный коэффициент корреляции |
Коэффициент корреляции двумерного случайного
вектора, имеющего эмпирическое распределение. |
Выборочный коэффициент корреляции равен
где хi и xср по
п.2.2.5, yi и yср по п.2.2.11. |
2.2.14. |
Выборочная корреляционная матрица |
Корреляционная матрица случайного вектора,
имеющего эмпирическое распределение. |
На главной диагонали выборочной
корреляционной матрицы стоят 1, а вне
главной диагонали - выборочные коэффициенты корреляции по п.2.2.13. |
2.2.15 |
Выборочный коэффициент вариации |
Отношение выборочного среднего квадратического
отклонения к выборочному среднему арифметическому. |
Выборочный коэффициент вариации
используют, когда результаты наблюдений положительны. |
|
|
2.3.
Оценивание |
|
2.3.1. |
Оценивание |
Приближенное определение интересующей
специалиста составляющей вероятностной модели явления (процесса) по выборке. |
Составляющими вероятностных моделей
могут быть: значение параметра распределения; характеристика распределения
(математическое ожидание, коэффициент вариации и др.); функция распределения;
плотность вероятности; регрессионная зависимость, и т.д. |
2.3.2. |
Оценка |
Результат оценивания по конкретной выборке. |
Оценка является статистикой, а потому
случайным элементом, в частных случаях - случайной величиной или случайным
вектором. |
2.3.3. |
Точечное оценивание |
Вид оценивания, при котором для
оценивания используется одно определенное значение. |
|
2.3.4. |
Доверительное оценивание |
Вид оценивания, при котором для
оценивания используется множество. |
Рассматриваемое множество лежит в
пространстве возможных состояний оцениваемой составляющей вероятностной
модели явления (процесса). |
2.3.5. |
Доверительное множество |
Определяемое по выборке множество в пространстве
возможных состояний оцениваемой составляющей, используемое при доверительном
оценивании. |
Доверительное множество является
случайным множеством. |
2.3.6. |
Доверительная вероятность |
Вероятность того, что доверительное
множество содержит действительное значение оцениваемой составляющей. |
В конкретных задачах оценивания для
фиксированных доверительных вероятностей строят соответствующие доверительные
множества. |
2.3.7. |
Доверительный интервал |
Доверительное множество, являющееся интервалом. |
Интервалы могут быть как ограниченными,
так и неограниченными (лучами). |
2.3.8. |
Доверительные границы |
Концы (границы) доверительного интервала. |
|
2.3.9. |
Верхняя доверительная граница |
Граница доверительного интервала, являющегося
лучом, не ограниченным снизу. |
Для доверительного интервала (-¥; a)
верхней доверительной границей является число a. |
2.3.10. |
Нижняя доверительная граница |
Граница доверительного интервала, являющегося
лучом, не ограниченным сверху. |
Различие верхних, нижних и двусторонних
доверительных границ необходимо учитывать при проведении конкретных расчетов,
т.к. часто все виды границ определяются с помощью одних и тех же таблиц. |
2.3.11. |
Двусторонние доверительные границы |
Границы ограниченного (и сверху, и
снизу) доверительного интервала |
Для двусторонних границ (T1;T2) с вероятностью 1 справедливо
неравенство T1£T2. |
|
|
2.4.
Проверка статистических гипотез |
|
2.4.1. |
Статистическая гипотеза |
Определенное предположение о свойствах
распределений случайных элементов, лежащих в основе наблюдаемых случайных явлений
(процессов). |
|
2.4.2. |
Нулевая гипотеза |
Статистическая гипотеза, подлежащая проверке
по статистическим данным (результатам наблюдений, вошедшим в выборку). |
Из возможных статистических гипотез в
качестве нулевой выбирают ту, прннятие справедливости которой наиболее важно
для дальнейших выводов. |
2.4.3. |
Альтернативная гипотеза |
Статистическая гипотеза, которая
считается справедливой, если нулевая гипотеза неверна. |
Сокращенная форма - альтернатива. |
2.4.4. |
Статистический критерий |
Правило, по которому на основе
результатов наблюдений принимается решение о принятии или отклонении нулевой
гипотезы. |
Принимаемое решение может однозначно
определяться по результатам наблюдений (нерандомизированный критерий) или в
некоторой степени зависеть от случая (рандомизированный критерий). |
2.4.5. |
Статистика критерия |
Статистика, на основе которой сформулировано
решающее правило. |
Как правило, нерандомизированный
статистический критерий основан на статистике критерия, принимающей числовые
значения. |
2.4.6. |
Критическая область статистического критерия |
Область в пространстве возможных
выборок со следующими свойствами: если наблюдаемая выборка принадлежит данной
области, то отвергают нулевую гипотезу (и принимают альтернативную), в
противном случае ее принимают (и отвергают альтернативную). |
Если статистический критерий основан на
статистике критерия, то критическая область статистического критерия
однозначно определяется по критической области статистики критерия.
Краткая форма: критическая область. |
2.4.7. |
Критическая область статистики критерия |
Множество чисел такое, что при
попадании в него статистики критерия нулевую гипотезу отвергают, в противном
случае принимают. |
Краткая форма: критическая область. |
2.4.8. |
Критические значения |
Границы (концы) одного или двух интервалов,
составляющих критическую область статистики критерия. |
Критическими значениями являются одно
или два из чисел t1,
t2 в случае, если
критическая область имеет вид {Tn<t1}, {Tn>t1} или {Tn<t1}È{Tn>t2}, где Tn - статистика критерия. |
2.4.9. |
Ошибка первого рода |
Ошибка, заключающаяся в том, что нулевую
гипотезу отвергают, в то время как в действительности эта гипотеза верна. |
|
2.4.10. |
Уровень значимости |
Вероятность ошибки первого рода или точная верхняя грань таких
вероятностей. |
Если нулевая гипотеза является сложной
(например, задается с помощью множества параметров Q0),
то вероятность ошибки первого рода может быть не числом (a), а
функцией (a(q0), q0ÎQ0). В качестве уровня значимости берут
точную верхнюю грань значений указанной функции:
.
|
2.4.11. |
Ошибка второго рода |
Ошибка, заключающаяся в том, что
нулевую гипотезу принимают, в то время как в действительности эта гипотеза
неверна (а верна альтернативная гипотеза). |
|
2.4.12. |
Мощность критерия |
Вероятность того, что нулевая гипотеза
будет отвергнута, если альтернативная гипотеза верна. |
Мощность критерия является однозначной
действительной функцией, определенной на составляющем альтернативу множестве
гипотез, заданном в конкретной задаче статистической проверки гипотез, в частности,
на параметрическом множестве, соответствующем альтернативным гипотезам. |
2.4.13. |
Функция мощности статистического критерия |
Функция, определяющая вероятность того,
что нулевая гипотеза будет отклонена. |
Функция мощности критерия задана на
множестве всех гипотез, используемых в конкретной задаче статистической
проверки гипотез. Сужением ее на нулевую гипотезу является функция, задающая
вероятность ошибки первого рода. Сужением ее на альтернативу является
мощность критерия. |
2.4.14. |
Оперативная характеристика статистического
критерия |
Функция, определяющая вероятность того,
что нулевая гипотеза будет принята. |
Оперативная характеристика - дополнение
до единицы функции мощности статистического критерия. |
2.4.15. |
Критерий согласия |
Критерий проверки гипотезы согласия,
т.е. того, что функция распределения результатов наблюдения, включенных в
простую случайную выборку, совпадает с заданной или входит в заданное
параметрическое семейство. |
|
2.4.16. |
Критерий однородности |
Критерий для проверки гипотезы о том,
что функции распределений результатов наблюдений из двух или нескольких
независимых простых случайных выборок совпадают (абсолютная однородность) или
отдельные их характеристики совпадают (однородность в смысле математических
ожиданий, коэффициентов вариации и т.д.). |
Рассматривают также критерии
независимости, симметрии, случайности, отбраковки и др. |
2.4.17. |
Номинальный (заданный) уровень значимости |
Число, используемое в статистических
таблицах, с помощью которого выбирают критическое значение статистики
критерия при проверке статистической гипотезы. |
Номинальный (заданный) уровень
значимости обычно берут равным 0,1; 0,05; 0,01. |
2.4.18. |
Реальный (истинный) уровень значимости |
Уровень значимости статистического критерия,
выбранного по номинальному уровню значимости. |
Из-за дискретности распределения
статистики критерия реальный уровень значимости может быть в несколько раз
меньше номинального. |
2.4.19. |
Достигаемый уровень значимости |
Случайная величина, равная вероятности
попадания статистики критерия в критическую область, заданную рассчитанным по
выборке значением статистики критерия. |
Для критической области вида {x:x>a}
достигаемый уровень значимости есть F(Xn), где Xn -
рассчитанное по выборке значение статистики критерия X, а F(a) = P(X>a) -
дополнение до 1 функции распределения статистики критерия X. Достигаемый
уровень значимости - это вероятность того, что статистика критерия Х в новом
независимом эксперименте примет значение большее, чем при расчете по
конкретной выборке, т.е. большее, чем Xn. |
2.4.20. |
Независимые выборки |
Выборки, объединение элементов которых
моделируется набором независимых (в совокупности) случайных элементов. |
См. п.1.1.11. |
П1-2. Математическая
статистика и ее новые разделы
Приведем
краткие описания (типа статей в энциклопедических изданиях) математической
статистики и ее наиболее важных для эконометрики сравнительно новых разделов,
разработанных в основном после 1970 г., а именно, статистики объектов
нечисловой природы и статистики интервальных данных.
Статистика
математическая - наука о математических методах анализа данных, полученных при проведении
массовых наблюдений (измерений, опытов). В зависимости от математической
природы конкретных результатов наблюдений статистика математическая делится на статистику чисел, многомерный статистический анализ, анализ функций
(процессов) и временных рядов, статистику объектов нечисловой природы. Существенная
часть статистики математической основана на вероятностных
моделях.
Выделяют общие задачи
описания данных, оценивания и проверки гипотез. Рассматривают и более частные
задачи, связанные с проведением выборочных обследований, восстановлением зависимостей,
построением и использованием классификаций (типологий) и др.
Для описания данных
строят таблицы, диаграммы, иные наглядные представления, например, корреляционные
поля. Вероятностные модели обычно не применяются. Некоторые методы описания
данных опираются на продвинутую теорию и возможности современных компьютеров. К
ним относятся, в частности, кластер-анализ, нацеленный на выделение групп
объектов, похожих друг на друга, и многомерное шкалирование, позволяющее
наглядно представить объекты на плоскости, в наименьшей степени исказив
расстояния между ними.
Методы оценивания и
проверки гипотез опираются на вероятностные модели порождения данных. Эти
модели делятся на параметрические и непараметрические. В параметрических
моделях предполагается, что изучаемые объекты описываются функциями распределения,
зависящими от небольшого числа (1-4) числовых параметров. В непараметрических
моделях функции распределения предполагаются произвольными непрерывными. В статистике математической оценивают параметры и характеристики распределения (математическое
ожидание, медиану, дисперсию, квантили и др.), плотности и функции распределения,
зависимости между переменными (на основе линейных и непараметрических
коэффициентов корреляции, а также параметрических или непараметрических оценок
функций, выражающих зависимости) и др. Используют точечные и интервальные
(дающие границы для истинных значений) оценки.
В статистике математической есть общая теория проверки гипотез и большое число методов, посвященных
проверке конкретных гипотез. Рассматривают гипотезы о значениях параметров и
характеристик, о проверке однородности (т.е. о совпадении характеристик или
функций распределения в двух выборках), о согласии эмпирической функции
распределения с заданной функцией распределения или с параметрическим семейством
таких функций, о симметрии распределения и др.
Большое значение для
эконометрики имеет раздел статистики математической, связанный с
проведением выборочных обследований, со свойствами различных схем организации
выборок и построением адекватных методов оценивания и проверки гипотез.
Задачи восстановления
зависимостей активно изучаются более 200 лет, с момента разработки К. Гауссом в
1794 г. метода наименьших квадратов. В настоящее время наиболее актуальны
методы поиска информативного подмножества переменных и непараметрические
методы.
Различные методы
построения (кластер-анализ), анализа и использования (дискриминантный анализ)
классификаций (типологий) именуют также методами распознавания образов (с
учителем и без), автоматической классификации и др.
Математические методы в
статистике основаны либо на использовании сумм (на основе Центральной
Предельной Теоремы теории вероятностей) или показателей различия (расстояний,
метрик), как в статистике объектов нечисловой природы. Строго обоснованы обычно
лишь асимптотические результаты. В настоящее время компьютеры играют большую
роль в статистике математической. Они используются как для расчетов,
так и для имитационного моделирования (в частности, в методах размножения
выборок и при изучении пригодности асимптотических результатов).
Классическая статистика математическая лучше всего представлена в [2,4]. По историческим причинам
основные российские работы публикуются в [3]. Обзор современного состояния статистики математической дан в [6].
Статистика объектов
нечисловой природы -
раздел математической статистики, в котором статистическими данными являются
объекты нечисловой природы, т.е. элементы множеств, не являющихся линейными
пространствами. Объекты нечисловой природы нельзя складывать и умножать на
число. Примерами являются результаты измерений в шкалах наименований, порядка,
интервалов; ранжировки, разбиения, толерантности и другие бинарные отношения;
результаты парных и множественных сравнений; люсианы, т.е. конечные последовательности
из 0 и1; множества; нечеткие множества. Необходимость применения объектов
нечисловой природы возникает во многих областях научной и практической
деятельности, в том числе и в социологии. Примерами являются ответы на "закрытые"
вопросы в эконометрических, маркетинговых, социологических анкетах, в которых
респондент должен выбрать одну или несколько из фиксированного числа подсказок,
мили измерение мнений о привлекательности (товаров, услуг, профессий, политиков
и др.), проводимое по порядковой шкале. Наряду со специальными теориями для каждого
отдельного вида объектов нечисловой природы в статистике объектов нечисловой природы имеется и теория
обработки данных, лежащих в пространстве общей природы, результаты которой
применимы во всех специальных теориях.
В статистике объектов
нечисловой природы классические задачи математической статистики - описание
данных, оценивание, проверку гипотез - рассматривают для данных неклассического
типа, что приводит к своеобразию постановок задач и методов их решения. Например,
из-за отсутствия линейной структуры в пространстве, в котором лежат статистические
данные, в статистике объектов нечисловой природы математическое ожидание
определяют не через сумму или интеграл, как в классическом случае, а как
решение задачи минимизации некоторой функции. Эта функция представляет собой
математическое ожидание (в классическом смысле) показателя различия между
значением случайного объекта нечисловой природы и фиксированным элементом
пространства. Эмпирическое среднее определяют как результат минимизации суммы
расстояний от нечисловых результатов наблюдений до фиксированного элемента
пространства. Справедлив закон больших чисел: эмпирическое среднее сходится при
увеличении объема выборки к математическому ожиданию, если результаты наблюдений
являются независимыми одинаково распределенными случайными объектами нечисловой
природы и выполнены некоторые математические "условия регулярности".
Аналогичным образом
определяют условное математическое ожидание и регрессионную зависимость. Из доказанной
в статистике объектов нечисловой природы сходимости решений
экстремальных статистических задач к решениям соответствующих предельных задач
вытекает состоятельность оценок в параметрических задачах оценивания параметров
и аппроксимации, а также ряд результатов в многомерном статистическом анализе.
Большую роль в статистике объектов нечисловой природы играют
непараметрические методы, в частности, методы непараметрической оценки
плотности и регрессионной зависимости в пространствах общей природы, в том
числе и в дискретных пространствах.
Для решения многих задач
статистики объектов нечисловой природы - нахождения эмпирического
среднего, оценки регрессионной зависимости, классификации наблюдений и др. -
используют показатели различия (меры близости, расстояния, метрики) между элементами
рассматриваемых пространств, вводимые аксиоматически. Так, в монографии [7]
аксиоматически введено расстояние между множествами. Принятое в теории
измерений как части статистики объектов нечисловой природы условие
адекватности (инвариантности) алгоритмов анализа данных позволяет указать вид
средних величин, расстояний, показателей связи и т.д., соответствующих
измерениям в тех или иных шкалах. Методы построения, анализа и использования
классификаций и многомерного шкалирования дают возможность сжать информацию и
дать ей наглядное представление. К статистике объектов нечисловой природы относятся
методы ранговой корреляции, статистического анализа бинарных отношений
(ранжировок, разбиений, толерантностей), параметрические и непараметрические
методы обработки результатов парных и множественных сравнений. Теория люсианов
(последовательностей независимых испытаний Бернулли) развита в асимптотике растущей
размерности.
Статистика объектов
нечисловой природы как
самостоятельный раздел прикладной математической статистики выделена в
монографии [7]. Обзору ее основных направлений посвящен, например, сборник [8].
Ей посвящен раздел в энциклопедии [2].
Статистика интервальных
данных (СИД)
- раздел статистики объектов нечисловой природы, в котором элементами
выборки являются интервалы в R, в частности, порожденные наложением ошибок
измерения на значения случайных величин. СИД входит в теорию устойчивости
(робастности) статистических процедур (см. [7]) и примыкает к интервальной
математике (см. [9]). В СИД изучены проблемы регрессионного анализа, планирования
эксперимента, сравнения альтернатив и принятия решений в условиях интервальной
неопределенности и др. (см.[10-13]).
Развиты асимптотические
методы статистического анализа интервальных данных при больших объемах выборок
и малых погрешностях измерений. В отличие от классической математической
статистики, сначала устремляется к бесконечности объем выборки и только потом -
уменьшаются до нуля погрешности. Разработана общая схема исследования (см.
[14]), включающая расчет двух основных характеристик СИД - н о т н ы
(максимально возможного отклонения статистики, вызванного интервальностью
исходных данных) и р а ц и о н а л ь н
о г о о б ъ е м а в ы б о р к и (превышение которого не дает
существенного повышения точности оценивания и статистических выводов, связанных
с проверкой гипотез). Она применена к оцениванию математического ожидания и
дисперсии, медианы и коэффициента вариации, параметров гамма-распределения в
ГОСТ 11.011-83 [15] и характеристик аддитивных статистик, для проверки гипотез
о параметрах нормального распределения, в т.ч. с помощью критерия Стьюдента, а
также гипотезы однородности двух выборок по критерию Смирнова, и т.д..
Разработаны подходы СИД в основных постановках регрессионного, дискриминантного
и кластерного анализов (см. [16]).
Многие
утверждения СИД отличаются от аналогов из классической математической
статистики. В частности, не существует состоятельных оценок: средний квадрат
ошибки оценки, как правило, асимптотически равен сумме дисперсии этой оценки,
рассчитанной согласно классической теории, и квадрата нотны. Метод моментов иногда оказывается
точнее метода максимального правдоподобия (см. [15, 17]). Нецелесообразно с целью
повышения точности выводов увеличивать
объем выборки сверх некоторого предела. В СИД классические доверительные
интервалы должны быть расширены вправо и влево на величину нотны, и длина их не
стремится к 0 при росте объема выборки.
Многим задачам
классической математической статистики могут быть поставлены в соответствие
задачи СИД, в которых элементы выборок - действительные числа заменены на
интервалы. В статистическое программное обеспечение включают алгоритмы СИД,
"параллельные" их аналогам из
классической математической статистики. Это позволяет учесть наличие погрешностей
у результатов наблюдений.
Цитированная литература
1. Колмогоров А.Н. Основные понятия теории
вероятностей. 2-е изд. - М.: Наука, 1974. - 120 с.
2. Вероятность и математическая статистика.
Энциклопедия / Гл. ред. Ю. В. Прохоров. – М.: Изд-во «Большая Российская Энциклопедия»,
1999. – 910 с.
3. Орлов А.И. Термины и
определения в области вероятностно-статистических методов. – Журнал «Заводская
лаборатория». 1999. Т.65. No.7. С.46-54.
4. Большев Л.Н., Смирнов Н.В. Таблицы
математической статистики. - М.: Наука, 1983.
5. Секция "Математические методы
исследования" журнала "Заводская лаборатория. Диагностика
материалов".
6. Орлов А.И. Современная прикладная статистика.
- Журнал "Заводская лаборатория". 1998. Т.64. No.3.
С. 52-60.
7. Орлов А.И. Устойчивость в
социально-экономических моделях. - М.: Наука, 1979. - 296 с.
8. Анализ нечисловой информации в
социологических исследованиях. - М.: Наука, 1985. - 220 с.
9. Шокин Ю.И. Интервальный анализ. -
Новосибирск: Наука, 1981. - 112 с.
10. Вощинин А.П. Метод
оптимизации объектов по интервальным моделям целевой функции. - М.: МЭИ, 1987.
- 109 с.
11. Вощинин А.П.,
Сотиров Г.Р. Оптимизация в условиях неопределенности. - М.: МЭИ - София:
Техника, 1989. - 224 с.
12. Кузнецов В.П. Интервальные статистические
модели. - М.: Радио и связь, 1991. - 352 с.
13. Сборник трудов Международной конференции по
интервальным и стохастическим методам в науке и технике (ИНТЕРВАЛ-92). Тт. 1,2.
- М.: МЭИ, 1992. - 216 с., 152 с.
14. Орлов А.И. О развитии реалистической
статистики. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский
сборник научных трудов. Пермь: Изд-во Пермского государственного университета,
1990, с..89-99.
15. ГОСТ 11.011-83. Прикладная статистика.
Правила определения оценок и доверительных границ для параметров
гамма-распределения. - М.: Изд-во стандартов, 1984. - 53 с.
16. Орлов А.И. Интервальный статистический
анализ. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский
сборник научных трудов. Пермь: Пермский государственный университет, 1993,
с.149-158.
17. Орлов А.И. Интервальная статистика: метод
максимального правдоподобия и метод моментов. - В сб.: Статистические методы
оценивания и проверки гипотез. Межвузовский сборник научных трудов. - Пермь:
Изд-во Пермского государственного университета, 1995, с.114-124.
Материал предоставлен сайтом AUP.Ru (Электронная библиотека экономической и деловой литературы)
|