Выборочные
характеристики распределения
Кроме эмпирической функции распределения, для
описания данных используют и другие статистические характеристики. В качестве
выборочных средних величин постоянно используют выборочное среднее
арифметическое, т.е. сумму значений рассматриваемой величины, полученных по
результатам испытания выборки, деленную на ее объем:
где n – объем выборки, xi – результат измерения (испытания) i-ого элемента выборки.
Другой
вид выборочного среднего – выборочная медиана. Она определяется через
порядковые статистики.
Порядковые
статистики – это члены вариационного ряда, который получается, если элементы
выборки x1, x2,…, xn расположить в порядке неубывания:
х(1)<x(2)<…<x(k)<…<x(n).
Пример
1. Для выборки x1 = 1, x2 = 7, x3 = 4, x4 = 2, x5 = 8, x6 = 0, x7 =5, x8 = 7 вариационный ряд имеет вид 0, 1,
2, 4, 5, 7, 7, 8, т.е. х(1) = 0 = x6, х(2) = 1 = x1, х(3) = 2 = x4, х(4) = 4 = x3, х(5) = 5 = x7, х(6) = х(7) = 7 = x2 = x8, х(8) = 8 = x5.
В
вариационном ряду элемент x(k) называется k-той порядковой статистикой.
Порядковые статистики и функции от них широко используются в вероятностно-статистических
методах принятия решений, в эконометрике и в других прикладных областях [2].
Выборочная
медиана - результат наблюдения, занимающий центральное
место в вариационном ряду, построенном по выборке с нечетным числом элементов, или
полусумма двух результатов наблюдений, занимающих два центральных места в
вариационном ряду, построенном по выборке с четным числом элементов. Таким
образом, если объем выборки n – нечетное число, n = 2k+1, то медиана = x(k+1), если же n – четное число, n = 2k, то медиана = [x(k) + x(k+1)]/2, где x(k) и x(k+1) – порядковые статистики.
В
качестве выборочных показателей рассеивания результатов наблюдений чаще всего
используют выборочную дисперсию, выборочное среднее квадратическое отклонение и
размах выборки.
Согласно
[8] выборочная дисперсия s2 – это сумма квадратов отклонений
выборочных результатов наблюдений от их среднего арифметического, деленная на
объем выборки:
Выборочное среднее квадратическое
отклонение s – неотрицательный квадратный корень из дисперсии, т.е.
В
некоторых литературных источниках выборочной дисперсией называют другую
величину:
Она отличается от s2 постоянным множителем:
Соответственно выборочным средним квадратическим
отклонением в этих литературных источниках называют величину Тогда, очевидно,
Различие в определениях
приводит к различию в алгоритмах расчетов, правилах принятия решений и
соответствующих таблицах. Поэтому при использовании тех или иных
нормативно-технических и инструктивно-методических материалов, программных
продуктов, таблиц необходимо обращать внимание на способ определения выборочных
характеристик.
Выбор , а не s2, объясняется тем, что
где Х – случайная величина,
имеющая такое же распределение, как и результаты наблюдений. В терминах теории
статистического оценивания это означает, что - несмещенная оценка дисперсии (см. ниже). В
то же время статистика s2 не является несмещенной оценкой
дисперсии результатов наблюдений, поскольку
Однако у s2 есть другое свойство, оправдывающее
использование этой статистики в качестве выборочного показателя рассеивания.
Для известных результатов наблюдений x1, x2,…, xn рассмотрим случайную величину У с распределением вероятностей
и Р(У = х) = 0 для всех
прочих х. Это распределение вероятностей называется эмпирическим. Тогда
функция распределения У – это эмпирическая функция распределения,
построенная по результатам наблюдений x1, x2,…, xn. Вычислим математическое ожидание и
дисперсию случайной величины У:
Второе из этих равенств и является
основанием для использования s2 в качестве выборочного показателя
рассеивания.
Отметим,
что математические ожидания выборочных средних квадратических отклонений М(s) и М(s0), вообще говоря, не равняются
теоретическому среднему квадратическому отклонению σ. Например, если Х имеет нормальное распределение, объем выборки n = 3, то
Кроме
перечисленных выше статистических характеристик, в качестве выборочного
показателя рассеивания используют размах R – разность между n-й и первой порядковыми статистиками
в выборке объема n, т.е. разность между наибольшим и наименьшим значениями в
выборке: R = x(n) – x(1).
В ряде
вероятностно-статистических методов применяют и иные показатели рассеивания. В
частности, в методах статистического регулирования процессов используют средний
размах – среднее арифметическое размахов, полученных в определенном количестве
выборок одинакового объема. Популярно и межквартильное расстояние, т.е.
расстояние между выборочными квартилями x([0,75n]) и x([0,25n]) порядка 0,75 и 0,25
соответственно, где [0,75n] – целая часть числа 0,75n, а [0,25n] –целая часть числа 0,25n.