Часть 2. Основные проблемы
прикладной статистики
2.1.
Описание данных
2.1.2. Таблицы и выборочные
характеристики
Исходные статистические данные могут
быть достаточно обширными. В качестве примера приведем результаты экспертного
опроса, проведенного Институтом высоких статистических технологий и
эконометрики в 1994 г. (табл.1). В первом столбце приведены номера экспертов, в
остальных четырех – четыре прогнозных значения, полученных от каждого эксперта.
Отметим, что эксперт №28 не ответил на вопрос об инфляции. В таблицах реальных
данных приходися сталкиваться с пропусками.
Таблица 1.
Прогнозы
экспертов на 8 декабря 1994 г. (сделаны 19.10.1994)
№ п/п |
Курс
доллара США, руб. |
Инфляция
(%) за период прогноза |
Цена
батона белого хлеба, руб. |
Цена
1 л молока, руб. |
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33 |
4185
4270
3200
4000
3500
3800
3500
3300
4100
3560
4000
5200
4000
6000
4000
3400
3500
4200
3560
4300
4000
4500
4200
3900
5500
5000
5600
3900
4200
3680
4000
4600
4560 |
4,0
2,8
17,0
16,0
16,0
5,0
3,5
62,0
54,0
10,0
54,0
54,0
9,0
54,0
40,0
13,0
15,0
2,5
200,0
6,0
3,0
12,0
11,0
54,0
62,0
73,0
54,0
-
38,0
38,0
2,0
46,0
92,0 |
800
1028
760
950
820
1000
500
800
900
870
1000
1500
830
2000
950
750
1000
1000
940
950
1000
950
890
1000
1000
1000
1200
1500
950
850
840
1000
1300 |
1305
1322
755
1000
800
1000
1500
780
899
1050
1000
1500
1300
2000
1200
900
1250
1500
1200
1570
1100
1100
1100
1000
1400
1200
2000
1400
1100
1100
1100
1100
1400 |
Описание данных - это первичное сжатие информации с целью
сделать ее более обозримой, легкой для восприятия. Самый древний способ – это
составление различных таблиц, вторичных по отношению к таблицам исходных
данных.
Например, рассмотрим последний столбец табл.1. Для лучшего
восприятия прогнозов экспертов о цене 1 л молока сгруппируем данные по
интервалам, как это сделано в табл.2.
Таблица
2.
Прогнозируемая
цена молока
№ п/п |
Интервал, руб. |
Число ответов |
1
2
3
4
5
6
7
8
9
10 |
700 – 799
800 – 899
900 – 999
1000 – 1099
1100 – 1199
1200 – 1299
1300 – 1399
1400 – 1499
1500 – 1599
2000
Всего |
2
2
1
5
7
4
3
3
4
2
33 |
Группировка данных в табл.2 по 10 интервалам может
показаться слишком дробной. Нетрудно объединить
градации и получить, например, табл.3.
Таблица
3.
Прогнозируемая
цена молока (крупные градации)
№ п/п |
Интервал,руб. |
Число ответов |
1
2
3
4
5 |
700 – 999
1000 –1299
1300 –1599
2000
Всего |
5
16
10
2
33 |
Сколько использовать градаций (т.е.
строк в таблице)? Общих рекомендаций дать нельзя. Ответ зависит от цели статистического
исследования, от структуры конкретных данных.
Табличный материал может быть выражен
в виде различных диаграмм, в том числе круговых и столбчатых. Несколько
десятков лет назад были популярны гистограммы – столбчатые диаграммы, для
которых интервалы группирования имеют одинаковую длину.
В настоящее время гистограммы
рассматривают как устаревшие инструменты статистического анализа. Для описания
массива данных рекомендуется использовать вариационные ряды, эмпирические
функции распределения (см. главу 1.2) и – особенно настоятельно –
непараметрические оценки плотности (см. подраздел 2.1.6). Кроме того,
целесообразно рассчитывать и приводить в документации в разделе «Описание
данных» выборочные характеристики:
- выборочное среднее арифметическое;
- выборочную дисперсию;
- выборочное среднее квадратическое
отклонение;
- коэффициент вариации
- медиану;
- минимум (первый член вариационного
ряда);
- максимум (последний член
вариационного ряда);
- размах
- моду и амплитуду моды;
- верхний квартиль;
- нижний квартиль;
- межквартильное расстояние.
Определения всех этих выборочных
характеристик даны выше в главе 1.2. В настоящем подразделе сведены вместе
наиболее распространенные приемы описания числовых данных.