Глава
1. Нечисловые статистические данные
1.1.
Количественные и категоризованные данные
Статистические
методы – это методы анализа данных, причем обычно достаточно большого
количества данных. Статистические данные могут иметь различную природу.
Исторически самыми ранними были два вида данных – сведения о числе объектов,
удовлетворяющих тем или иным условиям, и числовые результаты измерений.
Первый
из этих видов данных до сих пор главенствует в статистических сборниках
Госкомстата РФ. Такого рода данные часто называют категоризованными,
поскольку о каждом из рассматриваемых объектов известно, в какую из нескольких
заранее заданных категорий он попадает. Примером является информация
Госкомстата РФ о населении страны, с разделением по возрастным категориям и
полу. Часто при составлении таблиц жертвуют информацией, заменяя точное
значение измеряемой величины на указание интервала группировки, в которую это
значение попадает. Например, вместо точного возраста человека используют лишь
один из указанных в таблице возрастных интервалов.
Второй
наиболее распространенный вид данных – количественные данные, рассматриваемые
как действительные числа. Таковы результаты измерений, наблюдений, испытаний,
опытов, анализов. Количественные данные обычно описываются набором чисел
(выборкой), а не таблицей.
Нельзя
утверждать, что категоризованные данные соответствуют первому этапу
исследования, а числовые – следующему, на котором используются более
совершенные методы измерения. Дело в том, что человеку свойственно давать
качественные ответы на возникающие в его практической деятельности вопросы.
Примером является таблица[1],
посвященная анализу сильных и слабых сторон конкретной Компании (табл.1). Она
составлена одним из руководителей этой Компании и предназначена для
использования при управлении Компанией.
Таблица 1.
Оценка
сильных и слабых сторон Компании
Показатели, описывающие различные стороны работы Компании |
Оценка показателя
(По отношению к предприятиям отрасли) |
Важность (вес) показателя |
Очень высо-кая |
Вы-со-кая |
Сре-дняя |
Низ-кая |
Очень низ-кая |
Вы-со-кая |
Сре-дняя |
Низ-кая |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
1. Финансы |
|
1.1. Оценка структуры
активов |
|
|
Х |
|
|
Х |
|
|
1.2. Инвестиционная
привлекательность |
|
|
Х |
|
|
Х |
|
|
1.3. Доход на активы |
|
|
|
Х |
|
Х |
|
|
1.4. Норма прибыли |
|
|
|
|
Х |
Х |
|
|
1.5. Доход на вложенный
капитал |
|
|
|
Х |
|
|
Х |
|
2. Производство |
|
2.1. Использования
оборудования |
|
|
Х |
|
|
|
Х |
|
2.2. Производственные
мощности |
|
|
Х |
|
|
|
|
Х |
2.3. Численность |
|
|
Х |
|
|
|
Х |
|
2.4. Система контроля
качества |
|
Х |
|
|
|
Х |
|
|
2.5. Возможность расширения
производства |
|
|
Х |
|
|
Х |
|
|
1.6. Износ оборудования |
|
|
|
Х |
|
Х |
|
|
3. Организация
и управление |
|
3.1. Численность ИТР и
управленческого персонала |
|
|
Х |
|
|
Х |
|
|
3.2. Скорость реакции
управления на изменения во внешней среде |
|
|
Х |
|
|
Х |
|
|
3.3. Четкость разделения
полномочий и функций |
|
|
|
Х |
|
|
Х |
|
3.4. Качество используемой
в управлении информации |
|
|
Х |
|
|
Х |
|
|
3.5. Гибкость оргструктуры
управления |
|
Х |
|
|
|
Х |
|
|
4. Маркетинг |
|
4.1. Доля рынка |
|
Х |
|
|
|
Х |
|
|
4.2. Репутация Компании |
|
Х |
|
|
|
Х |
|
|
4.3. Престиж торговой марки |
|
|
Х |
|
|
|
Х |
|
4.4. Стимулирование сбыта |
|
Х |
|
|
|
Х |
|
|
4.5. Численность сбытового
персонала |
|
|
|
Х |
|
|
|
Х |
4.6. Уровень цен |
|
|
Х |
|
|
Х |
|
|
4.7. Уровень сервиса |
|
Х |
|
|
|
Х |
|
|
4.8. Число клиентов |
|
Х |
|
|
|
|
Х |
|
4.9. Качество поступающей
информации |
|
|
Х |
|
|
|
Х |
|
5. Кадровый
состав |
|
5.1. Уровень квалификации
производственного персонала |
|
Х |
|
|
|
Х |
|
|
5.2. Расходы по подготовке
и переподготовке персонала |
|
Х |
|
|
|
Х |
|
|
5.3. Уровень подготовки
сбытового персонала в технической области |
|
|
|
Х |
|
|
Х |
|
6. Технология |
|
|
|
|
|
|
|
|
6.1. Применяемые стандарты |
|
Х |
|
|
|
|
|
Х |
6.2. Новые продукты |
|
|
Х |
|
|
|
Х |
|
6.3. Расходы на НИОКР |
|
Х |
|
|
|
|
Х |
|
Ясно,
что вполне можно превратить в числа значения признаков, названия которых
приведены в столбце «Показатели Компании», однако этот переход будет зависеть
от исследователя, носить неизбежный налет субъективизма. Отметим, что важность
(вес) показателей также оценивается качественно, а не количественно.
Иногда
нецелесообразно однозначно относить данные к категоризованным или
количественным. Например, в Ветхом Завете, в Четвертой книге Моисеева «Числа»
указывается количество воинов в различных коленах. С одной стороны, это
типичные категоризованные данные, градациями служат названия колен. С другой
стороны, эти данные можно рассматривать как количественные, как выборку, их
вполне естественно складывать, вычислять среднее арифметическое и т.п.
Описанная
ситуация типична. Существует весьма много различных видов статистических
данных. Это связано, в частности, со способами их получения. Например, если
испытания некоторых технических устройств продолжаются до определенного
момента, то получаем т.н. цензурированные данные, состоящие из набора чисел – продолжительности работы ряда
устройств до отказа, и информации о том, что остальные устройства продолжали
работать в момент окончания испытания. Такого рода данные часто используются
при оценке и контроле надежности технических устройств.
Описание
вида данных и, при необходимости, механизма их порождения – начало любого
статистического исследования.
В
простейшем случае статистические данные – это значения некоторого признака,
свойственного изучаемым объектам. Значения могут быть количественными или
представлять собой указание на категорию, к которой можно отнести объект. Во
втором случае говорят о качественном признаке. Используют и более сложные
признаки, перечень которых будет расширяться по мере развертывания изложения в
учебнике.
При
измерении по нескольким количественным или качественным признакам в качестве
статистических данных об объекте получаем вектор. Его можно рассматривать как
новый вид данных. В таком случае выборка состоит из набора векторов. Есть часть
координат – числа, а часть – качественные (категоризованные) данные, то говорим
о векторе разнотипных данных.
Одним
элементом выборки, т.е. одним измерением, может быть и функция в целом.
Например, электрокардиограмма больного или амплитуда биений вала двигателя. Или
временной ряд, описывающий динамику показателей определенной фирмы. Тогда
выборка состоит из набора функций.
Элементами
выборки могут быть и бинарные отношения. Например, при опросах экспертов часто
используют упорядочения (ранжировки) объектов экспертизы – образцов продукции,
инвестиционных проектов, вариантов управленческих решений. В зависимости от
регламента экспертного исследования элементами выборки могут быть различные
виды бинарных отношений (упорядочения, разбиения, толерантности), множества,
нечеткие множества и т.д.
Итак,
математическая природа элементов выборки в различных задачах прикладной
статистики может быть самой разной. Однако можно выделить два класса
статистических данных – числовые и нечисловые. Соответственно прикладная
статистика разбивается на две части – числовую статистику и нечисловую
статистику (ее называют также статистикой нечисловых данных или статистикой
объектов нечисловой природы).
Числовые
статистические данные – это числа, вектора, функции. Их можно складывать,
умножать на коэффициенты. Поэтому в числовой статистике большое значение имеют
разнообразные суммы. Математический аппарат анализа сумм случайных элементов
выборки – это (классические) законы больших чисел и центральные предельные
теоремы (см. приложение 3).
Нечисловые
статистические данные – это категоризованные данные, вектора разнотипных
признаков, бинарные отношения, множества, нечеткие множества и др. Их нельзя
складывать и умножать на коэффициенты. Поэтому не имеет смысла говорить о
суммах нечисловых статистических данных. Они являются элементами нечисловых
математических пространств (множеств). Математический аппарат анализа
нечисловых статистических данных основан на использовании расстояний между
элементами (а также мер близости, показателей различия) в таких пространствах.
С помощью расстояний определяются эмпирические и теоретические средние,
доказываются законы больших чисел, строятся непараметрические оценки плотности
распределения вероятностей, решаются задачи диагностики и кластерного анализа,
и т.д..
Сведем
информацию об основных областях прикладной статистики в табл.2. Отметим, что
модели порождения цензурированных данных входят в состав каждой из
рассматриваемых областей.
Таблица 2.
Области прикладной статистики
№ п/п |
Вид статистических данных |
Область прикладной статистики |
1 |
Числа |
Статистика (случайных) величин |
2 |
Конечномерные вектора |
Многомерный статистический анализ |
3 |
Функции |
Статистика случайных процессов и
временных рядов |
4 |
Объекты нечисловой природы |
Нечисловая статистика |