Часть 3. Методы прикладной статистики
3.2. Многомерный статистический
анализ
Контрольные вопросы и задачи
1. Имеются данные за несколько лет о торговом обороте Y западногерманского предприятия и его расходах на рекламу X. Данные
представлены в табл. 4.
Таблица 4.
Расходы на рекламу и
торговый оборот предприятия.
Годы, t |
68 |
69 |
70 |
71 |
72 |
73 |
74 |
75 |
Расходы на рекламу x(t), тыс. марок |
4 |
4 |
5 |
6 |
8 |
8 |
10 |
11 |
Торговый оборот y(t), млн.марок |
4 |
5 |
6 |
6 |
8 |
10 |
12 |
13 |
Вычислите
линейный коэффициент корреляции между случайными величинами X и Y. С помощью метода наименьших
квадратов определите коэффициенты линейной регрессии Y = aX + b. Постройте
график (заданные точки (xi,yi)
и прямую y= a*x+b*).
Найдите доверительные границы для регрессионной зависимости (при доверительной
вероятности γ = 0,95). Нанесите доверительные
границы на график. Сделайте точечный и интервальный прогноз для торгового
оборота при расходах на рекламу, равных 15 (тыс. марок ФРГ).
Аналогичным
образом изучите зависимости расходах на рекламу X и торгового оборота Y от времени t (за начало отсчета целесообразно взять 1971 год).
2. Семь школьников выполняют несколько заданий по математике
и физике, которые оцениваются баллами 1-5, затем вычисляется средний балл для
каждого школьника по каждому предмету: по математике - xi, по физике - yj.
Данные представлены в табл.5. Определите, существует ли корреляция (т.е. связь)
между этими оценками, вычислив коэффициент ранговой корреляции Спирмена.
Таблица 5.
Средние баллы по математике и физике.
Школьник |
Средний балл
по математике xi |
Средний балл
по физике yi |
А
B
C
D
E
F
G |
1,8
3,0
3,5
4,0
5,0
3,8
2,0 |
3,2
2,8
4,0
5,0
3,6
2,4
1,2 |
3. Исходные данные (табл.6) – набор n пар чисел (tk , xk), k = 1,2,…,n, где tk – независимая переменная
(например, время), а xk – зависимая (например, индекс инфляции). Предполагается, что переменные
связаны зависимостью
xk = a tk + b + ek , k =
1,2,…,n,
где a и b – параметры, неизвестные статистику и
подлежащие оцениванию, а ek –
погрешности, искажающие зависимость.
Таблица 6.
Исходные данные для расчетов по
методу наименьших квадратов.
tk |
1 |
3 |
4 |
7 |
9 |
10 |
xk |
12 |
20 |
20 |
32 |
35 |
42 |
Методом
наименьших квадратов оцените параметры a и b линейной зависимости. Выпишите восстановленную
зависимость.
Вычислите
восстановленные значения зависимой переменной, сравните их с исходными
значениями (найдите разности) и проверьте условие точности вычислений (при
отсутствии ошибок в вычислениях сумма исходных значений должна равняться сумме
восстановленных).
Найдите
остаточную сумму квадратов и оцените дисперсию погрешностей.
Выпишите
точечный прогноз, а также верхнюю и нижнюю доверительные границы для него (для доверительной вероятности 0,95).
Рассчитайте
прогнозное значение и доверительные границы для него для момента t = 12.
Как
изменятся результаты, если доверительная вероятность будет увеличена? А если
она будет уменьшена?
4. Как в методе наименьших квадратов
используются преобразования переменных?
5. Как соотносятся задачи группировки
и задачи кластер-анализа?
6. В табл.7 приведены попарные расстояния между десятью
социально-психологическими признаками способных к математике школьников [11].
Примените к этим данным алгоритмы ближнего соседа, средней связи и дальнего
соседа. Для каждого из трех алгоритмов выделите наиболее устойчивые разбиения
на кластеры.
Таблица 7.
Попарные расстояния между
социально-психологическими признаками.
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
9 |
10 |
2 |
1028 |
|
|
|
|
|
|
|
|
3 |
1028 |
608 |
|
|
|
|
|
|
|
4 |
1050 |
688 |
610 |
|
|
|
|
|
|
5 |
1012 |
686 |
636 |
634 |
|
|
|
|
|
6 |
1006 |
566 |
538 |
616 |
562 |
|
|
|
|
7 |
1012 |
1026 |
748 |
692 |
774 |
732 |
|
|
|
8 |
960 |
1088 |
1144 |
1122 |
1120 |
1130 |
1110 |
|
|
9 |
1026 |
878 |
874 |
830 |
836 |
802 |
904 |
1040 |
|
10 |
990 |
744 |
674 |
744 |
718 |
580 |
814 |
1090 |
830 |
7. Расскажите о динамике индекса
инфляции в России.