Орлов А.И. Математика случая: Вероятность и статистика – основные факты: Корреляция и регрессия

6. Некоторые типовые задачи прикладной статистики и методы их решения

Корреляция и регрессия

Целями исследования зависимости между признаками являются доказательство наличия связи между признаками и изучение этой связи. Для доказательства наличия связи между двумя случайными величинами Х и У применяют корреляционный анализ. Если совместное распределение Х и У является нормальным, то статистические выводы основывают на выборочном коэффициенте линейной корреляции, в остальных случаях используют коэффициенты ранговой корреляции Кендалла и Спирмена, а для качественных признаков – критерий хи-квадрат.

Регрессионный анализ применяют для изучения функциональной зависимости количественного признака У от количественных признаков x(1), x(2), … , x(k). Эту зависимость называют регрессионной или, кратко, регрессией. Простейшая вероятностная модель регрессионного анализа (в случае k = 1) использует в качестве исходной информации набор пар результатов наблюдений (x_i, y_i), i = 1, 2, … , n, и имеет вид

y_i = ax_i + b + ε_i, i = 1, 2, … , n,

где ε_i – ошибки наблюдений. Иногда предполагают, что ε_i – независимые случайные величины с одним и тем же нормальным распределением N(0, σ²). Поскольку распределение ошибок наблюдения обычно отлично от нормального, то целесообразно рассматривать регрессионную модель в непараметрической постановке [2], т.е. при произвольном распределении ε_i.

Основная задача регрессионного анализа состоит в оценке неизвестных параметров а и b, задающих линейную зависимость y от x. Для решения этой задачи применяют разработанный еще К.Гауссом в 1794 г. метод наименьших квадратов, т.е. находят оценки неизвестных параметров моделиa и b из условия минимизации суммы квадратов

по переменным а и b.

Теория регрессионного анализа описана и расчетные формулы даны в специальной литературе [2, 16, 17]. В этой теории разработаны методы точечного и интервального оценивания параметров, задающих функциональную зависимость, а также непараметрические методы оценивания этой зависимости, методы проверки различных гипотез, связанных с регрессионными зависимостями. Выбор планов эксперимента, т.е. точек x_i, в которых будут проводиться эксперименты по наблюдению y_i – предмет теории планирования эксперимента [18].

Материал предоставлен сайтом AUP.Ru (Электронная библиотека экономической и деловой литературы)