Поиск в словарях
Искать во всех

Математическая энциклопедия - регрессионный анализ

Регрессионный анализ

регрессионный анализ

раздел математич. статистики, объединяющий практич. методы исследования регрессионной зависимости между величинами по статистич. данным (см. Регрессия). Проблема регрессии в математич. статистике характерна тем, что о распределениях изучаемых величин нет достаточной информации. Пусть, напр., имеются основания предполагать, что случайная величина Yимеет нек-рое распределение вероятностей при фиксированном значении хдругой величины, так что

где b совокупность неизвестных параметров, определяющих функцию g(x), и нужно по результатам наблюдений определить значения параметров. В зависимости от природы задачи и целей анализа результаты эксперимента по-разному интерпретируются в отношении переменной х. Для установления связи между величинами в эксперименте используется модель, основанная на упрощенных допущениях: величина хявляется контролируемой величиной, значения к-рой заранее задаются при планировании эксперимента, а наблюдаемые значения представимы в виде где величины ei характеризуют ошибки, независимые при различных измерениях и одинаково распределенные с нулевым средним и постоянной дисперсией. В случае неконтролируемой переменной результаты наблюдений (x1 у1,), . . ., ( х п, у п )представляют собой выборку из нек-рой двумерной совокупности. Методы Р. а. одинаковы и в том, и в другом случае, однако интерпретация результатов различается (в последнем случае анализ существенно дополняется методами теории корреляции).

Исследование регрессии по экспериментальным данным производится методами, основанными на принципах средней квадратич. регрессии. Р. а. решает следующие основные задачи: 1) выбор модели регрессии, что заключает в себе предположения о зависимости функций регрессии от x и b, 2) оценка параметров b в выбранной модели методом наименьших квадратов, 3) проверка статистич. гипотез о регрессии.

Наиболее естественной с точки зрения единого метода оценки неизвестных параметров является модель регрессии, линейная относительно этих параметров:

Выбор функций gi(x)иногда определяется по расположению экспериментальных значений ( х, у )на диаграмме рассеяния, чаще теоретич. соображениями. Предполагается также, что дисперсия s2 результатов наблюдений постоянна (или пропорциональна известной функции от x). Стандартный метод оценки регрессии основан на использовании многочлена нек-рой степени

или в простейшем случае линейной функции (линейная регрессия)

Существуют критерии линейности и рекомендации по выбору степени аппроксимирующего многочлена.

В соответствии с принципами средней квадратич. регрессии оценка неизвестных регрессии коэффициентовb0, . . ., bm и дисперсии s2 осуществляется методом наименьших квадратов. Согласно этому методу в качестве статистич. оценок параметров b0, . . ., bm выбираются такие значения , к-рые обращают в минимум выражение

Многочлен , построенный методом наименьших квадратов, наз. э м п и р и ч е с к о й л и н и е й р е г р е с с и и и является статистич. оценкой неизвестной истинной линии регрессии. При гипотезе линейности регрессии уравнение эмпирич. прямой регрессии имеет вид

где

Случайные величины наз. в ы б о р о ч н ы м и к о э ф ф и ц и е н т а м и р е г р е с с и и. Несмещенная оценка параметра s2 дается формулой

Если дисперсия зависит от х, то метод наименьших квадратов применим с нек-рыми видоизменениями.

Если изучается зависимость случайной величины Yот нескольких переменных , то общую линейную модель регрессии удобнее записывать в матричной форме: вектор наблюдений ус независимыми компонентами имеет среднее значение и ковариационную матрицу

(*)

где вектор коэффициентов регрессии, , i=1, . . ., п, j=1 ,. . ., k, матрица известных величин, связанных друг с другом, вообще говоря, произвольным образом, I единичная матрица n-го порядка; при этом . В более общем случае допускается корреляция между наблюдениями :

где матрица Аизвестна, но эта схема сводится к модели (*). Несмещенной оценкой b по методу наименьших квадратов является величина

а смещенной оценкой для s2 служит

Модель (*) является наиболее общей линейной моделью, поскольку она применима к различным регрессионным ситуациям и включает в себя все виды параболической регрессии Y по (в частности, рассмотренная выше параболич. регрессия Y по хпорядка тможет быть сведена к модели (*), в к-рой трегрессионных переменных функционально связаны). При таком линейном понимании Р. а. задача оценки р и вычисления ковариационной матрицы оценок сводится к задаче обращения матрицы .

Рейтинг статьи:
Комментарии:

Вопрос-ответ:

Ссылка для сайта или блога:
Ссылка для форума (bb-код):