Явление мультиколлинеарности встречается в моделях. Проблема мультиколлинеарности факторов в регрессионных моделях. Признаки стационарности стохастического процесса. Что такое «Белый шум»? с.100

После изучения данной главы студент должен: знать

  • основные проблемы, возникающие при нарушении предположения МНК об отсутствии мультиколлинеарности;
  • методы обнаружения и устранения мультиколлинеарности; уметь
  • выявлять нарушения классической предпосылки МИК - мультиколлинеарности;

владеть

  • методами выявления наличия нарушений предпосылок МИК;
  • методами устранения мультиколлинеарности.

Понятие мультиколлинеарности

Мультиколлинеарностью называется высокая степень коррелированное™ двух или нескольких объясняющих переменных в уравнении множественной регрессии. Крайним случаем мультиколлинеарности является линейная зависимость между объясняющими переменными. Считается, что две переменные X,- и X сильно коррелированы, если выборочный коэффициент корреляции двух объясняющих переменных г хх. >0,7.

Рассмотрим виды мультиколлинеарности.

1. Строгая мультиколлинеарность - наличие линейной функциональной связи между объясняющими переменными (иногда также линейная связь с зависимой переменной). Связь между объясняющими переменными - функциональная.

Строгая мультиколлинеарность не позволяет однозначно определить коэффициенты регрессии b t и bj и разделить вклады объясняющих переменных Xj и Xj в зависимую переменную У.

2. Нестрогая мультиколлинеарность - наличие сильной линейной корреляционной связи между объясняющими переменными (иногда также и зависимой переменной). При нестрогой мультиколлинеарности связь между объясняющими переменными корреляционная.

Сложность проблемы мультиколлинеарности состоит в следующем.

  • 1. Корреляционные связи есть всегда. Проблема мультиколлинеарности - сила проявления корреляционных связей.
  • 2. Однозначных критериев определения мультиколлинеарности не существует.
  • 3. Строгая мультиколлинеарность нарушает предпосылку 5 теоремы Гаусса - Маркова и делает построение регрессии невозможным (см. гл. 4, параграф 4.1), так как согласно теореме Кронекера - Капелли система уравнений имеет бесчисленное множество решений.
  • 4. Нестрогая мультиколлинеарность затрудняет работу, но не препятствует получению правильных выводов.

Поясним сказанное о проблеме мультиколлинеарности. Пусть имеется т объясняющих факторов Х { , Х 2 , ..., Х т. Матрица межфакторной корреляции состоит из парных коэффициентов корреляции и имеет вид

Парный коэффициент корреляции г х. х. определяется по формуле 1

Отметим, что так как r xx = 1, i = 1,2,..., т, и г х х. = г х х., то данная матрица является симметрической.

Если связь между факторами полностью отсутствует, то недиагональные элементы матрицы межфакторной корреляции будут равны нулю, а ее определитель будет равен единице: | R xx = 1.

Пример 7.1

Пусть имеется четыре объясняющие переменные Х ь Х->, Х 3 , Аф При отсутствии взаимной корреляции между переменными (> хх = 0) определитель матрицы межфакторной корреляции будет равен

Противоположный случай: если связь между факторами является очень тесной (практически функциональной), то определитель матрицы межфакторной корреляции будет равен нулю.

Пример 7.2

Имеется четыре объясняющие переменные X lt Х 2 , Х 3 , Х 4 , между всеми переменными сильная функциональная связь (г х. х. =1). Тогда

Вывод. Наличие мультиколлинеарности можно подтвердить, найдя определитель матрицы межфакторной корреляции. Если |R xx . | ~1, то мультиколлинеарность отсутствует, а если | Л |

Совершенная мультиколлинеарность - равенство определителя матрицы межфакторной корреляции нулю - проявляется скорее в теории, а практически между некоторыми объясняющими переменными существует очень сильная корреляционная зависимость г х. х > 0,7, а не функциональная г х. х =1.

Замечание 7.1. Существует истинная мультиколлинеарность при отсутствии зависимости между переменными, что показано в примере 7.3.

Пример 7.3

Имеется выборка из 10 групп наблюдений (табл. 7.1).

Таблица 7.1

Данные к примеру 7.3

В данной выборке существует строгая мультиколлинеарность при отсутствии зависимости между переменными: х, * f(xj), г *j.

Матрица парных коэффициентов корреляции

Определитель этой матрицы равен -0,003402, т.е. практически равен нулю. Это говорит о совершенной мультиколлинеарности в выборке. Коэффициенты парной корреляции.г| 2 и.г 23 очень высоки.

Полная матрица парных коэффициентов корреляции R yx . включает коэффициенты парной корреляции факторов с результатом г 1/х. и факторов между собой г х. х:


Отметим, что в случае мультиколлинеарности в модель регрессии включаются те факторы, которые более сильно связаны с зависимой переменной, но слабо связаны с другими факторами.

Причины возникновения мультиколлинеарности следующие:

  • 1) ошибочное включение в уравнение регрессии двух или более линейно зависимых объясняющих переменных;
  • 2) две (или более) объясняющие переменные, в нормальной ситуации слабо коррелированные, становятся в конкретной выборке сильно коррелированными;
  • 3) в модель включается объясняющая переменная, сильно коррелирующая с зависимой переменной (такая переменная называется доминантной).
  • 2 Термин коллинеарность характеризует линейную связь между двумя объясняющими переменными. Мультиколлинеарность означает линейную связь между более чем двумя объясняющими переменными. На практике всегда используется один термин - мультиколлинеарность.
  • В гл. 2 соответствующая формула - это формула (2.9).

ВОПРОСЫ НА ЭКЗАМЕН ПО КУРСУ

«ЭКОНОМЕТРИКА (продвинутый уровень)»

1. Модель множественной регрессии. Виды моделей множественной регрессии.

2. Матричная форма записи и матричная формула оценки параметров множественной регрессии.

3. Оценка качества уравнения регрессии. Объясненная и необъясненная составляющие уравнения регрессии.

4. Коэффициент детерминации и коэффициент корреляции, их расчет в модели парной регрессии.

5. Выборочный множественный коэффициент детерминации и проверка его значимости по -критерию Фишера.

6. Проверка значимости множественного уравнения регрессии с помощью -критерия Фишера.

Значимость уравнения регрессии, т.е. соответствие эконометрической модели Y = a ˆ0 + a ˆ 1X + e фактическим (эмпирическим) данным, позволяет ус-

тановить, пригодно ли уравнение регрессии для практического использования (для анализа и прогноза), или нет.

Для проверки значимости уравнения используется F - критерий Фишера. Он вычисляется по фактическим данным как отношение несмещенной

дисперсии остаточной компоненты к дисперсии исходного ряда. Проверка значимости коэффициента детерминации осуществляется с помощью -критерия Фишера, расчетное значение которого находится по формуле:

,

где коэффициент множественной корреляции, – количество наблюдений, - количество переменных, – диагональный элемент матрицы .

Для проверки гипотезы по таблице определяют табличное значение

критерия Фишера F .

F(α ν1 ν2) – это максимально возможное значение критерия в зависимости от влияния случайных факторов при данных степенях свободы

ν = m1 , ν2 = n m −1, и уровне значимости α . Здесь m – количество аргументов в модели.

Уровень значимости α – вероятность отвергнуть правильную гипотезу, но при условии, что она верна (ошибка первого рода). Обычно α принимается равной 0,05 или 0,01.

Если F ф> F табл, то H0 – гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если наоборт, то гипотеза H0 не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.

7. Оценка значимости линейных коэффициентов корреляции. -критерий Стьюдента.

Для оценки статистической значимости коэффициентов регрессии и коэффициента корреляции рассчитывается t-критерий Стьюдента. Выдвигается гипотеза H 0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Наблюдаемые значения t-критерия рассчитываются по формулам:

, , ,

где – случайные ошибки параметров линейной регрессии и коэффициента корреляции.


Для линейной парной регрессии выполняется равенство , поэтому проверки гипотез о значимости коэффициента регрессии при факторе и коэффициента корреляции равносильны проверке гипотезы о статистической значимости уравнения регрессии в целом.

Вообще, случайные ошибки рассчитываются по формулам:

, , .

где – остаточная дисперсия на одну степень свободы:

.

Табличное (критическое) значение t-статистики находят по таблицам распределения t-Стьюдента при уровне значимости α = 0,05 и числе степеней свободы . Если t табл < t факт, то H 0 отклоняется, т.е. коэффициенты регрессии не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора.

8. Анализ влияния факторов на основе многофакторных регрессионных моделей: коэффициент эластичности ; бета-коэффициент и дельта-коэффициент .

9. Способы расчета параметров , , производственной функции Кобба-Дугласа.

10. Регрессионные уравнения с переменной структурой. Фиктивные переменные. Виды фиктивных переменных. Преимущества использования фиктивных переменных при построении регрессионных моделей.

11. Использование фиктивных переменных для исследования структурных изменений. Моделирование сезонности. Количество бинарных переменных при k градациях.

Понятие мультиколлинеарности. Методы обнаружения и устранения мультиколлинеарности.

Количественная оценка параметров уравнения регрессии предполагает выполнение условия линейной независимости между независимыми переменными. Однако на практике объясняющие переменные часто имеют высокую степень взаимосвязи между собой, что является нарушением указанного условия. Данное явление носит название мультиколлинеарности.

Термин коллинеарность (collinear ) обозначает линейную корреляцию между двумя независимыми переменными, а Мультиколлинеарность (multi-collinear ) – между более чем двумя независимыми переменными. Обыкновенно под мультиколлинеарностью понимают оба случая.

Таким образом, мультиколлинеарность означает наличие тесной линейной зависимости или сильной корреляции между двумя или более объясняющими (независимыми) переменными. Одной из задач эконометрии является выявление мультиколлинеарности между независимыми переменными.

Различают совершенную и несовершенную мультиколлинеарность. Совершенная мультиколлинеарность означает, что вариация одной из независимых переменных может быть полностью объяснена изменением другой (других) переменной.

Иначе, взаимосвязь между ними выражается линейной функцией

Графическая интерпретация данного случая:

Несовершенная мультиколлинеарность может быть определена как линейная функциональная связь между двумя или более независимыми переменными, которая настолько сильна, что может существенно затронуть оценки коэффициентов при переменных в модели.

Несовершенная мультиколлинеарность возникает тогда, когда две (или более) независимые переменные находятся между собой в линейной функциональной зависимости, описываемой уравнением

В отличие от ранее рассмотренного уравнения, данное включает величину стохастической ошибки . Это предполагает, что несмотря на то, что взаимосвязь между и может быть весьма сильной, она не настолько сильна, чтобы полностью объяснить изменение переменной изменением , т.е. существует некоторая необъяснимая вариация.

Графически данный случай представлен следующим образом:


В каких же случаях может возникнуть мультиколлинеарность? Их, по крайней мере, два.

1. Имеет место глобальная тенденция одновременного изменения экономических показателей. В качестве примера можно привести такие показатели как объем производства, доход, потребление, накопление, занятость, инвестиции и т.п., значения которых возрастают в период экономического роста и снижаются в период спада.

Одной из причин мультиколлинеарности является наличие тренда (тенденции) в динамике экономических показателей.

2. Использование лаговых значений переменных в экономических моделях.

В качестве примера можно рассматривать модели, в которых используются как величины дохода текущего периода, так и затраты на потребление предыдущего.

В целом при исследовании экономических процессов и явлений методами эконометрии очень трудно избежать зависимости между показателями.

Последствия мультиколлинеарности сводятся к

1. снижению точности оценивания, которая проявляется через

a. слишком большие ошибки некоторых оценок,

b. высокую степень корреляции между ошибками,

c. Резкое увеличение дисперсии оценок параметров. Данное проявление мультиколлинеарности может также отразиться на получении неожиданного знака при оценках параметров;

2. незначимости оценок параметров некоторых переменных модели благодаря, в первую очередь, наличию их взаимосвязи с другими переменными, а не из-за того, что они не влияют на зависимую переменную. То есть -статистика параметров модели не отвечает уровню значимости ( -критерий Стьюдента не выдерживает проверки на адекватность);

3. сильному повышению чувствительности оценок параметров к размерам совокупности наблюдений. То есть увеличение числа наблюдений существенно может повлиять на величины оценок параметров модели;

4. увеличению доверительных интервалов;

5. повышению чувствительности оценок к изменению спецификации модели (например, к добавлению в модель или исключению из модели переменных, даже несущественно влияющих).

Признаки мультиколлинеарности:

1. когда среди парных коэффициентов корреляции

между объясняющими (независимыми) переменными есть такие, уровень которых либо приближается, либо равен коэффициенту множественной корреляции.

Если в модели более двух независимых переменных, то необходимо более детальное исследование взаимосвязей между переменными. Данная процедура может быть осуществлена с помощью алгоритма Фаррара-Глобера;

2. когда определитель матрицы коэффициентов парной корреляции между независимыми переменными приближается к нулю:

если , то имеет место полная мультиколлинеарность,

если , то мультиколлинеарность отсутствует;

3. если в модели найдено маленькое значение параметра при высоком уровне коэффициента частной детерминации и при этом -критерий существенно отличается от нуля;

0

Министерство образования и науки Российской Федерации

Федеральное государственное бюджетное образовательное учреждение

высшего образования

ТВЕРСКОЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

Кафедра «Бухгалтерский учет и финансы»

КУРСОВОЙ ПРОЕКТ
по дисциплине «Эконометрика»

“Исследование мультиколлинеарности в эконометрических моделях: исключение переменной (ых) из модели”

Руководитель работы:

канд. тех. наук, доцент

Коновалова

Исполнитель:

студент группы ЭК-1315 ЭПО

Тверь, 2015

Введение…………………………………………………………………………...3

1.Аналитическая часть……………………………………………………………4

1.1. Обобщенные признаки мультиколлинеарности в эконометрических моделях…………………………………………………………………………….4

1.2. Основные способы устранения мультиколлинеарности в эконометрических моделях…………..…………………………………………..7

2.Проектная часть………………………………………………………………..11

2.1. Информационно-методическое обеспечение эконометрического исследования………………………………………………………………….11

2.2. Пример эконометрического исследования…………………………….17

Заключение ……………………………………………………………………....30

Список использованных источников…………………………………………...31

Введение

Актуальность темы работы “Исследование мультиколлинеарности в эконометрических моделях: исключение переменной (ых) из модели” обусловлена тем, что в наше время данная проблема часто встречается в прикладных эконометрических моделях.

Предмет исследования - проблема мультиколлинеарности. Объектом исследования выступают эконометрические модели.

Основная цель работы - разработка проектных решений по информационно-методическому обеспечению эконометрического исследования.

Для достижения цели поставлены и решены следующие основные задачи исследования:

  1. Обобщение признаков мультиколлинеарности в эконометрических моделях.
  2. Выявление основных способов устранения мультиколлинеарности.

3.Разработка информационно-методического обеспечения эконометрического исследования.

  1. Аналитическая часть

1.1. Обобщенные признаки мультиколлинеарности в эконометрических моделях

Мультиколлинеарность — в эконометрике (регрессионный анализ) — наличие линейной зависимости между объясняющими переменными (факторами) регрессионной модели. При этом различают полную коллинеарность , которая означает наличие функциональной (тождественной) линейной зависимости, и частичную или просто мультиколлинеарность — наличие сильной корреляции между факторами .

Полная коллинеарность приводит к неопределенности параметров в линейной регрессиионной модели независимо от методов оценки. Рассмотрим это на примере следующей линейной модели:

Пусть факторы этой модели тождественно связаны следующим образом: . Тогда рассмотрим исходную линейную модель, в которой к первому коэффициенту добавим произвольное число a , а из двух других коэффициентов это же число вычтем. Тогда имеем (без случайной ошибки):

Таким образом, несмотря на относительно произвольное изменение коэффициентов модели получается та же модель. Такая модель принципиально неидентифицируема. Неопределенность существует уже в самой модели. Если рассмотреть 3-мерное пространство коэффициентов, то в этом пространстве вектор истинных коэффициентов в данном случае не единственный, а представляет собой целую прямую линию. Любая точка этой прямой — истинный вектор коэффициентов .

Если полная коллинеарность приводит к неопределенности значений параметров, то частичная мультиколлинеарность приводит к неустойчивости их оценок . Неустойчивость выражается в увеличении статистической неопределенности — дисперсии оценок. Это означает, что конкретные результаты оценки могут сильно различаться для разных выборок несмотря на то, что выборки однородны.

Как известно ковариационная матрица оценок параметров множественной регрессии методом наименьших квадратов равна. Тем самым чем «меньше» ковариационная матрица (ее определитель), тем «больше» ковариационная матрица оценок параметров, и, в частности, больше диагональные элементы этой матрицы, то есть дисперсии оценок параметров. Для большей наглядности рассмотрим на примере двухфакторной модели:

Тогда дисперсия оценки параметра, например, при первом факторе равна:

где — выборочный коэффициент корреляции между факторами.

Здесь наглядно видно, что чем больше по модулю корреляция между факторами, тем больше дисперсия оценок параметров. При (полная коллинеарность) дисперсия стремится к бесконечности, что соответствует сказанному ранее.

Таким образом, оценки параметров получаются неточными, а значит сложно будет дать интерпретацию влияния тех или иных факторов на объясняемую переменную. При этом на качество модели в целом мультиколлинеарность не сказывается — она может признаваться статистически значимой, даже тогда, когда все коэффициенты незначимы (это один из признаков мультиколлинеарности).

В линейных моделях коэффициенты корреляции между параметрами могут быть положительными и отрицательными. В первом случае увеличение одного параметра сопровождается увеличением и другого параметра. Во втором случае при повышении одного параметра происходит снижение другого.

Исходя из этого, можно установить допустимую и недопустимую мультиколлинеарность. Недопустимая мультиколлинеарность будет тогда, когда между факторами 1 и 2 существует значительная положительная корреляция и при этом влияние каждого фактора на корреляционную связь с функцией у однонаправленное, то есть увеличение обоих факторов 1 и 2 ведёт к увеличению или снижению функции у . Другими словами, оба фактора действуют на функцию у одинаково, и значительная положительная корреляции между ними может позволить исключить один из них.

Допустимая мультиколлинеарность такова, при которой факторы действуют на функцию у неодинаково. Здесь возможны два случая:

а) при значительной положительной корреляции между факторами влияние каждого фактора на корреляционную связь с функцией у разнонаправленное, т.е. увеличение одного фактора ведёт к росту функции, а увеличение другого фактора приводит к уменьшению функции у.

б) при значительной отрицательной корреляции между факторами увеличение одного фактора сопровождается уменьшением другого фактора и это делает факторы разнозначными, поэтому возможен любой знак влияния факторов на функцию у .

На практике выделяют некоторые наиболее характерные признаки мультиколлинеарности.: 1. Небольшое изменение исходных данных (например, добавление новых наблюдений) приводит к существенному изменению оценок коэффициентов модели. 2. Оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (высокое значение коэффициента детерминации R 2 и соответствующей F-статистики). 3. Оценки коэффициентов имеют неправильные с точки зрения теории знаки или неоправданно большие значения.

Косвенными признаками мультиколлинеарности являются высокие стандартные ошибки оценок параметров модели, малые t-статистики (то есть незначимость коэффициентов), неправильные знаки оценок, при том, что модель в целом признается статистически значимой (большое значение F-статистики). О мультиколлинеарности также может свидетельствовать сильное изменение оценок параметров от добавления (или удаления) выборочных данных (если соблюдены требования достаточной однородности выборки).

Для обнаружения мультиколлинеарности факторов можно проанализировать непосредственно корреляционную матрицу факторов. Уже наличие больших по модулю (выше 0,7-0,8) значений коэффициентов парной корреляции свидетельствует о возможных проблемах с качеством получаемых оценок.

Однако, анализ парных коэффициентов корреляции недостаточен. Необходимо проанализировать коэффициенты детерминации регрессий факторов на остальные факторы (). Рекомендуется рассчитывать показатель. Слишком высокие значения последнего означают наличие мультиколлинеарности.

Таким образом, главные критерии обнаружения мультиколлинеарности заключаются в следующем: высокий R 2 при всех незначимых коэффициентах,высокие парные коэффициенты корреляции,высокие значения коэффициента VIF .

1.2. Основные способы устранения мультиколлинеарности в эконометрических моделях

Прежде чем указать основные методы устранения мультиколлинеарности, отметим, что в ряде случаев мультиколлинеарность не является серьёзной проблемой, предполагающей существенные усилия по ее выявлению и устранению. В основном всё зависит от целей исследования.

Если основная задача модели - прогноз будущих значений регрессанда, то при достаточно большом коэффициенте детерминации R2 (> 0,9) наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели. Хотя это утверждение будет обоснованным лишь в том случае, что и в будущем между коррелированными регрессорами будут сохраняться те же отношения, что и ранее. Если же целью исследования является определение степени влияния каждого из регрессоров на регрессанд, то наличие мультиколлинеарности, приводящее к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между регрессорами. В этой ситуации мультиколлинеарность является серьезной проблемой.

Отметим, что единого метода устранения мультиколлинеарности, годного в любом случае, не существует. Это связано с тем, что причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки .

На практике выделяют основные методы устранения мультиколлинеарности:

  1. Исключение регрессоров из модели простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных регрессоров. Однако необходима определенная осмотрительность при применении данного метода. В этой ситуации возможны ошибки спецификации. Например, при исследовании спроса на некоторое благо в качестве объясняющих переменных можно использовать цену данного блага и цены заменителей данного блага, которые зачастую коррелируют друг с другом. Исключив из модели цены заменителей, мы, скорее всего, допустим ошибку спецификации. Вследствие этого можно получить смещенные оценки и сделать необоснованные выводы. Таким образом, в прикладных эконометрических моделях желательно не исключать регрессоры до тех пор, пока их коллинеарность не станет серьезной проблемой.
  2. Получение дополнительных данных или новой выборки поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности вообще не будет либо она не будет столь серьезной. Иногда для уменьшения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Увеличение количества данных сокращает дисперсии коэффициентов регрессии и тем самым увеличивает их статистическую значимость. Однако получение новой выборки или расширение старой не всегда возможно или связано с серьезными издержками. Кроме того, такой подход может усилить автокорреляцию. Эти проблемы ограничивают возможность использования данного метода.

III. Изменение спецификации модели В ряде случаев проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются новые регрессоры, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную. Если данный метод имеет основания, то его использование уменьшает сумму квадратов отклонений, тем самым, сокращая стандартную ошибку регрессии. Это приводит к уменьшению стандартных ошибок коэффициентов.

  1. Преобразование переменных в ряде случаев минимизировать либо вообще устранить проблему мультиколлинеарности можно только с помощью преобразования переменных. Исходные данные в каждом наблюдении делятся на значения одного из зависимых регрессоров в данном наблюдении. Применение метода главных компонент к факторам модели позволяет преобразовать исходные факторы и получить совокупность ортогональных (некоррелированных) факторов. При этом наличие мультиколлинеарности позволит ограничиться небольшим количеством главных компонент. Тем не менее, может возникнуть проблема содержательной интерпретации главных компонент .

Если по всем признакам имеется мультиколлинеарность, то среди эконометристов есть разные мнения на этот счет. При столкновении с проблемой мультиколлинеарности может возникнуть естественное желание отбросить «лишние» независимые переменные, которые, возможно, служат ее причиной. Однако следует помнить, что при этом могут возникнуть новые трудности. Во-первых, далеко не всегда ясно, какие переменные являются лишними в указанном смысле.

Мультиколлинеарность означает лишь приблизительную линейную зависимость между факторами, но это не всегда выделяет «лишние» переменные. Во-вторых, во многих ситуациях удаление каких-либо независимых переменных может значительно отразиться на содержательном смысле модели. Наконец, отбрасывание так называемых существенных переменных, т.е. независимых переменных, которые реально влияют на изучаемую зависимую переменную, приводит к смещению коэффициентов модели. На практике, обычно при обнаружении мультиколлинеарности убирают наименее значимый для анализа фактор, а затем повторяют расчеты.

Таким образом, на практике выделяют основные методы устранения мультиколлинеарности: изменение или увеличение выборки, исключение одной из переменной, преобразование мультиколлинеарных переменных (использовать нелинейные формы, использовать агрегаты (линейные комбинации нескольких переменных), использовать первые разности вместо самих переменных. Однако если мультиколлинеарность не устраняется, можно её игнорировать с учетом целесообразие исключения.

  1. Проектная часть

2.1. Информационно-методическое обеспечение эконометрического исследования

Информационное обеспечение эконометрического исследования включает следующие сведения:

Входные сведения:

  • статистические данные по социально-экономическому показателю, определяемому как зависимая переменная (факторы - результата);
  • статистические данные по социально-экономическим показателям, определяемым как объясняющие переменные (факторы - признака);

Промежуточные сведения:

  • модель уравнения регрессии, оцененное уравнение регрессии, показатели качества и заключение о качестве уравнения регрессии, заключение о наличии (отсутствии) проблемы мультиколлинеарности, рекомендации по применению модели;

Результативные сведения:

  • оцененное уравнение регрессии, заключение о качестве уравнения регрессии, заключение о наличии (отсутствии) проблемы мультиколлинеарности, рекомендации по применению модели.

Методика эконометрического исследования заключается в следующем: спецификация; параметризация, верификация, дополнительное исследование, прогнозирование.

1.Спецификация модели уравнения регрессии включает в себя графический анализ корреляционной зависимости зависимой переменной от каждой объясняющей переменной. По результатам графического анализа делается заключение о модели уравнения регрессии линейного или нелинейного видов. Для проведения графического анализа чаще всего рекомендуют использовать инструмент «Точечная диаграмма» MsExcel. В результате этого этапа определяется модель уравнения регрессии, причем в случае нелинейного вида также определяются способы ее линеаризации.

2.Параметризация уравнения регрессии включает в себя оценку параметров регрессии и их социально-экономическую интерпретацию. Для параметризации используют инструмент «Регрессия» в составе надстроек «Анализ данных» MsExcel. По результатам автоматизированного регрессионного анализа (столбец «Коэффициенты») определяются параметры регрессии, также дается их интерпретация согласно типовому правилу:

Bj представляет собой величину, на которую в среднем изменяется значение переменной Y при увеличении независимой переменной Xj на единицу при прочих равных условиях.

Свободный член уравнения регрессии равен предсказанному значению зависимой переменной Y в случае, когда все независимые переменные равны нулю.

3.Верификация уравнения регрессии проводится на основе результатов автоматизированного регрессионного анализа (этап 2) по следующим показателям: «R-квадрат», «Значимость F», «P-значение» (по каждому параметру регрессии), а также по графикам подбора и остатков.

Определяется значимость коэффициентов и оценивается качество модели. Для этого рассматривается “Значимость F”, “P-Значение” и “R-квадрат”. Если “P-значение” меньше статического уравнения значимости, то это говорит о значимости коэффициента. Если “R-квадрат” больше 0.6, то это означает, модель регрессии хорошо описывает поведение зависимой переменной Y от факторов переменных.

Если “Значимость F” меньше статического уравнения значимости, то коэффициент детерминации(R-квадрат) признается условно статистически значимым.

График остатков позволяет оценить вариации ошибок. Если нет особых различий между ошибками, соответствующими разным значениям Xi, то есть вариации ошибок при разных значениях Хi приблизительно одинаковы и можно предположить, отсутствие проблем. График подбора позволяет сформировать суждения о базисном, предсказанных и факторных значений.

В заключение формируется суждение о качестве уравнения регрессии.

  1. Дополнительное исследование.

4.1.Обнаружение первого признака мультиколлинеарности. На основе полученных в п.2-3 результатов регрессионного анализа проверяется ситуации, при которой коэффициент детерминации имеет высокое значение (R 2 >0.7) и статически значим (Значимость F <0,05), и хотя бы один из коэффициентов регрессии не может быть признан статистически значим (P-значение >0,05).При обнаружении, такой ситуации, делается вывод о предположении мультиколлинеарности.

4.2.Обнаружение второго признака мультиколлинеарности. На основе расчетов коэффициентов корреляции между факторными переменными определяется существенная взаимосвязь отдельных факторов. Для расчетов в MS Excel, целесообразно использовать инструмент “Анализ данных / Корреляция”. По значениям коэффициента кореляции делаются выводы: чем ближе (r) к крайним точкам (±1), тем больше степень линейной связи, если коэффициент корреляции меньше 0,5, то считается, что связь слабая. Наличие мультиколлинеарности предполагается в следующем случае, если хотя бы между двумя переменными имеется существенный коэффициент корреляции (т.е. больше 0,7 по модулю).

4.3.Обнаружение третьего признака мультиколлинеарности. На основе оценки вспомогательных регрессий между факторными переменными, причём между переменными где имеется существенный коэффициент корреляции (п.4.2), делается вывод о наличии мультиколлинеарности, если хотя бы в одной вспомогательной регрессии является существенным и значимым. Метод дополнительных регрессий коэффициента детерминации заключается в следующем: 1) cтроятся уравнения регрессии, которые связывают каждый из регрессоров со всеми оставшимися; 2) вычисляются коэффициенты детерминации R 2 для каждого уравнения регрессии; 3) если уравнение и коэффициент детерминации признаётся статистически значимым, значит данный регрессор приводит к мультиколлинеарности.

4.4.Обобщение суждений.

На основе п.4.1-4.3 формируется суждение о наличии / отсутствии мультиколлинеарности и регрессоров, приводящих к мультиколлинеарности.

Далее формируется направления использования модели (в случае игнорирования или отсутствие проблемы мультиколлинеарности) или рекомендации по устранению мультиколлинеарности (на практике, исключение переменной).

При исключении переменной целесообразно использовать правило:

Определяется коэффициент детерминации для первоначально построенного по n наблюдениям уравнения регрессии (R 2 1);

Исключением из рассмотрения (k) последних переменных формируется уравнение для оставшихся факторов по первоначальным n наблюдениям и определяется для него коэффициент детерминации (R 2 2);

Рассчитывается F-статистика: где (R 1 2 -R 2 2)- потеря уравнения в качества результате отбрасывания к переменных, (K) - число дополнительно появившихся степеней свободы, (1- R 1 2)/(n-m-l) - необъясненная дисперсия первоначального уравнения;

Определяется критическое значение F a ,k ,n- m -1 по таблицам критических точек распределения Фишера при заданном уровне значимости а и степенях свободы v 1 =k, v 2 =n-m-l;

Формируется суждения о целесообразности исключении по правилу: исключение (одновременное) из уравнения k переменных считается нецелесообразным при F > F a , k , n- m - 1 , в противном случае - такое исключение допустимо.

При устранении переменной, получаемая модель анализируется согласно, п.п.3-4; и сравнивается с исходной моделью, в результате выбирается «лучшая». На практике, так как мультиколлинеарность не влияет на прогнозные качества модели, эта проблема может игнорироваться.

5.Прогнозирование проводится по исходной/«лучшей» модели, выбранной в пункте 4.4, по схеме ретроспективного прогноза, при котором для прогноза используется последняя 1/3 наблюдений.

5.1. Точечный прогноз. Фактические значения факторных переменных в прогнозном периоде считаются предсказанными, прогнозные значения результативной переменной определяются как предсказанные по исходной/«лучшей» модели на основе факторных переменных в прогнозном периоде. С помощью инструмента Microsoft Excel «График» строится график фактических и предсказанных згачений результативной переменной по наблюдениям и делается вывод о близости фактических значений к прогнозным.

5.2. Интервальный прогноз предполагает расчет стандартных ошибок предсказания (с помощью фиктивных переменных Салкевера) и верхних и нижних границ прогнозных значений.

С помощью инструмента Microsoft Excel «Анализ данных/Регрессия» строится регрессия для совокупного набора данных выборки и прогнозного периода, но с добавлением фиктивных переменных D 1 , D 2 , ..., D p . При этом D i = 1 только для момента наблюдения (n + i), для всех других моментов D i =0. Тогда коэффициент при фиктивной переменной D i равен ошибке предсказания в момент (n + i), а стандартная ошибка коэффициента равна стандартной ошибке предсказания (S i). Так, проводится автоматизированный регрессионный анализ модели, где в качестве значений X используются совокупные (выборочные и прогнозные) значения факторных переменных и значения фиктивных переменных Салкевера, в качестве значений Y - совокупные (выборочные и прогнозные) значения результативной переменной.

Полученные стандартные ошибки коэффициентов при фиктивных переменных Салкевера равны стандартным ошибкам предсказания. Тогда границы интервального прогноза рассчитываются по следующим формулам: Ymin n + i =Yэмп n + i -S i *t кр, Ymax n + i =Yэмп n + i +S i *t кр, где t кр - критическое значение распределения Стьюдента, определяемое по формуле « =СТЬЮРАСПОБР(0,05; n-m-1)», m- количество объясняющих факторов в модели (Y * t), Yэмп n + i - прогнозные значения результативной переменной (п.5.1).

С помощью инструмента Microsoft Excel «График» строится график по фактическим и предсказанным значениям результативной переменной, верхним и нижним границам прогноза по наблюдениям. Делается вывод о вписываемости фактических значений результативной переменной в границы интервального прогноза.

5.3. Оценка устойчивости модели с помощью теста ЧОУ проводится следующим образом:

а) с помощью инструмента Microsoft Excel «Анализ данных/Регрессия» строится регрессия, где в качестве значений X принимаются совокупные (выборочные и прогнозные) значения факторных переменных, а в качестве значений Y - совокупные (выборочные и прогнозные) значения результативной переменной. По данной регрессии определяется сумма квадратов остатков S;

б) по регрессии п.5.2 с фиктивными переменными Салкевера определяется сумма квадратов остатков Sd;

в) рассчитывается и оценивается значение Fстатистики по формуле:

где p- количество прогнозных шагов. Если полученное значение больше критического значения F кр, определяемого по формуле «=FРАСПОБР(0,05; p; n-m-1)», тогда гипотеза о стабильности модели в прогнозном периоде отклоняется, в противном случае - принимается.

5.4.Обобщение суждений о прогнозных качествах модели на основе п.5.1-5.3, в результате формируется заключение о прогнозном качестве модели и рекомендации по применению модели для прогнозирования.

Так, разработанное информационно-методическое обеспечение соответствует основным задачам эконометрического исследования проблемы мультиколлинеарности в моделях множественной регрессии.

2.2. Пример эконометрического исследования

Исследование проводится на основе данных, отражающих реальные макроэкономические показатели РФ за период 2003-2011 г.г. (табл. 1), согласно методике п.2.1.

Таблица 1

Расходы дом. хозяйств (млрд.руб)[Y]

Численность населения (млн. чел)

Денежная масса (млрд.руб.)

Уровень безработицы (%)

1.Спецификация модели уравнения регрессии включает графический анализ корреляционной зависимости зависимой переменной Y (Расходы дом. хозяйств от объясняющей переменной X 1 (Численность населения) (рис. 1), корреляционной зависимости зависимой переменной Y (Расходы дом. хозяйств от объясняющей переменной X 2 (Денежная масса) (рис. 2), корреляционной зависимости зависимой переменной Y (Расходы дом. хозяйств от объясняющей переменной X 3 (Уровень безработицы) (рис. 3).

График корреляционной зависимости между Y и X 1 , представленный на рисунке 1, отражает существенную (R 2 =0,71) обратную линейную зависимость Y от X 1 .

График корреляционной зависимости между Y и X 2 , представленный на рисунке 2, отражает существенную (R 2 =0,98) прямую линейную зависимость Y от X 2 .

График корреляционной зависимости между Y и X 3 , представленный на рисунке 3, отражает несущественную (R 2 =0,15) обратную линейную зависимость Y от X 3 .

Рисунок 1

Рисунок 2

Рисунок 3

В результате можно специфицировать модель линейной множественной регрессии Y=b 0 +b 1 X 1 +b 2 X 2 + b 3 X 3 .

2.Параметризация уравнения регрессии проводится с использованием инструмента «Регрессия» в составе надстроек «Анализ данных» MsExcel (рис. 4).

Рисунок 4

Оцененное уравнение регрессии имеет вид:

233983,8- 1605,6Х 1 + 1,0Х 2 + 396,22X 3 .

При этом коэффициенты регрессии интерпретируются следующим образом: при увеличении численности населения на 1 млн. чел расходы дом. хозяйств уменьшаются на 1605,6 млрд. руб.; при увеличении денежной массы на 1 млрд.руб. расходы дом. хозяйств увеличатся на 1,0 млрд.руб.; при увеличении уровня безработицы на 1%, расходы дом. хозяйств будут увеличиваться на 396,2 млрд.руб. При нулевых значениях факторных переменных расходы дом. хозяйств составят 233983,8 млрд.руб, что, возможно, не имеет экономической интерпретации.

3.Верификация уравнения регрессии проводится на основе результатов автоматизированного регрессионного анализа (этап 2).

Так, «R-квадрат» равен 0,998, т.е. уравнение регрессии описывает поведение зависимой переменной на 99%, что говорит о высоком уровне описания уравнения. «Значимость F» равна 2,14774253442155E-07, что говорит о том, что «R-квадрат» значим. «Р-Значение» для b 0 равно 0,002, что говорит о том, что данный параметр значим. «Р-Значение» для b 1 равно 0,002, что говорит о том, что данный коэффициент значим. «Р-Значение» для b 2 равно 8,29103190343224E-07, что говорит о том, что данный коэффициент значим. «Р-Значение» для b 3 равно 0,084, что говорит о том, что данный коэффициент не значим.

На основе графиков остатков остатки е представляют собой случайные величины.

На основе графиков подбора делается заключение о близости фактических и предсказанных значений по модели.

Так, модель имеет хорошее качество, при этом b 3 не значим, поэтому можно предположить наличие мультиколлинеарности.

4.Дополнительное исследование.

4.1. Обнаружение первого признака мультиколлинеарности. По данным регрессионного анализа (рисунка 5) можно сказать, что имеется первый признак мультиколлинеарности, так как выявляется высокий и значимый R 2 , выявлено, что уравнение имеет высокий коэффициент детерминации, а также один из коэффициентов не значимый. Это позволяет предположить наличие мультиколлинеарности.

4.2.Обнаружение второго признака мультиколлинеарности.

На основе расчетов коэффициентов корреляции между факторными переменными определяется существенная взаимосвязь отдельных факторов. (табл.2). Наличие мультиколлинеарности предполагается в следующем случае, если хотя бы между двумя переменными имеется существенный коэффициент корреляции (т.е. больше 0,5 по модулю).

Таблица 2

[ X2]

[ X3]

[ X2]

[ X3]

В нашем случае существует коэффициент корреляции между Х 1 и Х 2 (-0,788), что говорит о сильной зависимости между переменными X 1, X 2 , так же существует коэффициент корреляции между Х 1 и Х 3 (0,54), что говорит о сильной зависимости между переменными X 1, X 3.

В результате можно предположить наличие мультиколлинеарности.

4.3.Обнаружение третьего признака мультиколлинеарности.

Так как в п.4.2 обнаружена сильная зависимость между переменными X 1 и X 2 , далее анализируется вспомогательная регрессия между этими переменными (рис. 5).

Рисунок 5

Так как «Значимость F» равна 0,01, что говорит о том, что «R-квадрат» и вспомогательная регрессия значимы, поэтому можно предположить, что регрессор X 2 приводит к мультиколлинеарности.

Так как в п.4.2 обнаружена выше среднего уровня зависимость между переменными X 1 и X 3 , далее анализируется вспомогательная регрессия между этими переменными (рис. 6).

Рисунок 6

Так как «Значимость F» равна 0,13, что говорит о том, что «R-квадрат» и вспомогательная регрессия не значимы, поэтому можно предположить, что регрессор X 3 не приводит к мультиколлинеарности.

Так, согласно третьему признаку, можно предположить наличие мультиколлинеарности.

4.4.Обобщение суждений.

По данным анализа п.4.1-4.3, обнаружены все три признака мультиколлинеарности, поэтому ее можно предположить с высокой вероятностью. При этом несмотря на предположение в п.4.3 относительно регрессора, приводящего к мультиколлинеарности, можно рекомендовать исключение X 3 из исходной модели, т.к. X 3 имеет наименьший коэффициент корреляции с Y и коэффициент при этом регрессоре является незначимым в исходном уравнении. Результаты регрессионного анализа после исключения X 3 представлены на рис. 7.

Рисунок 7

При этом рассчитаем F - статистику для проверки целесообразности исключения:

F факт = 4,62,

причем F табл = F 0,05;1;5 = 6,61, так как F факт < F табл, то исключение допустимо для переменной X 3 .

Оценка качества модели линейной множественной регрессии Y=b 0 +b 1 X 1 +b 2 X 2 . «R-квадрат» равен 0,996, т.е. уравнение регрессии описывает поведение зависимой переменной на 99%, что говорит о высоком уровне описания уравнения. «Значимость F» равна 3,02415218982089E-08, что говорит о том, что «R-квадрат» значим. «Р-Значение» для b 0 равно 0,004, что говорит о том, что данный параметр значим.«Р-Значение» для b 1 равно 0,005, что говорит о том, что данный коэффициент значим. «Р-Значение» для b 2 равно 3,87838361673427E-07, что говорит о том, что данный коэффициент значим. Оцененное уравнение регрессии имеет вид:

201511,7 -1359,6Х 1 + 1,01Х 2

При этом коэффициенты регрессии интерпретируются следующим образом: при уменьшении численности населения на 1 млн. чел расходы дом. хозяйств уменьшаются на 1359,6 млрд. руб.; при увеличении уровня денежной массы, расходы дом. хозяйств увеличатся на 1,0) (млрд.руб). При нулевых значениях факторных переменных расходы дом. хозяйств составят 201511,7 млрд.руб, что, возможно, имеется экономическая интерпретация.

Так, модель = 201511,7 -1359,6Х 1 + 1,01Х 2 имеет хорошее качество и рекомендуется для прогнозирования в качестве «лучшей» в сравнении с исходной моделью.

5.Прогнозирование.

5.1.Точечный прогноз. Фактические значения факторных переменных в прогнозном периоде считаются предсказанными, прогнозные значения результативной переменной определяются как предсказанные по «лучшей» модели (= 201511,7 -1359,6Х 1 + 1,01Х 2) на основе факторных переменных в прогнозном периоде. С помощью инструмента Microsoft Excel «График» строится график фактических и предсказанных згачений результативной переменной по наблюдениям и делается вывод о близости фактических значений к прогнозным.

Прогнозные значения факторных переменных представлены в табл.3.

Таблица 3

Прогнозные значения результативной переменной определяются как предсказанные по «лучшей» модели (= 201511,7 -1359,6Х 1 + 1,01Х 2) на основе факторных переменных в прогнозном периоде. Прогнозные значения представлены в табл.4, для сравнения добавляются фактические значения.

Таблица 4

[Y] эмпирическое

На рис.8 представлены фактические и прогнозные значения результативной переменной, а также нижние и верхние границы прогноза.

Рисунок 8

Согласно рис.8, прогноз сохраняет возрастающую тенденцию, а также все прогнозные значения близки к фактическим.

5.2. Интервальный прогноз.

С помощью инструмента Microsoft Excel «Анализ данных/Регрессия» строится регрессия для совокупного набора данных выборки и прогнозного периода, но с добавлением фиктивных переменных D 1 , D 2 , ..., D p . При этом D i = 1 только для момента наблюдения (n + i), для всех других моментов D i =0. Данные представлены в табл.5, результат регрессии на рис.9.

Таблица 5

[Y]сов

Рисунок 9

Тогда стандартная ошибка коэффициента при фиктивной переменной равна стандартной ошибке предсказания (S i): для 2012 года составит 738,5; для 2013 года составит 897,1; для 2014 года составит 1139,4.

Границы интервального прогноза рассчитываются в табл.6.

Таблица 6

[Y] эмпирическое

[Y]сов

[S] пр

По данным табл. 6 с помощью инструмента Microsoft Excel «График» строится график по фактическим и предсказанным значениям результативной переменной, верхним и нижним границам прогноза по наблюдениям (рис.10).

Рисунок 10

Согласно графику, прогнозные значения вписываются в границы интервального прогноза, что говорит о хорошем качестве прогноза.

5.3. Оценка устойчивости модели с помощью теста ЧОУ проводится следующим образом:

а) с помощью инструмента Microsoft Excel «Анализ данных/Регрессия» строится регрессия (рис.11), где в качестве значений X принимаются совокупные (выборочные и прогнозные) значения факторных переменных, а в качестве значений Y - совокупные (выборочные и прогнозные) значения результативной переменной. По данной регрессии определяется сумма квадратов остатков S=2058232,333.

Рисунок 11

б) по регрессии п.3.2 с фиктивными переменными Салкевера (рис. 9) определяется сумма квадратов остатков Sd=1270272,697.

в) рассчитывается и оценивается значение Fстатистики:

при этом F кр = F 0,05;3;5 = 5,40, тогда полученное значение меньше критического значения F кр и гипотеза о стабильности модели в прогнозном периоде принимается.

5.4.Обобщение суждений о прогнозных качествах модели на основе п.5.1-5.3, в результате формируется заключение о высоком прогнозном качестве модели (= 201511,7 -1359,6Х 1 + 1,01Х 2) и даются рекомендации по применению модели для прогнозирования.

Методика п.2.1 успешно апробирована, позволяет выявить основные признаки мультиколлинеарности и может быть рекомендована для подобных исследований.

Заключение

Мультиколлинеарность — в эконометрике (регрессионный анализ) — наличие линейной зависимости между объясняющими переменными (факторами) регрессионной модели. При этом различают полную коллинеарность, которая означает наличие функциональной (тождественной) линейной зависимости и частичную или просто мультиколлинеарность — наличие сильной корреляции между факторами.

Основные последствия мультиколлинеарности: большие дисперсии оценок, уменьшение t-статистик коэффициентов, оценки коэффициентов по МНК становятся неустойчивыми, затрудненное определения вклада переменных, получение неверного знака у коэффициента.

Главные критерии обнаружения мультиколлинеарности заключаются в следующем: высокий R 2 при незначимых коэффициентах; Высокие парные коэффициенты корреляции; высокие значения коэффициента VIF.

Основные методы устранения мультиколлинеарности: исключение переменной(ых) из модели; получение дополнительных данных или новой выборки; изменение спецификации модели; использование предварительной информации о некоторых параметрах.

Разработанное информационно-методическое обеспечение соответствует основным задачам эконометрического исследования проблемы мультиколлинеарности в моделях множественной регрессии и может быть рекомендовано для подобных исследований.

Список использованных источников

  1. Астахов, С.Н. Эконометрика [Текст]: Учебно-методический комплекс. Казань, 2008. - 107с.
  2. Бардасов, С. А. ЭКОНОМЕТРИКА [Текст]: учебное пособие. 2-е изд., пере- раб. и доп. Тюмень: Издательство Тюменского государственного университета, 2010. 264 с.
  3. Бородкина, Л.И. Курс лекций [Электронный ресурс]. Режим доступа - http://www.iskunstvo.info/materials/history/2/inf/correl.htm
  4. Воскобойников, Ю.Е. ЭКОНОМЕТРИКА в EXCEL Часть 1 [Текст]: учебное пособие, Новосибирск 2005,156 с.
  5. Елисеева, И.И. Практикум по эконометрике: учеб. пособие для экон. вузов / Елисеева, И.И., Курышева, С.В., Гордеенко, Н.М. , [и др.] ; под ред. И.И. Елисеевой - М.: Финансы и статистика, 2001. - 191 с. - (14126-1).
  6. Мультиколлинеарность [Электронный ресурс]. Режим доступа - https://ru.wikipedia.org/wiki/Мультиколлинеарность.
  7. Новиков, А.И. Эконометрика [Текст]: учеб. пособие по напр. "Финансы и кредит", "Экономика" - М.: Дашков и К, 2013. - 223 с.- (93895-1).
  8. Проблема мультиколлинеарности [Электронный ресурс]. Режим доступа - http://crow.academy.ru/econometrics/lectures_/lect_09_/lect_09_4.pdf .
  9. Черняк, В. Прикладная эконометрика. Лекция №9 [Электронный ресурс]. Режим доступа http://www.slideshare.net/vtcherniak/lect-09.
  10. ru - энциклопедический сайт [Электронный ресурс]. Режим доступа - http://kodcupon.ru/ra17syplinoe97/Мультиколлинеарность.

Скачать: У вас нет доступа к скачиванию файлов с нашего сервера.

Мультиколлинеарность – это коррелированность двух или нескольких переменных в уравнении регрессии. При наличии мультиколлинеарности МНК-оценки формально существуют, но обладают рядом недостатков:

1) небольшое изменение исходных данных приводит к существенному изменению оценок регрессии;

2) оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (индекс детерминации имеет высокое значение).

Главной причиной возникновения мультиколлинеарности является наличие в изучаемом объекте процессов, которые одновременно влияют на некоторые входные переменные, но не учтены в модели. Это может быть результатом некачественного исследования предметной области или сложности взаимосвязей параметров изучаемого объекта.

Различают два вида мультиколлинеарности: полную и частичную.

Например, если в модели объясняющие переменные связаны линейным соотношением , то исходное уравнение сводится к уравнению простой линейной зависимости .

Последнее уравнение не позволяет разделить вклады и в объяснение поведения переменной .

Полная (совершенная) мультиколлинеарность имеет место, когда между переменными имеется линейная функциональная связь.

Частичная (несовершенная) коллинеарность возникает в случае достаточно тесных линейных статистических связей между объясняющими переменными.

Несовершенная мультиколлинеарность факторов характеризуется величиной коэффициента корреляции между ними. Чем больше значение коэффициента корреляции, тем труднее разделить влияние объясняющих переменных и тем менее надежными будут оценки коэффициентов регрессии при этих переменных. Поэтому, если при оценке уравнения регрессии несколько объясняющих переменных оказались незначимыми, то нужно выяснить, нет ли среди них сильно коррелированных между собой. Для этого рассчитывается корреляционная матрица (это предусмотрено стандартными статистическими пакетами), и проверяется статистическая значимость коэффициентов парной корреляции. При наличии сильной корреляции (коэффициент корреляции по абсолютной величине больше 0,7) один из пары связанных между собой факторов исключается или в качестве объясняющей переменной берется какая-то их функция. Если незначимой оказалась только одна переменная, то ее можно исключить или заменить другой.

Для оценки наличия мультиколлинеарности может быть использован определитель матрицы межфакторной корреляции, а значимость мультиколлинеарности факторов может быть оценена с помощью статистики .

В ряде случаев мультиколлинеарность не является таким уж серьезным злом, чтобы ее выявлять и устранять. Все зависит от целей исследования. Если основная задача моделирования – только прогнозирование значений зависимой переменной, то при достаточно большом коэффициенте детерминации () присутствие мультиколлинеарности не сказывается на прогнозных качествах модели. Если же целью моделирования является и определение вклада каждого фактора в изменение зависимой переменной, то наличие мультиколлинеарности является серьезной проблемой.


Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных.

Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет вообще либо она не будет столь серьезной. Поэтому для уменьшения мультиколлинеарности в ряде случаев достаточно увеличить объем выборки.

В ряде случаев проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются факторы, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную.

Литература:

1. Елисеева И.И. Эконометрика: учебник. М.: Финансы и статистика, 2008.

2. Бородич С.А. Эконометрика: учебное пособие. Мн.: Новое знание, 2001.

3. Кремер Н.Ш. Эконометрика: учебник для студентов вузов. М.: ЮНИТИ-ДАНА, 2008.

  • 5.Порядок оценивания линейной эконометрической модели из изолированного уравнения в Excel. Смысл выходной статистической информации сервиса Регрессия. (10) стр 41
  • 6.Спецификация и оценивание мнк эконометрических моделей нелинейных по параметрам. (30) стр.24-25,
  • 7. Классическая парная регресионная модель. Спецификация модели. Теорема Гаусса-Маркова.
  • 8. Метод наименьших квадратов: алгоритм метода, условия применения.
  • 9.Идентификация отдельных уравнений системы одновременных уравнений: порядковое условие. (30)
  • Необходимое условие идентифицируемости
  • 10.Оценка параметров парной регрессионной модели методом наименьших квадратов. (10)
  • 11.Фиктивные переменные: определение, назначение, типы.
  • 12.Автокорреляция случайного возмущения. Причины. Последствия.
  • 13.Алгоритм проверки значимости регрессора в парной регрессионной модели.
  • 14.Интервальная оценка ожидаемого значения зависимой переменной в парной регрессионной модели.
  • 15. Тест Чоу на наличие структурных изменений в регрессионной модели. (20) стр. 59,60
  • 16. Алгоритм проверки адекватности парной регрессионной модели. (20) стр. 37, 79
  • 17. Коэффициент детерминации в парной регрессионной модели.
  • 18. Оценка параметров множественной регрессионной модели методом наименьших квадратов.
  • 20. Гетероскедастичность случайного возмущения. Причины. Последствия. Тест gq(20)
  • 21.Фиктивная переменная наклона: назначение; спецификация регрессионной модели с фиктивной переменной наклона; значение параметра при фиктивной переменной. (20) стр.65
  • 22..Алгоритм теста Дарбина-Уотсона на наличие (отсутствие) автокорреляции случайных возмущений. (20) стр 33
  • 23. Структурная и приведённая формы спецификации эконометрических моделей.
  • 24. Гетероскедастичность случайного возмущения. Причины. Последствия. Алгоритм теста Голдфельда-Квандта на наличие или отсутствие гетероскедастичности случайных возмущений.
  • Алгоритм теста Голдфелда-Квандта на наличие (отсутствие) гетероскедастичности случайных возмущений.
  • 25. Спецификация и оценивание мнк эконометрических моделей нелинейных по параметрам.
  • 26. Способы корректировки гетероскедастичности. Метод взвешенных наименьших квадратов
  • 27.Проблема мультиколлинеарности в моделях множественной регрессии.Признаки мультиколлениарности.
  • 28.Что такое логит,тобит,пробит.
  • 29. Что такое Метод наибольшего правдоподобия стр. 62.
  • 30. Что такое стационарный процесс?
  • 31.Свойства временных рядов.
  • 32.Модели ar и var .
  • 33. Идентифицируемость системы.
  • 34. Настройка модели с системой одновременных уравнений.
  • 35.Что такое метод Монте-Карло стр 53
  • 36.Оценить качество модели по f, gq, dw (линейнные).Стр.33, 28-29
  • 37. Оценка погрешностей параметров эконометрической модели методом Монте-Карло.
  • 38. Отражение в модели влияния неучтённых факторов. Предпосылки теоремы Гаусса-Маркова.
  • 39.Модели временных рядов. Свойства рядов цен акций на бирже (20) с.93.
  • 40. Ожидаемое значение случайной переменной, её дисперсия и среднее квадратическое отклонение. (20) с.12-21
  • 41. Оценка параметров парной регрессионной модели методом наименьших квадратов с использованием сервиса Поиск решения.
  • 42. Проверка статистических гипотез, t-статистика Стьюдента, доверительная вероятность и доверительный интервал, критические значения статистики Стьюдента. Что такое “толстые хвосты”?
  • 43.Проблема мультиколлинеарности в моделях множественной регрессии. Признаки мультиколлинеарности
  • 44. Частные коэффициенты детерминации.
  • 46. Экономический смысл коэффициентов линейного и степенного уравнений регрессии.
  • 47.Оценка коэффициентов модели Самуэльсона-Хикса
  • 48. Ошибки от включения в модель незначимых переменных или исключения значимых.С.80
  • 49. Исследование множественной регрессионной модели с.74-79.
  • 50. Мультиколлинеарность: чем плоха, как обнаружить и как бороться.
  • 51. Признаки стационарности стохастического процесса. Что такое «Белый шум»? с.100
  • 52. Структурная и приведённая формы спецификации эконометрических моделей.
  • 53. Алгоритм проверки значимости регрессора в парной регрессионной модели. По t-статистике, по f-статистике.
  • 54.Свойства рядов цен на фондовом рынке. Принципы построения портфеля Марковица с.93,102
  • 55.Динамическая модель из одновременных линейных уравнений (привести пример) с.105.
  • 56. Метод наибольшего правдоподобия: принципы и целесообразность использования
  • 57. Этапы исследования модели множественной регрессии с.74-79.
  • 50. Мультиколлинеарность: чем плоха, как обнаружить и как бороться.

    Мультиколлинеарность – это взаимная зависимость влияющих переменных. Проблема состоит в том, что при её наличии становится сложно или невозможно разделить влияние регрессоров на зависимую переменную, и коэффициенты теряют экономический смысл предельной функции или эластичности. Дисперсии коэффициентов растут, сами коэффициенты, оценённые по различным выборкам или методом Монте-Карло, коррелируют между собой. Это приводит к тому, что в области настройки модели графики Y и Ŷ прекрасно совпадают, R2 и F высокие, а в области прогноза графики могут совпасть, что можно объяснить взаимным подавлением погрешностей или расходятся, то есть модель оказывается неадекватной.

    Как обнаружить мультиколлинеарность? Проще всего – по корреляционной матрице. Если коэффициенты корреляции регрессоров больше 0,7, значит они взаимосвязаны. Числовой характеристикой мультиколлинеарности может служить определитель корреляционной матрицы. Если он близок к 1, то регрессоры независимы; если к 0, значит они связаны сильно.

    Как бороться с мультиколлинеарностью?

    1. Смириться, принять во внимание и ничего не делать.

    2.Увеличить объём выборки: дисперсии коэффициентов обратно пропорциональны количеству замеров.

    3.Удалять из модели регрессоры, слабо коррелирующие с зависимой переменной, или коэффициенты которых имеют малую t-статистику. Как видно из таблицы 7.10, при этом происходит смещение коэффициентов при значимых регрессорах, и возникает вопрос об их экономическом смысле. (А смысл такой: если регрессоры коррелируют и вы можете ими управлять, например, расходы на станки и рабочих, то придётся изменять их пропорционально). F-статистика, то есть качество модели, при этом растёт.

    4.Использовать в уравнении регрессии агрегаты из коррелирующих переменных: линейные комбинации с коэффициентами, обратно пропорциональными стандартным отклонениям переменных и выравнивающими их масштабы. Такие агрегаты обычно не имеют экономического смысла, но могут повысить адекватность модели.

    5.Факторный анализ, или Метод главных компонент. Используется, если переменных много, но они являются линейными комбинациями небольшого количества независимых факторов, может быть, не имеющих экономического смысла.

    51. Признаки стационарности стохастического процесса. Что такое «Белый шум»? с.100

    Временной ряд – это конечная реализация c тохастического процесса : генерации набора случайных переменных Y (t ).

    Стохастический процесс может быть стационарным и нестационарным. Процесс является стационарным , если

      Математическое ожидание значений переменных не меняется.

      Математическое ожидание дисперсий переменных не меняется.

    3. Нет периодических флуктуаций.

    Распознавание стационарности:

    1. График: систематический рост или убывание, волны и зоны высокой волатильности (дисперсии) в длинном ряде сразу видны.

    2. Автокорреляция (убывает при росте лага)

    3. Тесты тренда: проверка гипотезы о равенстве нулю коэффициента при t .

    4. Специальные тесты, включённые в пакеты компьютерных программ Stata, EViews и др., например, тест Дики-Фуллера (Dickey-Fuller) на единичный корень (Unit root).

    Чисто случайный процесс, стационарный с отсутствием автокорреляции (Cor(u i / u k ) = 0) называется Белый шум.

    Пример нестационарного процесса – случайное блуждание

    Y(t) = Y(t-1) + a(t) где a(t) – белый шум.

    Интересно, что процесс Y (t) = 0,999* Y (t-1) + a(t) является стационарным

    Принципиальную возможность избавиться от нестационарности называют интегрируемость. Применяют различные способы избавления от нестационарности:

    1. Вычитание тренда, что мы и делали в предыдущем разделе;

    2. Использование разностей 1-го, 2-го и т.д. порядков, что можно делать только после сглаживания временного ряда (или энергетического спектра), иначе все эффекты будут подавлены статистическими флуктуациями: дисперсия разности равна сумме дисперсий.

    Для исследования рядов цен на фондовом рынке применяются модели, использующие белый шум и авторегрессию, то есть взаимную зависимость уровней временного ряда.

    Модель MA(q) (moving average) – линейная комбинация последовательных элементов белого шума

    X(t) = a(t) – K(1)*a(t-1) – …. – K(q)*a(t-q)

    X(t) = b0 + b1*X(t-1) + …. + bp*X(t-p)

    Особенно популярны их комбинации

    ARMA(p,q) = AR(p) + MA(q)

    и ARIMA(p, i ,q): то же, с интегрируемостью i –го порядка.

    "

    Публикации по теме