В данной главе основное внимание уделяется проблемам, к которым приводит нарушение основных предпосылок классической линейной регрессии. Подробно обсуждаются последствия и методы устранения гетероскедастичности, мультиколлинеарности и автокорреляции. Изучаются обобщенные модели множественной регрессии.

4.1. Нарушения основных предпосылок классической регрессионной модели и их последствия

Классическая модель линейной регрессии строится на основе предпосылок 1) - 9) (см. п. 3.1), которые на практике часто не выполняются. Например, предположение о том, что регрессоры являются не случайными величинами, в эмпирических исследованиях часто нереалистично. Действительно, регрессоры могут быть стохастическими (случайными) величинами, значения которых не контролируются в эксперименте. Например, если изучается зависимость товарооборота филиалов фирмы от интенсивности потока покупателей, то в соответствующей модели регрессор - интенсивность потока, очевидно, является случайной величиной (см. пример из гл. 1). К сожалению, в большинстве случаев нарушение предпосылок классической модели, как правило, приводит к потере желательных статистических свойств оценок, полученных по обычному методу наименьших квадратов (теорема Гаусса-Маркова не выполняется). В этом случае классическая модель служит базой для построения обобщенных моделей регрессии, соответствующих реальным эмпирическим процессам. Методы оценивания параметров таких моделей являются модификациями обычного метода наименьших квадратов и строятся таким образом, чтобы соответствующие оценки обладали желательными статистическими свойствами. Очень важно понимать роль каждой предпосылки классической модели и осознавать, к каким последствиям приводит ее нарушение. Только в этом случае можно квалифицированно применять эконометрические методы и получать обоснованные результаты. Рассмотрим каждую предпосылку с точки зрения ее роли при построении регрессионной модели.

4.1.1. Предпосылки относительно регрессоров и последствия их нарушений

Относительно регрессоров в классической линейной модели должны выполнятся следующие предпосылки: регрессоры являются детерминированными; регрессоры измеряются без ошибок (предпосылка 1), регрессоры не коллинеарны; матрица наблюдений регрессоров имеет полный ранг (предпосылка 8); количество наблюдений регрессоров должно быть больше количества регрессоров (предпосылка 9).

Предпосылка о детерминированных регрессорах

Эта предпосылка означает, что в принципе значения регрессоров могут выбираться (контролироваться) исследователем (например, он может выбирать неслучайные моменты наблюдений при изучении зависимости регрессанда от времени). Предположение о детерминированных регрессорах существенно упрощает вывод уравнений и анализ свойств оценок наименьших квадратов. На практике при изучении реальных социально-экономических процессов эта предпосылка часто не выполняется. Ее нарушение может привести, например, к смещенности оценок наименьших квадратов. Это произойдет в случае, если хотя бы один регрессор и случайная составляющая модели коррелированы между собой.

Предпосылка: регрессоры измеряются без ошибок

На практике независимые переменные модели часто наблюдаются (измеряются) с ошибками. Если регрессор (независимая переменная) наблюдается с ошибками, то его наблюдаемое значение отличается от истинного и его можно представить в виде

где xip - i - ое наблюдаемое значение p - го регрессора, оно используется при построении модели; xip0 - истинное значение соответствующего регрессора (ненаблюдаемая величина); vip  - ошибка наблюдения (измерения) p - го регрессора в i - ом наблюдении, это случайная не наблюдаемая величина. Иногда при построении регрессионной модели ошибками наблюдений можно пренебречь в силу их незначительного вклада, но если они существенны хотя бы для одного регрессора, то такую модель называют моделью с ошибками в наблюдениях переменных. Наличие и необходимость учета ошибок в наблюдениях приводит к таким же последствиям, как и наличие стохастических регрессоров. Для оценивания таких моделей необходимо использовать специальные методы, некоторые из которых являются модификациями обычного метода наименьших квадратов.

Предпосылка: регрессоры не коллинеарны

Выполнение данной предпосылки в классической линейной регрессии эквивалентно тому, что матрица наблюдений регрессоров X имеет полный ранг - ее столбцы линейно-независимы. При этом количество наблюдений должно быть больше (или по крайней мере, не меньше) количества оцениваемых коэффициентов модели или, что то же самое, больше количества регрессоров. При выполнении данной предпосылки решение задачи оценивания параметров модели по методу наименьших квадратов существует и единственно (модель идентифицируема). На практике эта предпосылка может нарушаться как в моделях с детерминированными регрессорами, так и (особенно) в моделях со стохастическими регрессорами.

При нарушении данной предпосылки говорят, что имеет место проблема мультиколлинеарности (коллинеарности) регрессоров. В моделях со стохастическими регрессорами коллинеарность регрессоров возникает, например, если они достаточно сильно коррелированы между собой (иногда отождествляют понятия коллинеарности и коррелированности регрессоров, но это не вполне корректно). Следствием коллинеарности в классической модели является то, что нормальное уравнение для оценок параметров не имеет единственного решения - не существует обратная матрица вида (XTX)-1  в уравнении (3.15) для оценок параметров. На практике, особенно при большом количестве оцениваемых параметров и большом количестве наблюдений проблема мультиколлинеарности в классической модели возникает, если определитель матрицы  (XTX) близок к нулю (тогда говорят, что матрица  (XTX) плохо обусловлена). В этом случае, хотя теоретически обратная матрица  (XTX)-1 и существует, при ее вычислении могут накапливаться вычислительные ошибки, которые приводят к существенному искажению результатов. Для оценки степени коллинеарности применяют различные меры. Более подробно этот вопрос, а также отрицательные последствия коллинеарности в моделях со стохастическими регрессорами рассмотрены ниже.

Предпосылка: количество наблюдений больше числа оцениваемых параметров

Данная предпосылка должна выполняться для всех моделей регрессии - классической и обобщенных. Чем больше наблюдений, тем больше число степеней свободы модели, тем, вообще говоря, точнее МНК - оценки (состоятельность) и более обоснованы тесты, на которых основаны процедуры проверки гипотез и построения доверительных интервалов. С другой стороны, чем больше наблюдений (пространственных или временных), тем больше возможность появления таких неприятных эффектов, как гетероскедастичность и проявления структурных изменений. На практике рекомендуется иметь столько наблюдений, чтобы число степеней свободы было не менее 15-20.

Предпосылка: модель должна содержать все значимые факторы

Эта предпосылка также должна выполняться и для классической модели и для ее обобщений. Особенно она важна в случае, если регрессоры являются стохастическими. Дело в том, что при построении регрессионных моделей предполагается, что на зависимую переменную действуют не учитываемые явно факторы, совокупное влияние которых описывается включением в модель случайной составляющей, причем относительно нее должны выполняться условия Гаусса - Маркова. Если же какая - либо существенная независимая переменная явно в модели не учитывается, то это означает, что ее влияние ошибочно учитывается через включение ее в случайную составляющую. Это приведет к нарушению предпосылки о некоррелированности регрессоров и случайной составляющей модели, что в свою очередь проявится в смещенности МНК - оценок коэффициентов модели.

4.1.2. Предпосылки относительно случайной составляющей и последствия их нарушений

Все не учитываемые явно в модели факторы (латентные переменные), влияющие на зависимую переменную, включаются в состав случайной составляющей модели.

Предпосылка: нулевое математическое ожидание

В классической регрессии и ее обобщениях предполагается, что случайная составляющая модели во всех наблюдениях имеет математическое ожидание, равное нулю

Это условие фактически всегда удовлетворяется, поскольку не нулевое математическое ожидание случайной составляющей всегда можно включить в свободный член регрессионного уравнения.

Предпосылки: случайная составляющая гомоскедастична и некоррелирована в различных наблюдениях

Что бы глубже понять роль этой предпосылки (а также последующих), рассмотрим структуру ковариационной матрицы вектора возмущений u. В общем случае эта матрица имеет вид

(4.1)

где на главной диагонали стоят дисперсии возмущений в каждом наблюдении, элементы вне главной диагонали - взаимные ковариации возмущений в i - ом и j - ом наблюдениях, (i,j = 1,2,…,n). Поскольку , матрица - симметричная.

В классической линейной модели предполагается, что:

1 дисперсия случайной составляющей постоянна во всех наблюдениях, то есть имеет место свойство гомоскедастичности

2 случайные возмущения некоррелированы для разных наблюдений.

В этом случае матрица ковариаций возмущений имеет следующий вид

При выполнении данных предпосылок МНК-оценки параметров модели имеют минимальную дисперсию, то есть обладают свойством эффективности. К сожалению, в практических эмпирических социально-экономических исследованиях эти предположения часто не выполняются. В пространственных наблюдениях могут присутствовать статистические связи между различными наблюдениями. Например, поведение отдельного потребителя, очевидно, зависит от поведения других потребителей - часто принимая решение о покупке он ориентируется на мнение того, кто уже сделал или собирается сделать аналогичное приобретение, а мнение совокупности потребителей определяется общими латентными (скрытыми) факторами.

Дисперсия возмущений может меняться от наблюдения к наблюдению, например, при изучении инвестиционной деятельности разброс в показателях будет тем больше, чем больше капитал фирмы. Все это не позволяет построить адекватную модель процесса, основываясь на предпосылках классической регрессионной модели, и приводит к необходимости ее обобщения.

В эконометрической литературе линейную модель регрессии с ковариационной матрицей общего вида (4.1) называют обобщенной линейной регрессионной моделью.

Рассмотрим, к каким последствиям приводит применение обычного метода наименьших квадратов для оценивания параметров обобщенной модели. Очевидно, оценка вектора коэффициентов, как и прежде для классической модели, будет определяться в соответствии с выражением (3.15). Определим матрицу ковариаций вектора оценок. Для этого используем ранее полученное выражение

(4.2)

(формула (3.25) п. 3.3).

При невыполнении предпосылок классической регрессии относительно случайных возмущений модели применение обычного метода наименьших квадратов приводит к следующим последствиям.

1). МНК - оценка ковариационной матрицы вектора оценок коэффициентов, определяемая формулой

(4.3)

(формула (3.43) п. 3.4.4) является смещенной оценкой истинной ковариационной матрицы (4.2) обобщенной модели.

Покажем это. Вектор остатков регрессии можно записать в виде

(4.4)

где матрица H = I - X(XTX)-1XT - идемпотентная матрица (напомним, что идемпотентной называется симметричная матрица, для которой имеет место свойство HH=H).

Вероятностные характеристики вектора остатков с учетом (4.4):

Математическое ожидание оцененной дисперсии случайных возмущений

Таким образом, математическое ожидание оценки вида (4.3) ковариационной матрицы вектора оценок равно

(4.5)

Правая часть выражения (4.5) не совпадает с выражением для истинной (теоретической) ковариационной матрицы вектора оценок.

2). МНК - оценка дисперсии случайной составляющей в обобщенной модели является смещенной.

3). Оценки коэффициентов модели не будут эффективными (наилучшими в классе линейных несмещенных).

Таким образом, при применении обычного МНК для оценивания обобщенной модели, получаемые оценки теряют свойства оценок классической модели, то есть теорема Гаусса-Маркова теперь не выполняется. Кроме того, применение этих оценок при построении t- и F- тестов и доверительных интервалов приводит к искажениям. Смещенность оценок дисперсий коэффициентов (и, следовательно, их среднеквадратичных ошибок) приводит либо к занижению оценок стандартных ошибок (при отрицательном смещении) и соответственно, к завышению статистических критериев, либо наоборот, к завышению оценок стандартных ошибок и занижению критериев (при положительном смещении).

Дополнительная предпосылка о нормальном распределении вектора возмущений

В классической модели регрессии при построении доверительных интервалов и проверке гипотез относительно параметров модели основополагающей является предпосылка о нормальном распределении вектора возмущений. Аналогичная предпосылка необходима и для обобщенной модели.

4.1.3. Предпосылки относительно коэффициентов регрессии и последствия их нарушения

В классической модели регрессии принимаются две важные предпосылки относительно коэффициентов:

1) коэффициенты линейной регрессии , (i=1,2,…,k) являются детерминированными величинами;

2) коэффициенты линейной регрессии являются постоянными величинами, независящими ни от номера наблюдений, ни от времени.

Аналогичные предпосылки принимаются и при построении различных обобщенных моделей. На практике такого рода модели с постоянными детерминированными коэффициентами можно строить только для описания процессов, не подверженных существенным структурным изменениям как во времени так и в пространстве. Однако, как было отмечено в главе 1, особенностью многих реальных социально-экономических процессов является то, что с течением времени могут меняться не только их характеристики, учитываемые в модели в виде коэффициентов и параметров распределений, но и структура самих уравнений, описывающих процесс. Для построения адекватных моделей таких процессов необходимо использовать более сложные модели, учитывающие регулярные (не случайные) и/или случайные изменения коэффициентов. В настоящее время существует множество методов построения и оценивания моделей с переменными параметрами (переменной структурой). Данные модели находят широкое применение на практике, в частности при моделировании и анализе финансовых рынков.

Таким образом, одно из направлений обобщения классической модели состоит в отказе от предпосылки о детерминированных постоянных параметрах модели. Это направление исследований наиболее актуально в современной эконометрике.

4.1.4. Предпосылка: модель правильно специфицирована

Все предыдущие предпосылки можно обобщить в данной предпосылке, поскольку правильная спецификация модели предполагает, что для адекватного описания реального процесса с помощью регрессионной модели должны выполняться предположения, при которых данную модель можно применять. Если реальные взаимосвязи не описываются линейными соотношениями с аддитивной случайной составляющей (переменной возмущений), то следует модифицировать модель, и если это возможно, свести ее к линейной. Проблема в том, что при моделировании реальных процессов вид регрессионной зависимости чаще всего априорно неизвестен. Неизвестен также и набор регрессоров.

Правильная (корректная) спецификация модели - основная проблема при моделировании реальных процессов.

Модель должна соответствовать наблюдаемым данным, относительно которых априорно можно высказывать лишь предположения, которые могут не подтвердиться в процессе тестирования и проверки модели на практике. Если речь идет о корректном применении метода наименьших квадратов для оценивания параметров модели, то последствием неправильной спецификации будут некорректные оценки.

Подводя итог обсуждению предпосылок классической линейной модели и ее обобщений, следует подчеркнуть, что если при построении эконометрической модели принимается какая-либо предпосылка, то ее роль и последствия невыполнения должны быть четко осознаны исследователем. Каждая предпосылка должна быть тщательно обоснована как с помощью экономической теории, так и на основе всевозможных тестов, построенных с использованием реальных данных. Метод оценивания параметров модели должен соответствовать условиям его применимости.