2.3. Статистические свойства оценок метода наименьших квадратов

2.3.1. Теоретические предпосылки, на основе которых строятся МНК - оценки, их роль и правдоподобность выполнения в реальных практических задачах

Поскольку полученные оценки a и b коэффициентов линейной регрессии основаны на статистических данных и являются случайными величинами, то естественно установить свойства этих оценок, как случайных величин. Более того, не выяснив этих свойств, невозможно сделать обоснованных выводов относительно качества и надежности полученных оценок. Необходимо, в частности, определить такие их статистические характеристики, как математическое ожидание и дисперсия. К желательным свойствам оценок относятся также несмещенность и состоятельность. Далее, если бы удалось определить вид распределения (плотности распределения) оценок, можно было бы построить доверительные интервалы для истинных значений параметров регрессии (то есть получить интервальные оценки коэффициентов) и реализовать процедуры проверки гипотез относительно их значений. Важную роль играет также изучение статистических свойств остатков оцененной регрессии.

Все эти задачи можно решить, основываясь на некоторых правдоподобных теоретических предпосылках (гипотезах) модели, выполнение которых на практике подлежит проверке с помощью специально разработанных для этого статистических процедур.

Предположение относительно независимых переменных

В дальнейшем будем предполагать, что x - детерминированная (неслучайная) величина, то есть значения независимых переменных заранее известны. Данное предположение (предпосылка), к сожалению, на практике при моделировании реальных социально-экономических процессов часто не выполняется. Это связано с тем, что здесь в качестве независимых переменных часто выступают стохастические неконтролируемые величины, такие как интенсивность потока покупателей в примере гл. 1 или рыночный индекс в рыночной модели, который также является случайной величиной. При нарушении этой предпосылки ряд "хороших" свойств оценок сохраняется (при некоторых условиях), но в ряде случаев требуется корректировка модели (оценок). Обобщения классической модели, которые учитывают нарушение этой предпосылки, будут рассмотрены в гл. 4.

Предположения относительно случайной составляющей модели

При выполнении предпосылки относительно переменной x статистические свойства оценок параметров и зависимой переменной, а также остатков, целиком определяются вероятностными свойствами случайной составляющей регрессионной модели. Относительно случайной составляющей в классическом регрессионном анализе предполагают выполнение следующих условий, которые называются условиями Гаусса-Маркова и играют ключевую роль при изучении свойств оценок, полученных по методу наименьших квадратов.

1. Первое условие заключается в том, что математическое ожидание случайной составляющей во всех наблюдениях должно быть равно нулю. Формально это записывается так

, для всех t =1,2,…,n.

Смысл этого условия заключается в том, что не должно быть систематического смещения случайной составляющей. В линейной регрессии систематическое смещение линии регрессии учитывается с помощью введения параметра смещения и поэтому данное условие можно считать всегда выполненным.

2. Дисперсия случайной составляющей постоянна для всех наблюдений (то есть не зависит от номера наблюдения). Это условие записывается так

, где дисперсия - величина постоянная.

Это свойство дисперсии ошибок называется гомоскедастичностью (однородностью) (запомните этот термин).

Выполнение условия гомоскедастичности при построении конкретных эконометрических моделей необходимо проверять с помощью специальных статистических процедур. Поскольку истинные дисперсии ошибок неизвестны, их можно лишь приближенно оценить на основе наблюдаемых (точнее - вычисляемых) значений остатков модели в каждом наблюдении. Таким образом, и свойство гомоскедастичности на практике проверяется (диагностируется) на самом деле для остатков модели, а не для истинных ошибок и может выполнятся лишь приближенно. Если условие гомоскедастичности не выполнено (то есть дисперсия ошибок не постоянна), то говорят, что имеет место условие гетероскедастичности (запомните этот термин). Понятия гомоскедастичности и гетероскедастичности являются ключевыми в эконометрике.

Графическая иллюстрация понятий гомоскедастичность и гетероскедастичность


Рис. 2.6а. Гомоскедастичность


Рис. 2.6б. Гетероскедастичность


Рис. 2.6в. Гетероскедастичность

3. Случайные составляющие модели для различных наблюдений некоррелированы. Это условие записывается таким образом

, для всех i не равных j (i, j=1,2,…,n).

Выполнение этого условия означает отсутствие систематической (статистической) связи между значениями случайного члена в любых двух наблюдениях. Это свойство на практике также проверяется с помощью статистических процедур на основе анализа остатков модели. Если оно нарушается, то процедура оценки параметров должна быть скорректирована.

4. Четвертое условие Гаусса-Маркова записывается так

, для всех i и j,

и означает, что объясняющие переменные и случайные составляющие некоррелированы для всех наблюдений. Ранее мы предположили, что объясняющая переменная в модели не является стохастической. В этом случае четвертое условие выполняется автоматически.

Регрессионная модель с детерминированными регрессорами, удовлетворяющая предпосылкам Гаусса-Маркова, называется классической регрессионной моделью.

Дополнительное предположение о нормальном распределении ошибок

При выполнении условий Гаусса-Маркова, оценки наименьших квадратов обладают такими свойствами, как несмещенность, состоятельность и оптимальность (эффективность). Однако, для построения доверительных интервалов и проверки гипотез относительно истинных значений параметров, необходимо дополнительное предположение о распределении случайной составляющей u. В классическом регрессионном анализе предполагается, что эта составляющая распределена по нормальному закону и тогда модель называют классической нормальной линейной регрессией.

Данное предположение является, пожалуй, наиболее спорным. Дело в том, что предположение о нормальности можно считать правдоподобным, если значения случайной величины порождаются в результате воздействия большого количества независимых случайных факторов, каждый из которых не обязательно имеет нормальное распределение. Примером такого воздействия является так называемое броуновское движение (хаотичное движение малых частиц в жидкости как результат совокупного воздействия на частицу (ударов, соударения) большого количества молекул жидкости).

В экономических процессах распределения случайных величин, как правило, отличаются от нормального, поскольку механизм их порождения более сложный, однако чаще всего именно нормальное распределение используется в эконометрических исследованиях (как, впрочем, и в статистике). Это обусловлено следующими причинами. Во - первых, нормальный закон действительно часто достаточно хорошо (с приемлемой для практики точностью) аппроксимирует (приближенно описывает) распределение случайной составляющей. Во - вторых, что очень важно, на основе нормального распределения можно получить удобные для расчетов и применения на практике процедуры проверки гипотез и построения доверительных интервалов. В любом случае, не изучив базовые результаты (процедуры), основанные на предположении нормальности, нельзя продвигаться на более высокий уровень изучения и применения более реалистичных моделей, не использующих эту предпосылку и позволяющих получать более точные результаты.

Замечание.

Если случайные величины в модели распределены по нормальному закону, то из свойств некоррелированности в третьем и четвертом условиях Гаусса-Маркова следует и независимость соответствующих случайных величин.

2.3.2. Свойства выборочных вариаций и ковариаций. Остаточные ошибки (остатки) модели, их свойства

Свойства выборочных вариаций (дисперсий) и ковариаций

Для дальнейшего изложения нам понадобиться установить ряд правил, которые можно использовать при преобразовании выражений, содержащих выборочные вариации и ковариации.

Пусть a - некоторая постоянная, а x, y, z  - переменные, принимающие в i-м наблюдении значения xi, yi, zi, i=1,2,3...,n (n - количество наблюдений). Тогда можно рассматривать как переменную, значения которой в i-м наблюдении равно a, и

,

откуда следует свойство

1.

Далее, нетрудно видеть, что имеют место равенства

2.

,

3.

Кроме того,

откуда следует свойство

4.

Далее, имеем

так что можно сформулировать свойство

5.

На основе этих свойств находим, что

6.

то есть постоянная не обладает изменчивостью и

7.

Таким образом, при изменении единицы измерения переменной в a раз, во столько же раз изменяется и величина стандартного отклонения этой переменной (напомним, что стандартное отклонение равно квадратному корню из дисперсии).

8.

то есть сдвиг начала отсчета не влияет на вариацию переменной. Далее, имеем

Таким образом, доказано свойство

9.

которое означает, что вариация суммы двух переменных отличается от суммы вариаций этих переменных на величину, равную удвоенному значению ковариации между этими переменными.

Свойства остатков

Теперь установим почти очевидные соотношения, которые следуют из условий (2.9), (2.10) минимума критерия наименьших квадратов (2.8). Определим величину

- оценку переменной y при оптимальных значениях коэффициентов регрессии и фиксированном значении x в i-ом наблюдении. Такую оценку называют прогнозом зависимой переменной. Тогда, очевидно, ошибка модели в i-ом наблюдении будет равна и из условия (2.9) следует, что

(2.20)

то есть сумма квадратов ошибок оценок переменной y (остатков модели) при оптимальных параметрах регрессии a и b равна нулю.

Далее, из условия (2.10) следует, что

(2.21)

то есть, при оптимальных параметрах регрессии ошибки ортогональны наблюдениям независимой переменной.

2.3.3. Статистические свойства МНК-оценок: несмещенность, состоятельность, эффективность. Теорема Гаусса-Маркова

Несмещенность МНК-оценок

Статистическая оценка некоторого параметра называется несмещенной, если ее математическое ожидание равно истинному значению этого параметра.

Для случая парной линейной регрессии это означает, что оценки a и b будут несмещенными, если

Докажем это свойство. Используя правила преобразования выборочных ковариаций, можно записать

Используя формулу (2.18) для коэффициента b, а также полученное выше соотношение, запишем

Далее, поскольку x - неслучайная величина, будем иметь

и, таким образом, оценка b является несмещенной.

Несмещенность оценки a следует из цепочки равенств

Замечание.

Свойство несмещенности оценок можно доказать и при более слабой форме 4 - го условия Гаусса - Маркова, когда x - случайная, но некоррелированная со случайной переменной u, величина.

Состоятельность оценок

Свойство состоятельности оценок заключается в том, что при неограниченном возрастании объема выборки, значение оценки должно стремится (по вероятности) к истинному значению параметра, а дисперсии оценок должны уменьшаться и в пределе стремиться к нулю. Дисперсии оценок коэффициентов регрессии определяются выражениями:

(2.22)

(2.23)

или, используя равенство , выражение (2.22) можно записать в виде

(2.24)

Подробный прямой (и довольно громоздкий) вывод этих выражений в случае модели парной регрессии можно найти в [25], мы же в главе 3 (см. п. 3.3) покажем, что они легко получаются как частный случай общих формул для дисперсий оценок коэффициентов многомерной линейной регрессии.

Из анализа формул (2.22), (2.23) нетрудно сделать вывод, что чем больше число наблюдений, тем меньше будут дисперсии оценок. Таким образом, мы получили не вполне строгое доказательство состоятельности оценок.

Эффективность (оптимальность) оценок

До сих пор мы говорили об оптимальности оценок в смысле минимума квадратичного критерия (2.7). Оказывается, что при выполнении условий Гаусса-Маркова они являются также оптимальными в смысле минимума дисперсии.

Оценка называется эффективной, если она имеет минимальную дисперсию по сравнению с другими оценками заданного класса.

Таким образом, оценки наименьших квадратов являются эффективными, то есть наилучшими в смысле минимума дисперсии, в классе всех линейных несмещенных оценок параметров.

Доказательство этого утверждения будет проведено для общего случая многомерной линейной регрессии в главе 3.

Теорема Гаусса-Маркова

Полученные выше результаты обычно формулируются в виде известной теоремы Гаусса-Маркова.

Теорема Гаусса-Маркова.

Если выполнены условия Гаусса-Маркова 1-4 для модели линейной регрессии (2.4), то оценки вида (2.13), (2.14), полученные по методу наименьших квадратов, являются наилучшими линейными несмещенными оценками (Best Linear Unbiased Estimator, сокращенно BLUE).

Теорема Гаусса - Маркова играет ключевую роль в эконометрике.

Пример 2.3. Статистический анализ финансового рынка на основе однофакторной рыночной модели.

В п. 2.1.3. в качестве примера линейной зависимости между переменными мы привели рыночную модель, которая описывает взаимосвязь между доходностью рынка в целом (напомним, что индикаторами доходности рынка служат рыночные индексы) и доходностью отдельной обыкновенной акции. Рыночная модель относится к классу моделей парной линейной регрессии и описывается уравнением

где Rj - доходность ценной бумаги j - го вида (то есть здесь индекс j означает вид ценной бумаги, а не номер наблюдения), Rm - эффективность рынка (доходность на рыночный индекс). В данной модели переменная u учитывает случайную компоненту доходности конкретной ценной бумаги. Предполагается, что она формируется под воздействием многих, не учитываемых явно в модели факторов, отражающих специфические особенности предприятия, выпустившего эти акции. В рыночной модели относительно случайной составляющей u предполагаются выполненными условия 1-3 Гаусса-Маркова, то есть

здесь переменная t означает номер наблюдения. Кроме того, предполагается, что поскольку случайная переменная u формируется под воздействием индивидуальных особенностей фирмы, то M{ui, uj} = 0 , то есть случайные составляющие доходности, специфические для каждой фирмы, некоррелированы между собой. В рыночной модели регрессор Rm является случайной величиной, поскольку он формируется как взвешенные значения случайных доходностей акций, входящих в так называемый индексный портфель. Поэтому для того, чтобы оценки параметров рыночной модели обладали необходимыми свойствами, относительно регрессоров и случайной переменных предполагается выполненным четвертое условие Гаусса-Маркова:

то есть регрессоры и случайные переменные u в рыночной модели некоррелированы между собой.

В классической теории финансового рынка в качестве меры риска ценной бумаги используется дисперсия (или среднеквадратичное отклонение) доходности. Получим выражение для этого показателя. Из уравнения рыночной модели получаем, что ожидаемое значение доходности j - ой ценной бумаги

где mm = M{Rm} - ожидаемое значение доходности индекса. Отсюда

Используя это соотношение, получим выражение для дисперсий доходностей ценных бумаг

Далее, поскольку в соответствии с четвертым условием Гаусса-Маркова

окончательно получаем выражение для дисперсии доходности ценной бумаги

где - дисперсия доходности на рыночный индекс.

Таким образом, в соответствии с рыночной моделью, общий риск ценной бумаги состоит из двух частей: 1) рыночный (или систематический) риск, который измеряется величиной ; 2) собственный (или не систематический) риск .

На основе рыночной модели решается задача анализа и формирования портфеля ценных бумаг (напомним, что портфель - это набор различных видов ценных бумаг). Рассмотрим эту задачу. Пусть инвестиционный портфель содержит N видов ценных бумаг, причем доля каждой бумаги в портфеле составляет xj, . Тогда доходность портфеля

Используя рыночную модель, запишем

Обозначим , - средневзвешенные значения коэффициентов рыночных моделей акций, входящих в портфель, - средневзвешенное значение случайных членов. С учетом введенных обозначений, запишем уравнение рыночной модели портфеля, которая является прямым обобщением рыночных моделей отдельных ценных бумаг

 

Заметим, что в этой модели в качестве регрессора снова выступает доходность на рыночный индекс Rm. Общий риск портфеля , где , выражается следующим образом

где

Как видим, общий риск портфеля, так же как и отдельной ценной бумаги состоит из двух компонент: рыночного риска и собственного риска . Инвестор стремится уменьшить общий риск своего портфеля. Этого можно достичь с помощью диверсификации портфеля, то есть увеличения количества ценных бумаг в портфеле. Однако, диверсификация приведет к снижению общего риска портфеля только вследствие сокращения собственного риска, в то время как рыночный риск остается примерно на том же уровне. Действительно, он зависит от коэффициентов "бета" ценных бумаг, входящих в портфель, но так как коэффициент "бета" портфеля является средневзвешенным значением коэффициентов "бета" отдельных ценных бумаг, то простое увеличение количества бумаг в портфеле приводит лишь к усреднению "бета" портфеля, но не уменьшит рыночный риск. Пусть инвестор вкладывает капитал в ценные бумаги равными долями, то есть xj=1/N. Тогда имеем

Из полученных выражений видно, что собственный риск с ростом N будет уменьшаться, тогда как рыночный будет стремиться к некоторому постоянному значению, зависящему от среднего значения .

Очевидно, что как доходность, так и риск портфеля зависят от долей капитала xj, вложенных в тот или иной финансовый актив. На основе проведенного, по-существу, эконометрического, анализа рыночной модели портфеля, можно сформулировать следующую задачу оптимизации портфеля ценных бумаг: определить доли вложений xj, j=1,2,…,N, так, чтобы максимизировать ожидаемую доходность портфеля

при ограничениях

Таким образом, в данной постановке задается ограничение на коэффициент "бета" портфеля, от которого зависит рыночный риск портфеля, а через него и на общий риск портфеля. Данная задача относится к классу задач линейного программирования, методы решения которых изучаются в курсе "Исследование операций".

Существуют и другие постановки задач оптимизации портфеля ценных бумаг, многие из которых так или иначе используют рыночную модель. Конечно, при решении практических задач вместо истинных значений коэффициентов модели , а также дисперсий и ожидаемых доходностей mj ценных бумаг используются их выборочные оценки, полученные по методу наименьших квадратов на основе исторических (прошлых) данных наблюдений о доходностях Rj(t), Rm(t), t=1,2,…,n. Поскольку рыночная модель удовлетворяет условиям Гаусса-Маркова, эти оценки будут наилучшими линейными несмещенными оценками. Отметим также, что в рыночной модели все параметры (в том числе дисперсия случайного члена) имеют четкую экономическую интерпретацию.

Задание.

Выпишите формулы для оценок применительно к рыночной модели.