Теория игр чистая стратегия. Оптимальные чистые стратегии игроков. Оптимальная чистая стратегия в матричной игре

Пример . По 20 предприятиям региона изучается зависимость выборки продукции на одного работника y (тыс. руб.) от ввода в действие новых основных фондов (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих (%).

Номер предприятия y Номер предприятия y
7,0 3,9 10,0 9,0 6,0 21,0
7,0 3,9 14,0 11,0 6,4 22,0
7,0 3,7 15,0 9,0 6,8 22,0
7,0 4,0 16,0 11,0 7,2 25,0
7,0 3,8 17,0 12,0 8,0 28,0
7,0 4,8 19,0 12,0 8,2 29,0
8,0 5,4 19,0 12,0 8,1 30,0
8,0 4,4 20,0 12,0 8,5 31,0
8,0 5,3 20,0 14,0 9,6 32,0
10,0 6,8 20,0 14,0 9,0 36,0

Требуется:

1. Построить линейную модель множественной регрессии. Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессия и средних коэффициентов эластичности ранжировать факторы по степени их влияния результатов.

2. Найти коэффициенты парной, частной и множественной корреляции. Проанализировать их.

3.

4. С помощью F-критерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации .

5. С помощью частных F-критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора после и фактора после .

6.

Решение:

Найдем средние квадратические отклонения признаков:

1. Вычисление параметров линейного уравнения множественной регрессии.

Для нахождения параметров линейного уравнения множественной

регрессии

необходимо решить следующую систему линейных уравнений относительно неизвестных параметров

Либо воспользоваться готовыми формулами:

Рассчитаем сначала парные коэффициенты корреляции:

Таким образом получили следующие уравнение множественной регрессии:

Коэффициенты и стандартизованного уравнения регрессии ,

находятся по формулам:

;

.

Т.е. уравнение будет выглядеть следующим образом:

Так как стандартизованные коэффициенты регрессии можно сравнить между собой, то можно сказать, что ввод в действие новых основных фондов оказывает большое влияние на выработку продукции, чем удельный вес рабочих высокой квалификации.

Сравнивать влияние факторов на результат можно также при помощи средних коэффициентов эластичности:

Вычисляем:

Т.е. увеличение только основных фондов (от своего среднего значения) или только удельного веса рабочих высокой квалификации на 1% увеличивает в среднем выработку продукции на 0,61 % или 0,20% соответственно. Таким образом, подтверждается большее влияние на результат y фактора x 1 , чем фактора x 2 .

2. Коэффициенты парной корреляции мы уже нашли:

Они указывают на весьма сильную связь каждого фактора с результатом, а также высокую межфакторную зависимость (факторы х х и х 2 явно коллинеарны, т.к. ). При такой сильной

Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при элиминировании (устранении влияния) других факторов, включенных в уравнение регрессии.

При двух факторах частные коэффициенты корреляции рассчитываются следующим образом:

Если сравнить коэффициенты парной и частной корреляции, то можно увидеть, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышенные оценки тесноты связи. Именно по этой причине рекомендуется при наличии сильной коллинеарности (взаимосвязи) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи.

Коэффициент множественной корреляции определить через матрицу парных коэффициентов корреляции:

где

Определитель матрицы парных коэффициентов корреляции;

Определитель матрицы межфакторной корреляции.

Коэффициент множественной корреляции

Аналогичный результат получим при использовании других формул:

Коэффициент множественной корреляции показывает на весьма сильную связь всего набора факторов с результатом.

3. Нескорректированный коэффициент множественной

детерминации = 0,947 оценивает долю вариации результата за счет

представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет 94,7% и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов, иными словами - на весьма тесную связь факторов с результатом.

Скорректированный коэффициент множественной детерминации

определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов и поэтому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более 94%) детерминированность результата у в модели факторами х 1 и х 2 .

4. Оценку надежности уравнения регрессии в целом и показателя тесноты связи дает F -критерий Фишера:

В нашем случае фактическое значение F-критерия Фишера:

Получили, что > (при n = 20), т.е. вероятность случайно получить такое значение F-критерия не превышает допустимый уровень значимости 5%. Следовательно, полученное значение не случайно, оно сформировалось под влиянием существенных факторов, т.е. подтверждается статистическая значимость всего уравнения и показателя тесноты связи .

5. С помощью частных F-критериев Фишера оценим целесообразность включения в уравнение множественной регрессии фактора после и фактора после при помощи формул:

;

.

Найдем и .

;

.

Получили, что . Следовательно, включение в

модель фактора x 2 после того, как в модель включен фактор x 1 статистически нецелесообразно: прирост факторной дисперсии за счет дополнительного признака x 2 оказывается незначительным, несущественным; фактор х 2 включать в уравнение после фактора х 1 не

Если поменять первоначальный порядок включения факторов в модель

и рассмотреть вариант включения x 1 после х 2 , то результат расчета частного F -критерия для х 1 будет иным. , т.е. вероятность его

случайного формирования меньше принятого стандарта а = 0,05 (5%). Следовательно, значение частного F -критерия для дополнительно включенного фактора x 1 не случайно, является статистически значимым, надежным, достоверным: прирост факторной дисперсии за счет дополнительного фактора x 1 является существенным. Фактор x 1 должен присутствовать в уравнении, в том числе в варианте, когда он дополнительно включается после фактора x 2 .

6. Общий вывод состоит в том, что множественная модель с факторами x 1 и х 2 с =0,947 содержит неинформативный фактор х 2 . Если исключить фактор х 2 , то можно ограничиться уравнением парной регрессии:

.

Варианты индивидуальных заданий

По 20 предприятиям региона изучается зависимость выработки продукции на одного работника у (тыс. руб.) от ввода в действие новых

основных фондов х, (% от стоимости фондов на конец года) и от удельного

веса рабочих высокой квалификации в общей численности рабочих x 2 (%) (смотри таблицу своего варианта).

Требуется:

1. Построить линейную модель множественной регрессии. Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат.

2. Найти коэффициенты парной частной и множественной корреляции. Проанализировав их.

3. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.

4. С помощью F- критерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации .

5. С помощью частных F - критериев Фишера оценить целесообразность включения в управление множественной регрессии фактора x 1 после x 2 и фактора x 2 после x 1 .

6. Составить уравнение линейной парной регрессии, оставив лишь один значащий фактор.

Вариант 1

Номер предприятия y Номер предприятия y
3,6 6,3
3,6 6,4
3,6
4,1 7,5
3,9 7,9
4,5 8,2
5,3
5,3 8,6
5,6 9,5
6,8

Вариант 2

Номер предприятия y x 1 x 2 Номер предприятия y x 1 x 2
3,5 6,3
3,6 6,4
3,9
4,1 7,5
4,2 7,9
4,5 8,2
5,3 8,4
5,3 8,6
5,6 9,5
Вариант 3
Номер предприятия y x 1 x 2 Номер предприятия y x 1 x 2
3,7 6,3
3,7 6,4
3,9 7,2
4,1 7,5
4,2 7,9
4,9 8,1
5,3 8,4
5,1 8,6
5,6 9,5
6,1 9,5
Вариант 4
Номер предприятия y x 1 x 2 Номер предприятия y x 1 x 2
3,5 6,3
3,6 6,5
3,9 7,2
4,1 7,5
4,2 7,9
4,5 8,2
5,3 8,4
5,5 8,6
5,6 9,5
6,1 9,6

Вариант 5

Номер предприятия y Номер предприятия y
3,6 6,3
3,6 6,8
3,7 7,2
4,1 7,9
4,3 8,1
4,5 8,3
5,4 8,4
5,5 8,8
5,8 9,6
6,1 9,7

ГОУ ВПО «Санкт-Петербургская академия управления и экономики»

Контрольная работа по дисциплине

«Эконометрика»

Вариант № 1

Выполнила студентка 4 курса

Факультета экономики и финансов

Специальность Финансы и кредит

Группа № 14-35335

Колыванова А.В.

Проверила преподаватель

Золотарев А. А.

Пикалево 2010

Задача 1
.
По территориям региона приводятся данные за 199X г.


Номер региона

Среднедушевой прожиточный минимум в день одного трудоспособного, руб.,

Среднедневная заработная плата, руб.,

1

81

124

2

77

131

3

85

146

4

79

139

5

93

143

6

100

159

7

72

135

8

90

152

9

71

127

10

89

154

11

82

127

12

111

162

Требуется:

Решение


















1

81

124

10044

6561

15376

133

- 9

7,2

2

77

131

10087

5929

17161

129

- 2

1,5

3

85

146

12410

7225

21316

136

- 10

6,8

4

79

139

10981

6241

19321

131

- 8

5,7

5

93

143

13299

8649

20449

144

- 1

0,7

6

100

159

15900

10000

25281

157

- 2

1,2

7

72

135

9720

5184

18225

124

- 11

8,1

8

90

152

13680

8100

23104

141

- 11

7,2

9

71

127

9017

5041

16129

123

- 4

3,1

10

89

154

13706

7921

23716

140

- 14

9,1

11

82

127

10414

6724

16129

134

7

5,5

12

111

162

17982

12321

26244

161

- 1

0,6

Итого

1030

1699

147240

89896

242451

1653

- 66

56,7

Среднее значение

85,9

141,6

12270

7491,3

20204,25





2,8



10,60

12,4















112,5

153,7













=

Получено уравнение регрессии:

С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,95 руб.


    1. Тесноту линейной связи оценит коэффициент корреляции:

Это означает, что 81% вариации заработной платы () объясняется вариацией фактора – среднедушевого прожиточного минимума.

Качество модели определяет средняя ошибка аппроксимации:

Качество построенной модели оценивается как хорошее, так как не превышает 8-10%.

Табличное значение критерия при пятипроцентном уровне значимости и степенях свободы и составляет . Так как

То уравнение регрессии признается статистически значимым.

Оценку статистической значимости параметров регрессии проведем с помощью -статистики Стьюдента и путем расчета доверительного интервала каждого из показателей.

Табличное значение -критерия для числа степеней свободы и составит .

Определим случайные ошибки , , :

Фактические значения -статистики превосходят табличное значение:

Поэтому параметры , и не случайно отличаются от нуля, а статистически значимы.

Рассчитаем доверительные интервалы для параметров регрессии и . Для этого определим предельную ошибку для каждого показателя:

Доверительные интервалы

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры и , находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.


  1. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит:
тогда прогнозное значение заработной платы составит:

    1. Ошибка прогноза составит:

Предельная ошибка прогноза, которая в случаев не будет превышена, составит:

Доверительный интервал прогноза:

Выполненный прогноз среднемесячной заработной платы является надежным () и находится в пределах от 131,23руб. до 163,37руб.


  1. В заключение решения задачи построим на одном графике исходные данные и теоретическую прямую:
D .2. Множественная регрессия и корреляция

По 20 предприятиям региона изучается зависимость выработки продукции на одного работника (тыс. руб.) от ввода в действие новых основных фондов (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих (%)


Номер предприятия







Номер предприятия







1

6

3,6

9

11

9

6,3

21

2

6

3,6

12

12

11

6,4

22

3

6

3,9

14

13

11

7

24

4

7

4,1

17

14

12

7,5

25

5

7

3,9

18

15

12

7,9

28

6

7

4,5

19

16

13

8,2

30

7

8

5,3

19

17

13

8

30

8

8

5,3

19

18

13

8,6

31

9

9

5,6

20

19

14

9,5

33

10

10

6,8

21

20

14

9

36
При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов. Мультиколлинеарностью называется линейная взаимосвязь двух или нескольких объясняющих переменных, которая может проявляться в функциональной (явной) или стохастической (скрытой) форме.
Выявление связи между отобранными признаками и количественная оценка тесноты связи осуществляются с использованием методов корреляционного анализа. Для решения этих задач сначала оценивается матрица парных коэффициентов корреляции , затем на ее основе определяются частные и множественные коэффициенты корреляции и детерминации, проверяется их значимость. Конечной целью корреляционного анализа является отбор факторных признаков x 1 , x 2 ,…,x m для дальнейшего построения уравнения регрессии.

Если факторные переменные связаны строгой функциональной зависимостью, то говорят о полной мультиколлинеарности . В этом случае среди столбцов матрицы факторных переменных Х имеются линейно зависимые столбцы, и, по свойству определителей матрицы , det(X T X) = 0 , т. е. матрица (X T X) вырождена, а значит, не существует обратной матрицы. Матрица (X T X) -1 используется в построении МНК-оценок. Таким образом, полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели регрессии.

К каким трудностям приводит мультиколлинеарность факторов, включенных в модель, и как они могут быть разрешены?

Мультиколлинеарность может привести к нежелательным последствиям:

  1. оценки параметров становятся ненадежными. Они обнаруживают большие стандартные ошибки. С изменением объема наблюдений оценки меняются (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.
  2. затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированны; параметры линейной регрессии теряют экономический смысл;
  3. становится невозможным определить изолированное влияние факторов на результативный показатель.

Вид мультиколлинеарности, при котором факторные переменные связаны некоторой стохастической зависимостью, называется частичной. Если между факторными переменными имеется высокая степень корреляции, то матрица (X T X) близка к вырожденной, т. е. det(X T X) ≈ 0.
Матрица (X T X) -1 будет плохо обусловленной, что приводит к неустойчивости МНК-оценок. Частичная мультиколлинеарность приводит к следующим последствиям:

  • увеличение дисперсий оценок параметров расширяет интервальные оценки и ухудшает их точность;
  • уменьшение t -статистик коэффициентов приводит к неверным выводам о значимости факторов;
  • неустойчивость МНК-оценок и их дисперсий.

Точных количественных критериев для обнаружения частичной мультиколлинеарности не существует. О наличии мультиколлинеарности может свидетельствовать близость к нулю определителя матрицы (X T X). Также исследуют значения парных коэффициентов корреляции. Если же определитель матрицы межфакторной корреляции близок к единице, то мультколлинеарности нет.

Существуют различные подходы преодоления сильной межфакторной корреляции. Простейший из них – исключение из модели фактора (или факторов), в наибольшей степени ответственных за мультиколлинеарность при условии, что качество модели при этом пострадает несущественно (а именно, теоретический коэффициент детерминации -R 2 y(x1...xm) снизится несущественно).

С помощью какой меры невозможно избавиться от мультиколлинеарности?
a) увеличение объема выборки;
b) исключения переменных высококоррелированных с остальными;
c) изменение спецификации модели;
d) преобразование случайной составляющей.

Парные (линейные) и частные коэффициенты корреляции

Тесноту связи, например между переменными x и y по выборке значений (x i , y i), оценивает линейный коэффициент парной корреляции: , (3.4.1)
где и – средние значения, S x и S y – стандартные отклонения соответствующих выборок.

Парный коэффициент корреляции изменяется в пределах от –1 до +1. Чем ближе он по абсолютной величине к единице, тем ближе статистическая зависимость между и к линейной функциональной. Положительное значение коэффициента свидетельствует о том, что связь между признаками прямая (с ростом увеличивается значение y), отрицательное значение – связь обратная (с ростом x значение уменьшается).
Можно дать следующую качественную интерпретацию возможных значений коэффициента корреляции: если |r|<0.3 – связь практически отсутствует; 0.3≤ |r| < 0.7 - связь средняя; 0.7≤ |r| < 0.9 – связь сильная; 0.9≤ |r| < 0.99 – связь весьма сильная.
Для оценки мультиколлинеарности факторов используют матрицу парных коэффициентов корреляции зависимого (результативного) признака y с факторными признаками x 1 , x 2 ,…,x m , которая позволяет оценить степень влияния каждого показателя-фактора x j на зависимую переменную y, а также тесноту взаимосвязей факторов между собой. Корреляционная матрица в общем случае имеет вид
.
Матрица симметрична, на ее диагонали стоят единицы. Если в матрице есть межфакторный коэффициент корреляции r xjxi >0.7, то в данной модели множественной регрессии существует мультиколлинеарность.
Поскольку исходные данные, по которым устанавливается взаимосвязь признаков, являются выборкой из некой генеральной совокупности, вычисленные по этим данным коэффициенты корреляции будут выборочными, т. е. они лишь оценивают связь. Необходима проверка значимости, которая отвечает на вопрос: случайны или нет полученные результаты расчетов.
Значимость парных коэффициентов корреляции проверяют по t- критерию Стьюдента. Выдвигается гипотеза о равенстве нулю генерального коэффициента корреляции: H 0: ρ = 0. Затем задаются параметры: уровень значимости α и число степеней свободы v = n-2. Используя эти параметры, по таблице критических точек распределения Стьюдента находят , а по имеющимся данным вычисляют наблюдаемое значение критерия:
, (3.4.2)
где r – парный коэффициент корреляции, рассчитанный по отобранным для исследования данным. Парный коэффициент корреляции считается значимым (гипотеза о равенстве коэффициента нулю отвергается) с доверительной вероятностью γ = 1- α, если t Набл по модулю будет больше, чем t крит.
Если переменные коррелируют друг с другом, то на значении коэффициента корреляции частично сказывается влияние других переменных.

Частный коэффициент корреляции характеризует тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Частный коэффициент корреляции оценивает тесноту связи между двумя переменными при фиксированном значении остальных факторов. Если вычисляется, например, r yx 1| x2 (частный коэффициент корреляции между y и x 1 при фиксированном влиянии x 2), это означает, что определяется количественная мера линейной зависимости между y и x 1 , которая будет иметь место, если устранить влияние x 2 на эти признаки. Если исключают влияние только одного фактора, получают частный коэффициент корреляции первого порядка.
Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции r yx 1| x2 получится меньше, чем соответствующий парный коэффициент r yx 1 , значит, взаимосвязь признаков y и x 1 в некоторой степени обусловлена воздействием на них фиксируемой переменной x 2 . И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная x 2 ослабляет своим воздействием связь y и x 1 .
Частный коэффициент корреляции между двумя переменными (y и x 2) при исключении влияния одного фактора (x 1) можно вычислить по следующей формуле:
. (3.4.3)
Для других переменных формулы строятся аналогичным образом. При фиксированном x 2
;
при фиксированном x 3
.
Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным v = n – l -2, где l – число фиксируемых факторов.

Пошаговая регрессия

Отбор факторов x 1 , x 2 , …,x m , включаемых в модель множественной регрессии, является одним из важнейших этапов эконометрического моделирования. Метод последовательного (пошагового) включения (или исключения) факторов в модель позволяет выбрать из возможного набора переменных именно те, которые усилят качество модели.
При реализации метода на первом шаге рассчитывается корреляционная матрица. На основе парных коэффициентов корреляции выявляется наличие коллинеарных факторов. Факторы x i и x j признаются коллинеарными, если r xjxi >0.7. В модель включают лишь один из взаимосвязанных факторов. Если среди факторов отсутствуют коллинеарные, то в модель могут быть включены любые факторы, оказывающие существенное влияние на y .

На втором шаге строится уравнение регрессии с одной переменной, имеющей максимальный по абсолютной величине парный коэффициент корреляции с результативным признаком.

На третьем шаге в модель вводится новая переменная, имеющая наибольшее по абсолютной величине значение частного коэффициента корреляции с зависимой переменной при фиксированном влиянии ранее введенной переменной.
При введении в модель дополнительного фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит, т. е. коэффициент множественной детерминации увеличивается незначительно, то ввод нового фактора признается нецелесообразным.

Пример №1 . По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x1 (% от стоимости фондов на конец года) и от ввода в действие новых основных фондов x2 (%).

Y X1 X2
6 10 3,5
6 12 3,6
7 15 3,9
7 17 4,1
7 18 4,2
8 19 4,5
8 19 5,3
9 20 5,3
9 20 5,6
10 21 6
10 21 6,3
11 22 6,4
11 23 7
12 25 7,5
12 28 7,9
13 30 8,2
13 31 8,4
14 31 8,6
14 35 9,5
15 36 10

Требуется:

  1. Построить корреляционное поле между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации. Выдвинуть гипотезу о тесноте и виде зависимости между показателями X1 и Y .
  2. Оценить тесноту линейной связи между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации с надежностью 0,9.
  3. Рассчитать коэффициенты линейного уравнения регрессии для зависимости выработки продукции на одного работника от удельного веса рабочих высокой квалификации.
  4. Проверить статистическую значимость параметров уравнения регрессии с надежностью 0,9 и построить для них доверительные интервалы.
  5. Рассчитать коэффициент детерминации. С помощью F -критерия Фишера оценить статистическую значимость уравнения регрессии с надежностью 0,9.
  6. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих.
  7. Рассчитать коэффициенты линейного уравнения множественной регрессии и пояснить экономический смысл его параметров.
  8. Проанализировать статистическую значимость коэффициентов множественного уравнения с надежностью 0,9 и построить для них доверительные интервалы.
  9. Найти коэффициенты парной и частной корреляции. Проанализировать их.
  10. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.
  11. С помощью F -критерия Фишера оценить адекватность уравнения регрессии с надежностью 0,9.
  12. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих, а ввод в действие новых основных фондов составляет 5%.
  13. Проверить построенное уравнение на наличие мультиколлинеарности по: критерию Стьюдента; критерию χ2. Сравнить полученные результаты.

Решение проводим с помощью калькулятора . Далее приводится ход решения п.13.
Матрица парных коэффициентов корреляции R:

- y x 1 x 2
y 1 0.97 0.991
x 1 0.97 1 0.977
x 2 0.991 0.977 1

При наличии мультиколлинеарности определитель корреляционной матрицы близок к нулю. Для нашего примера: det = 0.00081158 , что свидетельствует о наличии сильной мультиколлинеарности.
Для отбора наиболее значимых факторов x i учитываются следующие условия:
- связь между результативным признаком и факторным должна быть выше межфакторной связи;
- связь между факторами должна быть не более 0.7. Если в матрице есть межфакторный коэффициент корреляции r xjxi > 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.;
- при высокой межфакторной связи признака отбираются факторы с меньшим коэффициентом корреляции между ними.
В нашем случае r x 1 x 2 имеют |r|>0.7, что говорит о мультиколлинеарности факторов и о необходимости исключения одного из них из дальнейшего анализа.
Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых |r yxi | 0.3 – связь практически отсутствует; 0.3 ≤ |r| ≤ 0.7 - связь средняя; 0.7 ≤ |r| ≤ 0.9 – связь сильная; |r| > 0.9 – связь весьма сильная.
Проверим значимость полученных парных коэффициентов корреляции с помощью t-критерия Стьюдента. Коэффициенты, для которых значения t-статистики по модулю больше найденного критического значения, считаются значимыми.
Рассчитаем наблюдаемые значения t-статистики для r yx 1 по формуле:

где m = 1 - количество факторов в уравнении регрессии.


t крит (n-m-1;α/2) = (18;0.025) = 2.101
Поскольку t набл >
Рассчитаем наблюдаемые значения t-статистики для r yx 2 по формуле:

Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значимю
Таким образом, связь между (y и x x 1), (y и x x 2) является существенной.
Наибольшее влияние на результативный признак оказывает фактор x 2 (r = 0.99), значит, при построении модели он войдет в регрессионное уравнение первым.
Тестирование и устранение мультиколлинеарности .
Наиболее полным алгоритмом исследования мультиколлинеарности является алгоритм Фаррара-Глобера. С его помощью тестируют три вида мультиколлинеарности:
1. Всех факторов (χ 2 - хи-квадрат).
2. Каждого фактора с остальными (критерий Фишера).
3. Каждой пары факторов (критерий Стьюдента).

Проверим переменные на мультиколлинеарность методом Фаррара-Глоубера по первому виду статистических критериев (критерий "хи-квадрат").
Формула для расчета значения статистики Фаррара-Глоубера:
χ 2 = -ln(det[R])
где m = 2 - количество факторов, n = 20 - количество наблюдений, det[R] - определитель матрицы парных коэффициентов корреляции R.
Сравниваем его с табличным значением при v = m/2(m-1) = 1 степенях свободы и уровне значимости α. Если χ 2 > χ табл 2 , то в векторе факторов есть присутствует мультиколлинеарность.
χ табл 2 (1;0.05) = 3.84146

Проверим переменные на мультиколлинеарность по второму виду статистических критериев (критерий Фишера).
Определяем обратную матрицу D = R -1:

D =
55,365 -2,256 -52,656
-2,256 22,386 -19,642
-52,656 -19,642 72,373

Вычисляем F-критерии Фишера:

где d kk - диагональные элементы матрицы.
Рассчитанные значения критериев сравниваются с табличными при v 1 =n-m и v 2 =m-1 степенях свободы и уровне значимости α. Если F k > F Табл, то k-я переменная мультиколлинеарна с другими.
v 1 =20-2 = 18; v 2 =2-1 = 1. F Табл (18;1) = 248

Поскольку F 1 > F табл, то переменная y мультиколлинеарна с другими.

Поскольку F 2 > F табл, то переменная x 1 мультиколлинеарна с другими.

Поскольку F 3 > F табл, то переменная x 2 мультиколлинеарна с другими.

Проверим переменные на мультиколлинеарность по третьему виду статистических критериев (критерий Стьюдента). Для этого найдем частные коэффициенты корреляции.
Частные коэффициенты корреляции .
Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и x i) при условии, что влияние на них остальных факторов (x j) устранено.
На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.


Теснота связи низкая.
Определим значимость коэффициента корреляции r yx 1 /x 2 .


где k = 1 - число фиксируемых факторов.

По таблице Стьюдента находим Tтабл
t крит (n-k-2;α/2) = (17;0.025) = 2.11
Поскольку t набл Как видим, связь y и x 1 при условии, что x 2 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x 1 остается нецелесообразным.


Теснота связи сильная
Определим значимость коэффициента корреляции r yx 2 /x 1 .
Для этого рассчитаем наблюдаемые значения t-статистики по формуле:


Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
Как видим, связь y и x 2 при условии, что x 1 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x 2 остается нецелесообразным.
Можно сделать вывод, что при построении регрессионного уравнения следует отобрать факторы x 1 , x 2 .

Пример №2 . По 30 наблюдениям

  • ID: 51823
  • 17 страниц

Список литературы

Ситуационная (практическая) задача № 1

По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x1 (% от стоимости фондов на конец года) и от ввода в действие новых основных фондов x2 (%).

Номер предприятия

Номер предприятия

Требуется:

1. Построить корреляционное поле между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации. Выдвинуть гипотезу о тесноте и виде зависимости между показателями X1 и Y.

2. Оценить тесноту линейной связи между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации с надежностью 0,9.

4. Проверить статистическую значимость параметров уравнения регрессии с надежностью 0,9 и построить для них доверительные интервалы.

6. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих.

8. Проанализировать статистическую значимость коэффициентов множественного уравнения с надежностью 0,9 и построить для них доверительные интервалы.

9. Найти коэффициенты парной и частной корреляции. Проанализировать их.

10. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.

11. С помощью F -критерия Фишера оценить адекватность уравнения регрессии с надежностью 0,9.

12. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих, а ввод в действие новых основных фондов составляет 5%.

13. Проверить построенное уравнение на наличие мультиколлинеарности по: критерию Стьюдента; критерию ч2. Сравнить полученные результаты.

Ситуационная (практическая) задача № 2

Имеются помесячные данные по объему платных услуг населению в 2010 г.

Объем платных услуг, млн. руб.

сентябрь

Требуется:

1. Проверить гипотезу о наличии тренда во временном ряде.

3. Оценить параметры линейной трендовой модели, проверить статистическую значимость соответствующего уравнения регрессии с надежностью 0,99.

4. Дать точечный и интервальный прогноз объема платных услуг на февраль 2011 г. с надежностью 0,99.

Тестовые задания

Необходимо из предложенных вариантов ответа на вопрос теста выбрать единственно верный, по Вашему мнению.

1.Остаток в i-м наблюдении – это:

a) разница между значением объясняющей переменной в i-м наблюдении и прогнозным значением этой переменной;

b) разница между значением переменной Y в i-м наблюдении и прогнозным значением этой переменной, полученным по выборочной линии регрессии;

c) разница между значением переменной Y в i-м наблюдении и прогнозным значением этой переменной, полученным по истинной линии регрессии;

d) разница между прогнозным значением зависимой переменной, полученным по выборочной линии регрессии и значением объясняющей переменной в этом наблюдении.

2. Дано регрессионное уравнение Y = 10 + 0.5X. Чему равно прогнозное значение переменной Y, если Х = 10:

3. При анализе тесноты линейной корреляционной связи между двумя переменными получен коэффициент парной линейной корреляции, равный – 1. Это означает, что:

a) линейная корреляционная связь отсутствует;

b) между переменными существует нелинейная связь;

c) парный коэффициент корреляции не может принять такое значение;

d) между переменными существует точная обратная линейная зависимость;

4. С помощью какой меры невозможно избавиться от мультиколлинеарности?

a) увеличение объема выборки;

b) исключения переменных высококоррелированных с остальными;

c) изменение спецификации модели;

d) преобразование случайной составляющей.

5. Какое из приведенных чисел может быть значением коэффициента множественной детерминации:

6. Если значение статистики Дарбина-Уотсона равно 0, это говорит

а) о наличии положительной автокорреляции остатков в модели;

б) об отсутствии зависимости между рассматриваемыми показателями;

в) об отсутствии тренда во временном ряде;

г) о статистической незначимости коэффициентов уравнения.

7. К каким последствиям приводит наличие гетероскедастичности в остатках:

a) МНК-оценки коэффициентов уже не обладают меньшей дисперсией, но остаются несмещенными и линейными;

b) МНК-оценки коэффициентов остаются наилучшими линейными несмещенными оценками, проблема только в стандартных ошибках, их надо корректировать.

c) МНК-оценки коэффициентов уже не обладают меньшей дисперсией, но остаются несмещенными и линейными; МНК – стандартные ошибки правильны (состоятельны), тестами, в которых они участвуют, пользоваться можно.

d) МНК-оценки коэффициентов становятся нелинейными.

8. Периодические колебания, возникающие под влиянием смены времени года называются…

a) хронологическими;

b) сезонными;

c) тенденцией;

d) случайными.

9. Известны помесячные данные за полгода относительно прибыли некоторой компании (тыс. руб.): 100, 110, 98, 90, 100, 110. Медиана данного ряда равна

Смешанной стратегией SA игрока А называется применение чистых стратегий A1, A2, ..., Am с вероятностями p1, p2, ..., pi, ..., pm причем сумма вероятностей равна 1: Смешанные стратегии игрока А записываются в виде матрицы или в виде строки SA = (p1, p2, ..., pi, ..., pm) Аналогично смешанные стратегии игрока В обозначаются: , или, SB = (q1, q2, ..., qi, ..., qn), где сумма вероятностей появления стратегий равна 1: Чистые стратегии можно считать частным случаем смешанных и задавать строкой, в которой 1 соответствует чистой стратегии. На основании принципа минимакса определяется оптимальное решение (или решение) игры: это пара оптимальных стратегий S*A , S*B в общем случае смешанных, обладающих следующим свойством: если один из игроков придерживается своей оптимальной стратегии, то другому не может быть выгодно отступать от своей. Выигрыш, соответствующий оптимальному решению, называется ценой игры v. Цена игры удовлетворяет неравенству: ? ? v ? ? (3.5) где? и? - нижняя и верхняя цены игры. Справедлива следующая основная теорема теории игр - теорема Неймана. Каждая конечная игра имеет по крайней мере одно оптимальное решение, возможно, среди смешанных стратегий. Пусть S*A = (p*1, p*2, ..., p*i, ..., p*m) и S*B = (q*1, q*2, ..., q*i, ..., q*n) - пара оптимальных стратегий. Если чистая стратегия входит в оптимальную смешанную стратегию с отличной от нуля вероятностью, то она называется активной. Справедлива теорема об активных стратегиях: если один из игроков придерживается своей оптимальной смешанной стратегии, то выигрыш остается неизменным и равным цене игры v, если второй игрок не выходит за пределы своих активных стратегий. Эта теорема имеет большое практическое значение - она дает конкретные модели нахождения оптимальных стратегий при отсутствии седловой точки. Рассмотрим игру размера 2×2, которая является простейшим случаем конечной игры. Если такая игра имеет седловую точку, то оптимальное решение - это пара чистых стратегий, соответствующих этой точке. Игра, в которой отсутствует седловая точка, в соответствии с основной теоремой теории игр оптимальное решение существует и определяется парой смешанных стратегий S*A = (p*1, p*2) и S*B = (q*1, q*2). Для того чтобы их найти, воспользуемся теоремой об активных стратегиях. Если игрок А придерживается своей оптимальной стратегии S"A, то его средний выигрыш будет равен цене игры v, какой бы активной стратегией ни пользовался игрок В. Для игры 2×2 любая чистая стратегия противника является активной, если отсутствует седловая точка. Выигрыш игрока А (проигрыш игрока В) - случайная величина, математическое ожидание (среднее значение) которой является ценой игры. Поэтому средний выигрыш игрока А (оптимальная стратегия) будет равен v и для 1-й, и для 2-й стратегии противника. Пусть игра задана платежной матрицей Средний выигрыш игрока А, если он использует оптимальную смешанную стратегию, а игрок В - чистую стратегию B1 (это соответствует 1-му столбцу платежной матрицы Р), равен цене игры v: a11 p*1+ a21 p*2= v. Тот же средний выигрыш получает игрок А, если 2-й игрок применяет стратегию B2, т.е. a12 p*1+ a22 p*2= v. Учитывая, что p*1+ p*2= 1, получаем систему уравнений для определения оптимальной стратегии S"A и цены игры v: (3.6) Решая эту систему, получим оптимальную стратегию (3.7) и цену игры (3.8) Применяя теорему об активных стратегиях при отыскании SВ*- оптимальной стратегии игрока В, получаем, что при любой чистой стратегии игрока А (А1 или А2) средний проигрыш игрока В равен цене игры v, т.е. (3.9) Тогда оптимальная стратегия определяется формулами: (3.10)