Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

Курс «КомпьютернаяКурс «Компьютерная
поддержкаподдержка
прогнозирования»прогнозирования»
Заходякин Глеб Викторович,
кафедра Информационных систем
и технологий в логистике
e-mail: postlogist@gmail.com

2
Инструменты прогнозирования вИнструменты прогнозирования в SPSSSPSS
o Подготовка данных для моделирования
o Эксперт построения моделей
– Модели экспоненциального сглаживания
– Модели ARIMA и ARIMAX
o Применение моделей к набору данных (скоринг)
o Усреднение прогнозов
o Меры ошибки прогноза

3
Подготовка данных для моделированияПодготовка данных для моделирования
o Замена пропущенных значений
o Определение дат и сезонной периодичности
o Группировка в периоды прогнозирования
– периоды одинаковой длительности
– нет пропусков
o Добавление факторов
– Создание переменной времени
– Создание фиктивных переменных

4
Замена пропущенных значенийЗамена пропущенных значений
o Пропущенные значения не мешают построению регрессионных
моделей, но препятствуют использованию процедур прогнозирования
по временным рядам (expert modeler)
o Возможные варианты устранения пропущенных значений:
– замена на среднее/медиану ряда
– замена на среднее/медиану соседних наблюдений
– интерполяция по тренду
o Transform > Replace Missing Values

5
Определение дат и сезонной периодичностиОпределение дат и сезонной периодичности
o Задание переменных даты и периодичности необходимо для
правильной работы процедур прогнозирования и расчета сезонных
разностей
o Даты можно задать при помощи процедуры Data>Define Dates
o Команда синтаксиса DATE позволяет задавать произвольную
периодичность данных и любую структуру:
DATE keyword starting_value periodicity keyword2
starting_value2 periodicity2 BY increment.

6
Агрегирование данныхАгрегирование данных
o Агрегирование производится с использованием группирующих переменных
o Для каждого значения группирующей переменной рассчитывается одна из
статистических функций для каждой переменной в наборе
o Агрегированные данные лучше
сохранять в новый набор данных
o Data>Aggregate…

7
Добавление факторовДобавление факторов
o Переменную времени можно вычислить из номера наблюдения или
взять в качестве фактора времени переменную YEAR_
o Фиктивные переменные для моделирования сезонности при большом
числе сезонов можно вычислить через синтаксис
Примечание. Скрипт рассчитан на сезонность в 12 периодов. В наборе должны
быть заданы даты и присутствовать переменная month_

8
Ошибка прогнозаОшибка прогноза
o Остаток (ошибка прогноза) – разность
между фактическим значением
и прогнозом по модели
Период Факт Прогноз Остаток |Остаток|
2009-01 60 85 -25 25
2009-02 85 60 25 25
2009-03 80 85 -5 5
2009-04 95 80 15 15
2009-05 90 95 -5 5
2009-06 80 90 -10 10
2009-07 85 80 5 5
2009-08 90 85 5 5
2009-09 100 90 10 10
2009-10 110 100 10 10
2009-11 130 110 20 20
2009-12 170 130 40 40
2010-01 80 170 -90 90
2010-02 105 80 25 25
2010-03 120 105 15 15
2010-04 110 120 -10 10
2010-05 130 110 20 20
2010-06 120 130 -10 10
2010-07 105 120 -15 15
2010-08 115 105 10 10
2010-09 130 115 15 15
Сумма: 45 385
ˆ
i i ie Y Y= −

9
Меры ошибки прогнозаМеры ошибки прогноза
o Меры ошибки прогноза –
различные статистические
функции от остатков, их
модулей или относительных
остатков:
– среднее
– максимум
– дисперсия
– стандартное отклонение
Период Факт Прогноз Остаток |Остаток|
|Остаток/
Факт|
2009-01 60 85 -25 25 41.7%
2009-02 85 60 25 25 29.4%
2009-03 80 85 -5 5 6.3%
2009-04 95 80 15 15 15.8%
2009-05 90 95 -5 5 5.6%
2009-06 80 90 -10 10 12.5%
2009-07 85 80 5 5 5.9%
2009-08 90 85 5 5 5.6%
2009-09 100 90 10 10 10.0%
2009-10 110 100 10 10 9.1%
2009-11 130 110 20 20 15.4%
2009-12 170 130 40 40 23.5%
2010-01 80 170 -90 90 112.5%
2010-02 105 80 25 25 23.8%
2010-03 120 105 15 15 12.5%
2010-04 110 120 -10 10 9.1%
2010-05 130 110 20 20 15.4%
2010-06 120 130 -10 10 8.3%
2010-07 105 120 -15 15 14.3%
2010-08 115 105 10 10 8.7%
2010-09 130 115 15 15 11.5%
Сумма: 45 385
Средняя абсолютная ошибка: 18.3 MAE
Средняя ошибка: 2.1 ME
Макс. абсолютная ошибка: 90 MaxAE
Дисперсия ошибки: 665.5 MSE
Стандартная ошибка: 25.8 RMSE
Ср. абс. ошибка в процентах: 18.9% MAPE
Макс. абс. ошибка в процентах: 112.5% MaxAPE

10
Формулы для расчета мер ошибки прогнозаФормулы для расчета мер ошибки прогноза
o Меры абсолютной ошибки:
o Меры относительной ошибки:
o Дисперсия и стандартное отклонение ошибки
ˆ
i i ie Y Y= −
1
iMAE e
n
= ∑
1
iME e
n
= ∑ ( )max iMaxAE e=
1
100%i
i
e
MAPE
n Y
= ×∑ max 100%i
i
e
MaxAPE
Y
= ×
21
iMSE e
n
= ∑ 21
iRMSE e
n
= ∑
Стандартная ошибкаСредний квадрат ошибки

11
Коэффициент детерминацииКоэффициент детерминации RR22
o Коэффициент детерминации R2
характеризует полезность модели
для прогнозирования – уменьшение неопределенности прогноза
2
1
S
ST
R
SE
S
= −
( )
2
SST Y Y= −∑
( )
2
ˆSSE Y Y= −∑
( )
( )
2
2
2
ˆ
1 1
Y YSSE
R
SST Y Y
−
= − = −
−
∑
∑
Полная сумма квадратов:
Остаточная (необъясненная)
сумма квадратов:
R2
– доля объясненной моделью дисперсии прогнозируемой величины

12
Исправленный коэффициент детерминацииИсправленный коэффициент детерминации
o Коэффициент детерминации R2
, рассчитанный по формуле:
возрастает с увеличением числа факторов в модели, при этом не обязательно
модель с большим числом факторов будет лучше работать на новых данных
o Чтобы исключить влияние числа факторов на величину R2
, используют
исправленный коэффициент детерминации (R-squared adjusted), в котором
вводится штраф за увеличение числа переменных:
o Только полезные факторы, снижающие дисперсию ошибок, улучшают этот
показатель, поэтому он наиболее полезен на стадии отбора факторов для
построения модели
o Если модель строится по генеральной совокупности, то обычный R2
– более
предпочтительный показатель
2
1
SSE
R
SST
= −
( )
2
2
1
1 1
1
1
1 1
1
SST
SSE
SSE df SSE n
R
SST df SST n k
n
R
n k
−
= − × = − × =
− −
−
= − − ×
− −

13 13
Методы сглаживания временных рядовМетоды сглаживания временных рядов
o Единственным фактором в модели является время t
o Будущие значения зависят только от прошлых
значений
o Периоды должны следовать равномерно, без
пропусков: tk+1 - tk = const
o Модель часто задается не в явном виде, а в виде
рекуррентной формулы
o Цель сглаживания – устранить, по возможности,
случайные колебания
( ),Y f t ε=

14 14
Модель временного рядаМодель временного ряда
Временной ряд (time series) — упорядоченная во времени последовательность
наблюдений, производимых строго через определенные интервалы времени,
которые называются периодами прогнозирования (периодами временного ряда)
Модель временного ряда включает несколько составляющих:
• Тенденция (тренд)
• Сезонность
• Циклы
• Нерегулярные изменения
• Случайная составляющая

15 15
Аддитивные и мультипликативныеАддитивные и мультипликативные
модели временного рядамодели временного ряда
0 10 20 30 40 50
20
40
60
80
Аддитивная модель ряда
Мультипликативная модель ряда
Тренд
( ) ( ) ( )y t T t S t ε= + + ( ) ( ) ( )y t T t S t ε= × +

16 16
«Наивный прогноз»«Наивный прогноз»
o В качестве прогноза на следующий период
выбирается последнее значение временного ряда:
a) Yt = Yt-1
b) Yt = Yt-12
c) Yt = Yt-12* Yt-11 / Yt-13
– …Спрос на будущей неделе будет таким же,
как и на прошлой…
– … Спрос в этом октябре будет таким же, как
и в прошлом…
– … Взять уровень прошлого года и учесть тенденцию …
Период Факт
Прог
ноз1
Прог-
ноз2
Прог-
ноз3
2009-01 60
2009-02 85 60
2009-03 80 85
2009-04 95 80
2009-05 90 95
2009-06 80 90
2009-07 85 80
2009-08 90 85
2009-09 100 90
2009-10 110 100
2009-11 130 110
2009-12 170 130
2010-01 80 170 60
2010-02 105 80 85 113
2010-03 120 105 80 99
2010-04 110 120 95 143
2010-05 130 110 90 104
2010-06 120 130 80 116
2010-07 105 120 85 128
2010-08 115 105 90 111
2010-09 130 115 100 128
2010-10 130 110 143

17 17
Метод экспоненциального сглаживанияМетод экспоненциального сглаживания
( )1 1t t ty y yα α−= × + × −
) )
( )1 1 1t t ty y yα α− −= × + × −
) )
[ ]0;1α ∈
Рекуррентные формулы:
(для сглаживания) (для прогнозирования) (параметр)
Метод экспоненциального сглаживания
0
50 000
100 000
150 000
200 000
250 000
300 000
350 000
0 5 10 15 20 25 30
Период
Продажи
Продажи (Напитки)
Экспоненциальное сглаживание
Экспоненциальное сглаживание (прогноз)
Метод экспоненциального сглаживания
0
50 000
100 000
150 000
200 000
250 000
300 000
350 000
0 5 10 15 20 25 30
Период
Продажи
Экспоненциальное сглаживание
Экспоненциальное сглаживание (прогноз)
α=0.7
α=0.3
Начальное значение прогноза:
1 1y y=
)
1
1
1 k
t
t
y y
k =
= ∑
)
t k ty y+ =
) )
Прогноз:

18 18
Весовые коэффициенты значений временного ряда
0.00
0.05
0.10
0.15
0.20
0.25
i
i-1
i-2
i-3
i-4
i-5
i-6
i-7
i-8
i-9
i-10
i-11
i-12
i-13
i-14
i-15
i-16
i-17
i-18
i-19
i-20
i-21
i-22
период (текущий = i)
k
Действие коэффициента затуханияДействие коэффициента затухания
( ) ( )( ) ( )
( ) ( )
( ) ( ) ( )
1 1 2
2
1 2
2 3
1 2 3
ˆ ˆ ˆ1 1 1
ˆ1 1
ˆ1 1 1 ...
t t t t t t
t t t
t t t t
y y y y y y
y y y
y y y y
α α α α α α
α α α α
α α α α α α
− − −
− −
− − −
= × + × − = × + × + × − × − =
= × + × × − + × − =
= × + × × − + × × − + × − =
( )1 , , 1, 2...
i t
tk t i i iα α
−
= × − = − −

19 19
Метод скользящего среднегоМетод скользящего среднего
o Прогнозируемое значение определяется путем
усреднения нескольких отсчетов временного ряда
(усреднение по «окну»)
o Применяются две модификации: для простого
сглаживания ряда и для построения прогноза
Положение окна относительно текущего Положение окна относительно текущего
периода при сглаживании периода при прогнозировании
yi-k yn-w+1
…
yi => y`i=СРЗНАЧ(по окну) yn-1
yn => y`n=СРЗНАЧ(по окну)
yi+k Прогноз: y`n+1=yn
k - количество периодов в прошлом (или в будущем), которые учитываются
при усреднении вместе с текущим i-м значением
w - общая ширина окна сглаживания
При использовании "центрированного" скользящего среднего w всегда
нечетная, в модификации для прогнозирования можно брать любую w
Получение сглаженного значения по исходному ряду в методе скользящего среднего
При сглаживании: При прогнозировании:
k = 1 w = 2k+1 = 3 w = 4
Период Исходный Сглаженный Период Исходный Сглаженный
1 y1 #Н/Д 1 y1 #Н/Д
2 y2 y`2=(y1+y2+y3)/3 2 y2 #Н/Д
3 y3 y`3=(y2+y3+y4)/3 3 y3 #Н/Д
… … … 4 y4 y`4=(y1+y2+y3+y4)/4
n-2 y[n-2] … 5 y5 y`5=(y2+y3+y4+y5)/4
n-1 y[n-1] … … … …
Последнее: n y[n] #Н/Д <окно выходит n-3 y[n-3] …
за пределы ряда n-2 y[n-2] …
n-1 y[n-1] …
Последнее фактическое значение: n y[n] …
Прогноз: n+1 y[n+1] =y[n]

20© Заходякин Г.В., 2008 20
Особенности метода скользящего среднегоОсобенности метода скользящего среднего
o Увеличение ширины окна:
– увеличивает степень сглаживания
– уменьшает длину ряда
– увеличивает запаздывание
o Метод плохо работает при наличии тенденции или резких
изменений
o Метод чувствителен к случайным выбросам
Метод скользящего среднего
0
50 000
100 000
150 000
200 000
250 000
300 000
350 000
0 5 10 15 20 25 30
Период
Продажи
Скользящее среднее (центрированное)
Скользящее среднее (прогноз)
0
50 000
100 000
150 000
200 000
250 000
300 000
350 000
0 5 10 15 20 25 30
Период
Продажи
w=3 w=7

21
МедианаМедиана
o Медиана – серединное значение вариационного ряда:
– значение, находящееся в середине упорядоченного
по возрастанию ряда
– квантиль уровня 0.5 функции распределения
o В отличие от среднего, не подвержена влиянию выбросов
– точек, сильно удаленных от центра ряда
Время в интернет, час/неделя

Среднее 32.2
Стандартная ошибка 4.7
Медиана 25
Мода 50
Стандартное отклонение 26.4
Дисперсия выборки 699.4
Эксцесс 0.3
Асимметричность 1.1
Интервал 98
Минимум 2
Максимум 100
Сумма 998
Счет 31
№
Время в
интернет
Время,
упоряд. F
1 85 2 3.2%
2 15 5 6.5%
3 25 5 9.7%
4 50 7 12.9%
5 70 8 16.1%
6 30 10 19.4%
7 8 10 22.6%
8 35 10 25.8%
9 5 13 29.0%
10 28 14 32.3%
11 10 15 35.5%
12 10 15 38.7%
13 36 20 41.9%
14 20 20 45.2%
15 20 20 48.4%
16 2 25 51.6%
17 100 28 54.8%
18 45 30 58.1%
19 15 30 61.3%
20 75 35 64.5%
21 14 35 67.7%
22 35 36 71.0%
23 7 45 74.2%
24 30 50 77.4%
25 50 50 80.6%
26 50 50 83.9%
27 13 70 87.1%
28 5 75 90.3%
29 10 80 93.5%
30 80 85 96.8%
31 20 100 100%
Histogramof time
26%
23%
13%
10%
13%
3%
6%
3% 3%
10 20 30 40 50 60 70 80 90
time
0
1
2
3
4
5
6
7
8
9
Noofobs
26%
23%
13%
10%
13%
3%
6%
3% 3%
time : N=31;Mean=32.1935;StdDv=26.4467;Max=100;Min=2

22© Заходякин Г.В., 2008 22
Метод скользящей медианыМетод скользящей медианы
o Вместо среднего по окну этот метод использует
другую статистику – медиану
o В Excel можно использовать функцию МЕДИАНА()
o Метод менее чувствителен к резким выбросам, чем
среднее
0
50 000
100 000
150 000
200 000
250 000
300 000
350 000
0 5 10 15 20 25 30
Период
Продажи
Метод скользящей медианы
0
50 000
100 000
150 000
200 000
250 000
300 000
350 000
0 5 10 15 20 25
Период
Продажи
Скользящая медиана (центрированная)
Скользящая медиана (прогноз)
w=3 w=3

23 23
Метод ХолтаМетод Холта
o Применяется для временных рядов с тенденцией
o Сглаживание применяется дважды: к исходному ряду и к ряду
из приращений, который отслеживает тенденцию
( ) ( )1 1
ˆ ˆ1t t t ty y y Tα α − −= × + − × +
( ) ( )1 1
ˆ ˆ 1t t t tT y y Tβ β− −= × − + − ×
- сглаженный ряд
- тенденция
ˆ ˆt k t ty y k T+ = + × - прогноз для k-го периода в будущем
-0.20
-0.10
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Фактический спрос
Метод Холта
Экспоненциальное
сглаживание
( ) ( )2 1 3 2
1
2
y y y y
T
− + −
=

24 24
Метод ВинтерсаМетод Винтерса
o Применяется для временных рядов с тенденцией и сезонностью
o Сглаживание применяется трижды: к исходному ряду, ряду из
приращений, который отслеживает тенденцию, сезонным
поправкам
( ) ( )1 1
ˆ ˆ1t
t t t
t s
y
y y T
S
α α − −
−
= × + − × +
( ) ( )1 1
ˆ ˆ 1t t t tT y y Tβ β− −= × − + − ×
- сглаженный ряд без
сезонной компоненты
- тенденция
( )ˆ ˆt k t t t k sy y k T S+ + −= + × × - прогноз для k-го периода в будущем
( )1
ˆ
t
t t s
t
y
S S
y
γ γ −
 
= × + − × ÷
 
- сезонный коэффициент
s – период сезонных колебаний
Начальные условия: (a)
(б)
1 1
ˆy y= 1 0T = 1 1sS S =K
1
1
1
ˆ
s
t
t
y y
s =
= ∑
1
, 1
ˆ
i
i
y
S i s
y
= = K250
270
290
310
330
350
370
0 2 4 6 8 10 12 14 16
Продажи Винтер
(с поправкой)

25
Оптимальный выбор параметров сглаживанияОптимальный выбор параметров сглаживания
o Использование стандартной ошибки (RMSE) в качестве критерия
оптимизации параметров приводит к совпадению исходного и
сглаженного ряда (RMSE=0)
o В качестве критерия оптимизации можно использовать величину:
– сумма считается по тем периодам, когда возможно посчитать остаток (есть
прогноз и есть факт)
o - прогноз на 1 период вперед, вычисленный на шаге t-1
– для простого экспоненциального сглаживания:
– для метода Холта:
– для метода Винтерса:
( )( )
2
1 1
ˆ 1 mint tSSE y y −= − →∑ ( )( )
2
1 1
ˆ 1 mint tSSE y y −= − →∑
( )1
ˆ 1ty −
( )1 1
ˆ ˆ1t ty y− −=
( )1 1 1
ˆ ˆ1t t ty y T− − −= +
( ) ( )1 1 1
ˆ ˆ1t t t t sy y T S− − − −= + ×

26 26
Стандартная декомпозиция рядаСтандартная декомпозиция ряда
Аддитивная модель:
Мультипликативная модель:
( ) ( ) ( )ˆy t T t S t= +
( ) ( ) ( )ˆy t T t S t= ×
( ) ( ) ( )S t y t T t= −
( ) ( ) / ( )S t y t T t=
( ) 0S t =∑
( )S t s=∏
y = 1.9231x + 306.67
R
2
= 0.1739
270
280
290
300
310
320
330
340
350
360
370
0 5 10 15 20
Продажи Прогноз (аддит. модель) Прогноз (мульт. модель) Линейный (Продажи)

Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

Recommended

Recommended

More Related Content

What's hot

What's hot (19)

Viewers also liked

Viewers also liked (20)

Similar to Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

Similar to Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS (20)

Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

Editor's Notes