2. 2
Инструменты прогнозирования вИнструменты прогнозирования в SPSSSPSS
o Подготовка данных для моделирования
o Эксперт построения моделей
– Модели экспоненциального сглаживания
– Модели ARIMA и ARIMAX
o Применение моделей к набору данных (скоринг)
o Усреднение прогнозов
o Меры ошибки прогноза
3. 3
Подготовка данных для моделированияПодготовка данных для моделирования
o Замена пропущенных значений
o Определение дат и сезонной периодичности
o Группировка в периоды прогнозирования
– периоды одинаковой длительности
– нет пропусков
o Добавление факторов
– Создание переменной времени
– Создание фиктивных переменных
4. 4
Замена пропущенных значенийЗамена пропущенных значений
o Пропущенные значения не мешают построению регрессионных
моделей, но препятствуют использованию процедур прогнозирования
по временным рядам (expert modeler)
o Возможные варианты устранения пропущенных значений:
– замена на среднее/медиану ряда
– замена на среднее/медиану соседних наблюдений
– интерполяция по тренду
o Transform > Replace Missing Values
5. 5
Определение дат и сезонной периодичностиОпределение дат и сезонной периодичности
o Задание переменных даты и периодичности необходимо для
правильной работы процедур прогнозирования и расчета сезонных
разностей
o Даты можно задать при помощи процедуры Data>Define Dates
o Команда синтаксиса DATE позволяет задавать произвольную
периодичность данных и любую структуру:
DATE keyword starting_value periodicity keyword2
starting_value2 periodicity2 BY increment.
6. 6
Агрегирование данныхАгрегирование данных
o Агрегирование производится с использованием группирующих переменных
o Для каждого значения группирующей переменной рассчитывается одна из
статистических функций для каждой переменной в наборе
o Агрегированные данные лучше
сохранять в новый набор данных
o Data>Aggregate…
7. 7
Добавление факторовДобавление факторов
o Переменную времени можно вычислить из номера наблюдения или
взять в качестве фактора времени переменную YEAR_
o Фиктивные переменные для моделирования сезонности при большом
числе сезонов можно вычислить через синтаксис
Примечание. Скрипт рассчитан на сезонность в 12 периодов. В наборе должны
быть заданы даты и присутствовать переменная month_
10. 10
Формулы для расчета мер ошибки прогнозаФормулы для расчета мер ошибки прогноза
o Меры абсолютной ошибки:
o Меры относительной ошибки:
o Дисперсия и стандартное отклонение ошибки
ˆ
i i ie Y Y= −
1
iMAE e
n
= ∑
1
iME e
n
= ∑ ( )max iMaxAE e=
1
100%i
i
e
MAPE
n Y
= ×∑ max 100%i
i
e
MaxAPE
Y
= ×
21
iMSE e
n
= ∑ 21
iRMSE e
n
= ∑
Стандартная ошибкаСредний квадрат ошибки
11. 11
Коэффициент детерминацииКоэффициент детерминации RR22
o Коэффициент детерминации R2
характеризует полезность модели
для прогнозирования – уменьшение неопределенности прогноза
2
1
S
ST
R
SE
S
= −
( )
2
SST Y Y= −∑
( )
2
ˆSSE Y Y= −∑
( )
( )
2
2
2
ˆ
1 1
Y YSSE
R
SST Y Y
−
= − = −
−
∑
∑
Полная сумма квадратов:
Остаточная (необъясненная)
сумма квадратов:
R2
– доля объясненной моделью дисперсии прогнозируемой величины
12. 12
Исправленный коэффициент детерминацииИсправленный коэффициент детерминации
o Коэффициент детерминации R2
, рассчитанный по формуле:
возрастает с увеличением числа факторов в модели, при этом не обязательно
модель с большим числом факторов будет лучше работать на новых данных
o Чтобы исключить влияние числа факторов на величину R2
, используют
исправленный коэффициент детерминации (R-squared adjusted), в котором
вводится штраф за увеличение числа переменных:
o Только полезные факторы, снижающие дисперсию ошибок, улучшают этот
показатель, поэтому он наиболее полезен на стадии отбора факторов для
построения модели
o Если модель строится по генеральной совокупности, то обычный R2
– более
предпочтительный показатель
2
1
SSE
R
SST
= −
( )
2
2
1
1 1
1
1
1 1
1
SST
SSE
SSE df SSE n
R
SST df SST n k
n
R
n k
−
= − × = − × =
− −
−
= − − ×
− −
13. 13 13
Методы сглаживания временных рядовМетоды сглаживания временных рядов
o Единственным фактором в модели является время t
o Будущие значения зависят только от прошлых
значений
o Периоды должны следовать равномерно, без
пропусков: tk+1 - tk = const
o Модель часто задается не в явном виде, а в виде
рекуррентной формулы
o Цель сглаживания – устранить, по возможности,
случайные колебания
( ),Y f t ε=
14. 14 14
Модель временного рядаМодель временного ряда
Временной ряд (time series) — упорядоченная во времени последовательность
наблюдений, производимых строго через определенные интервалы времени,
которые называются периодами прогнозирования (периодами временного ряда)
Модель временного ряда включает несколько составляющих:
• Тенденция (тренд)
• Сезонность
• Циклы
• Нерегулярные изменения
• Случайная составляющая
15. 15 15
Аддитивные и мультипликативныеАддитивные и мультипликативные
модели временного рядамодели временного ряда
0 10 20 30 40 50
20
40
60
80
Аддитивная модель ряда
Мультипликативная модель ряда
Тренд
( ) ( ) ( )y t T t S t ε= + + ( ) ( ) ( )y t T t S t ε= × +
16. 16 16
«Наивный прогноз»«Наивный прогноз»
o В качестве прогноза на следующий период
выбирается последнее значение временного ряда:
a) Yt = Yt-1
b) Yt = Yt-12
c) Yt = Yt-12* Yt-11 / Yt-13
– …Спрос на будущей неделе будет таким же,
как и на прошлой…
– … Спрос в этом октябре будет таким же, как
и в прошлом…
– … Взять уровень прошлого года и учесть тенденцию …
Период Факт
Прог
ноз1
Прог-
ноз2
Прог-
ноз3
2009-01 60
2009-02 85 60
2009-03 80 85
2009-04 95 80
2009-05 90 95
2009-06 80 90
2009-07 85 80
2009-08 90 85
2009-09 100 90
2009-10 110 100
2009-11 130 110
2009-12 170 130
2010-01 80 170 60
2010-02 105 80 85 113
2010-03 120 105 80 99
2010-04 110 120 95 143
2010-05 130 110 90 104
2010-06 120 130 80 116
2010-07 105 120 85 128
2010-08 115 105 90 111
2010-09 130 115 100 128
2010-10 130 110 143
17. 17 17
Метод экспоненциального сглаживанияМетод экспоненциального сглаживания
( )1 1t t ty y yα α−= × + × −
) )
( )1 1 1t t ty y yα α− −= × + × −
) )
[ ]0;1α ∈
Рекуррентные формулы:
(для сглаживания) (для прогнозирования) (параметр)
Метод экспоненциального сглаживания
0
50 000
100 000
150 000
200 000
250 000
300 000
350 000
0 5 10 15 20 25 30
Период
Продажи
Продажи (Напитки)
Экспоненциальное сглаживание
Экспоненциальное сглаживание (прогноз)
Метод экспоненциального сглаживания
0
50 000
100 000
150 000
200 000
250 000
300 000
350 000
0 5 10 15 20 25 30
Период
Продажи
Продажи (Напитки)
Экспоненциальное сглаживание
Экспоненциальное сглаживание (прогноз)
α=0.7
α=0.3
Начальное значение прогноза:
1 1y y=
)
1
1
1 k
t
t
y y
k =
= ∑
)
t k ty y+ =
) )
Прогноз:
18. 18 18
Весовые коэффициенты значений временного ряда
0.00
0.05
0.10
0.15
0.20
0.25
i
i-1
i-2
i-3
i-4
i-5
i-6
i-7
i-8
i-9
i-10
i-11
i-12
i-13
i-14
i-15
i-16
i-17
i-18
i-19
i-20
i-21
i-22
период (текущий = i)
k
Действие коэффициента затуханияДействие коэффициента затухания
( ) ( )( ) ( )
( ) ( )
( ) ( ) ( )
1 1 2
2
1 2
2 3
1 2 3
ˆ ˆ ˆ1 1 1
ˆ1 1
ˆ1 1 1 ...
t t t t t t
t t t
t t t t
y y y y y y
y y y
y y y y
α α α α α α
α α α α
α α α α α α
− − −
− −
− − −
= × + × − = × + × + × − × − =
= × + × × − + × − =
= × + × × − + × × − + × − =
( )1 , , 1, 2...
i t
tk t i i iα α
−
= × − = − −
19. 19 19
Метод скользящего среднегоМетод скользящего среднего
o Прогнозируемое значение определяется путем
усреднения нескольких отсчетов временного ряда
(усреднение по «окну»)
o Применяются две модификации: для простого
сглаживания ряда и для построения прогноза
Положение окна относительно текущего Положение окна относительно текущего
периода при сглаживании периода при прогнозировании
yi-k yn-w+1
…
yi => y`i=СРЗНАЧ(по окну) yn-1
yn => y`n=СРЗНАЧ(по окну)
yi+k Прогноз: y`n+1=yn
k - количество периодов в прошлом (или в будущем), которые учитываются
при усреднении вместе с текущим i-м значением
w - общая ширина окна сглаживания
При использовании "центрированного" скользящего среднего w всегда
нечетная, в модификации для прогнозирования можно брать любую w
Получение сглаженного значения по исходному ряду в методе скользящего среднего
При сглаживании: При прогнозировании:
k = 1 w = 2k+1 = 3 w = 4
Период Исходный Сглаженный Период Исходный Сглаженный
1 y1 #Н/Д 1 y1 #Н/Д
2 y2 y`2=(y1+y2+y3)/3 2 y2 #Н/Д
3 y3 y`3=(y2+y3+y4)/3 3 y3 #Н/Д
… … … 4 y4 y`4=(y1+y2+y3+y4)/4
n-2 y[n-2] … 5 y5 y`5=(y2+y3+y4+y5)/4
n-1 y[n-1] … … … …
Последнее: n y[n] #Н/Д <окно выходит n-3 y[n-3] …
за пределы ряда n-2 y[n-2] …
n-1 y[n-1] …
Последнее фактическое значение: n y[n] …
Прогноз: n+1 y[n+1] =y[n]
23. 23 23
Метод ХолтаМетод Холта
o Применяется для временных рядов с тенденцией
o Сглаживание применяется дважды: к исходному ряду и к ряду
из приращений, который отслеживает тенденцию
( ) ( )1 1
ˆ ˆ1t t t ty y y Tα α − −= × + − × +
( ) ( )1 1
ˆ ˆ 1t t t tT y y Tβ β− −= × − + − ×
- сглаженный ряд
- тенденция
ˆ ˆt k t ty y k T+ = + × - прогноз для k-го периода в будущем
-0.20
-0.10
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Фактический спрос
Метод Холта
Экспоненциальное
сглаживание
( ) ( )2 1 3 2
1
2
y y y y
T
− + −
=
24. 24 24
Метод ВинтерсаМетод Винтерса
o Применяется для временных рядов с тенденцией и сезонностью
o Сглаживание применяется трижды: к исходному ряду, ряду из
приращений, который отслеживает тенденцию, сезонным
поправкам
( ) ( )1 1
ˆ ˆ1t
t t t
t s
y
y y T
S
α α − −
−
= × + − × +
( ) ( )1 1
ˆ ˆ 1t t t tT y y Tβ β− −= × − + − ×
- сглаженный ряд без
сезонной компоненты
- тенденция
( )ˆ ˆt k t t t k sy y k T S+ + −= + × × - прогноз для k-го периода в будущем
( )1
ˆ
t
t t s
t
y
S S
y
γ γ −
= × + − × ÷
- сезонный коэффициент
s – период сезонных колебаний
Начальные условия: (a)
(б)
1 1
ˆy y= 1 0T = 1 1sS S =K
1
1
1
ˆ
s
t
t
y y
s =
= ∑
1
, 1
ˆ
i
i
y
S i s
y
= = K250
270
290
310
330
350
370
0 2 4 6 8 10 12 14 16
Продажи Винтер
(с поправкой)
25. 25
Оптимальный выбор параметров сглаживанияОптимальный выбор параметров сглаживания
o Использование стандартной ошибки (RMSE) в качестве критерия
оптимизации параметров приводит к совпадению исходного и
сглаженного ряда (RMSE=0)
o В качестве критерия оптимизации можно использовать величину:
– сумма считается по тем периодам, когда возможно посчитать остаток (есть
прогноз и есть факт)
o - прогноз на 1 период вперед, вычисленный на шаге t-1
– для простого экспоненциального сглаживания:
– для метода Холта:
– для метода Винтерса:
( )( )
2
1 1
ˆ 1 mint tSSE y y −= − →∑ ( )( )
2
1 1
ˆ 1 mint tSSE y y −= − →∑
( )1
ˆ 1ty −
( )1 1
ˆ ˆ1t ty y− −=
( )1 1 1
ˆ ˆ1t t ty y T− − −= +
( ) ( )1 1 1
ˆ ˆ1t t t t sy y T S− − − −= + ×
26. 26 26
Стандартная декомпозиция рядаСтандартная декомпозиция ряда
Аддитивная модель:
Мультипликативная модель:
( ) ( ) ( )ˆy t T t S t= +
( ) ( ) ( )ˆy t T t S t= ×
( ) ( ) ( )S t y t T t= −
( ) ( ) / ( )S t y t T t=
( ) 0S t =∑
( )S t s=∏
y = 1.9231x + 306.67
R
2
= 0.1739
270
280
290
300
310
320
330
340
350
360
370
0 5 10 15 20
Продажи Прогноз (аддит. модель) Прогноз (мульт. модель) Линейный (Продажи)
Editor's Notes
MAE и MAPE часто используются, т.к. их просто посчитать и с их помощью можно приближенно оценить доверительные границы для абсолютной и относительной ошибки при прогнозировании будущих значений. По правилу трех сигм они не превысят с вероятностью 95% 3*MAE и 3*MAPE соответственно