SlideShare une entreprise Scribd logo
1  sur  21
Курс «Компьютерная
поддержка
прогнозирования»
Заходякин Глеб Викторович,
кафедра Информационных систем
и технологий в логистике
e-mail: postlogist@gmail.com
2
Метод Бокса-Дженкинса (ARIMA)
o Общие принципы моделирования
o Модели авторегрессии и скользящего среднего
o Выборочная АКФ и ЧАКФ, статистики связанные
с ними
o Приведение ряда к стационарности
o Реализация стратегии разработки модели
o Сезонные модели ARIMA
3
Общая характеристика метода
o Модели ARIMA (Auto-Regressive
Integrated Moving Average) – класс
универсальных линейных моделей
для описания стационарных и
нестационарных временных рядов
o Разработчики – G.P. Box,
G.M. Jenkins (197x-199x)
o Для моделирования используются
только данные временного ряда
o Разработаны расширения моделей –
ARIMAX, учитывающие факторы, выбросы
и структурные изменения различных видов
o Особенностью метода является итеративный подход к определению лучшей
модели среди всех возможных
o Для идентификации моделей используются диаграммы последовательности
ряда и коррелограммы с АКФ и ЧАКФ
o Для оценки адекватности применяется анализ остатков:
– остатки должны быть малыми
– не должно быть закономерных компонент и корреляций
4
Схема применения метода
1. Приведение ряда к стационарности
2. Определение общего класса модели (AR, MA, ARMA, ARIMA)
и порядка модели
3. Оценка параметров модели
4. Статистический анализ модели:
o значимость модели
o значимость коэффициентов
o остаточные корреляции
5. Если модель неадекватна – Goto 2
6. Выбор лучшей модели
7. Прогнозирование
пример: АКФ и ЧАКФ
для процесса AR(1)
5
Исследование автокорреляций
  
 
1
2
1
n
t t kt k
k n
tt
Y Y Y Y
r
Y Y
 

 




kr
tY t kY 
Y
- наблюдение в момент t - наблюдение с лагом (запаздыванием) в k периодов- наблюдение в момент t
- среднее значение временного ряда - коэффициент автокорреляции для лага k
6
Оценка значимости rk
o Стандартная ошибка для rk:
o Доверительный интервал для rk: +/- t * SE(rk)
o Использование t-статистики:
o Критическое значение – t-распределение, df=n-1, a
 
1
2
1
1 2
1
k
i
i
k
r
SE r
nn



 

 
k
k
r
t
SE r

7
Статистика Бокса-Пирса
o Q-Статистика Бокса-Пирса
(Льюнг, Бокс) - Ljung-Box Q
o Для проверки используется распределение Хи2 с m степенями свободы
(m-k) или p-значение (p-вероятность того, что Q будет иметь
наблюдаемую величину по случайным причинам)
o Малое p-значение – АКФ значимо отличается от нуля!
 
2
1
2
m
k
k
r
Q n n
n k
  


8
Модели авторегрессии AR
o Авторегрессионная модель порядка p имеет вид:
оцениваемые коэффициенты в модели – f.
o Коэффициент f0 (константа) связан со средним ряда:
если значения ряда изменяются относительно нуля, или были
центрированы относительно среднего: Zt = Yt – Yср, то константа не
нужна
o Порядок модели можно определить с помощью графика ЧАКФ:
количество rkk > 0 равно порядку модели, АКФ быстро затухает
0 1 1 2 2t t t p t p tY Y Y Yf f f f       
 0 1 21 pf  f f f   
9
Характерный вид коррелограмм
для процесса AR(1)
10
Характерный вид коррелограмм
для процесса AR(2)
АКФ ЧАКФ
11
o В таблице показаны последние данные ряда
o Для описания используется модель AR(2)
o Параметры:
o Прогноз:
Y(76) = 115.2 – 0.535*(72) + 0.055*(99) = 77.2
Как применять модель
Период Время Факт
t-5 71 90
t-4 72 78
t-3 73 87
t-2 74 99
t-1 75 72
t 76 ?
0 1 1 2 2t t t tY Y Yf f f     
0 1 2115.2, 0.535, 0.0055f f f   
12
Модель скользящего среднего MA
o Модель скользящего среднего порядка q задается уравнением:
 – постоянное среднее процесса, оцениваемые параметры – w
o Значение прогноза определяется значением ошибок прогноза в
предыдущих периодах, а не значением самой величины
o Название «скользящее среднее» относится к отклонению Yt от
среднего значения, представляющее собой линейную комбинацию q
ошибок (подобно скользящему окну в методе скользящего среднего):
1 1 2 2t t t t q t qY   w w  w        
Период Время Факт Прогноз Остаток
t-5 71 90 76.1 13.9
t-4 72 78 69.1 8.9
t-3 73 87 75.3 11.7
t-2 74 99 72 27
t-1 75 72 64.3 7.7
t 76 ?
1 1 2 2
(2):
75.4 0.5667 7.7
0.3560 27 80.6
t t t t
MA
Y   w  w      
   
  
1 1 2 2t t t t q t qY   w w  w        
13
Характерный вид коррелограмм
для процесса MA(1)
14
Характерный вид коррелограмм
для процесса MA(2)
ЧАКФАКФ
15
Смешанные модели - ARMA
o Комбинированная модель авторегрессии-скользящего среднего
ARMA(p,q) включает оба вида слагаемых: p авторегрессионных и q
скользящего среднего:
o Характерный вид коррелограмм для процесса ARMA(1,1):
0 1 1 1 1t t p t p t t q t qY Y Yf f f  w w           
АКФ ЧАКФ
АКФ ЧАКФ
16
Вид коррелограмм
для различных процессов
Модель АКФ ЧАКФ
AR(p) Затухает Обрывается на шаге p
MA(q) Обрывается на шаге q Затухает
ARMA(p,q) Затухает Затухает
17
Приведение ряда к стационарности
o Наличие тенденции затрудняет идентификацию модели временного ряда
o Характерный признак: АКФ затухает медленно
18
Стационарность ряда
o Стационарность означает постоянство параметров случайного процесса:
– среднего
– дисперсии
– вида распределения
o «Сильная» стационарность – нормальность распределения
o Способы устранения нестационарности:
– изменение среднего - дифференцирование и сезонное
дифференцирование, удаление тренда
– изменение дисперсии - логарифмирование или степенное преобразование
19
Эффект дифференцирования
o Пример дифференцирования для случайного процесса:
o Порядок разности – d в спецификации модели ARIMA(p,d,q)
1t t tY Y    1 1 1t t t t t t tY Y Y Y Y         
20
Эффект логарифмирования
o Если дисперсия ряда увеличивается с ростом уровня ряда, можно
применить логарифмическое преобразование или извлечение корня
21
Критерии выбора модели
o Информационный критерий Акаике (Akaike Information Criterion, AIC):
o Байесовский информационный критерий Шварца (Bayesian Information
Criterion, BIC)
o Число параметров в модели, включая константу – r
o Оба критерия содержат слагаемое штрафа за увеличение числа
параметров
2
lnAIC MSE r
n
 
ln
ln
n
BIC MSE r
n
 

Contenu connexe

Tendances

Exponential Growth And Decay
Exponential Growth And DecayExponential Growth And Decay
Exponential Growth And Decay
Phil Saraspe
 
Lesson 14 derivative of inverse hyperbolic functions
Lesson 14 derivative of inverse hyperbolic functionsLesson 14 derivative of inverse hyperbolic functions
Lesson 14 derivative of inverse hyperbolic functions
Rnold Wilson
 
L1 functions, domain & range
L1 functions, domain & rangeL1 functions, domain & range
L1 functions, domain & range
James Tagara
 

Tendances (20)

Movement impairments of cervical and lumbar spine
Movement impairments of cervical and lumbar spineMovement impairments of cervical and lumbar spine
Movement impairments of cervical and lumbar spine
 
An introduction to reinforcement learning
An introduction to  reinforcement learningAn introduction to  reinforcement learning
An introduction to reinforcement learning
 
The Squat: An Analysis
The Squat: An AnalysisThe Squat: An Analysis
The Squat: An Analysis
 
Proximal Policy Optimization (Reinforcement Learning)
Proximal Policy Optimization (Reinforcement Learning)Proximal Policy Optimization (Reinforcement Learning)
Proximal Policy Optimization (Reinforcement Learning)
 
Complex varible
Complex varibleComplex varible
Complex varible
 
Exponential Growth And Decay
Exponential Growth And DecayExponential Growth And Decay
Exponential Growth And Decay
 
Policy Gradient Theorem
Policy Gradient TheoremPolicy Gradient Theorem
Policy Gradient Theorem
 
Синтез оптимального керування для систем диференціальних рівнянь с нефіксован...
Синтез оптимального керування для систем диференціальних рівнянь с нефіксован...Синтез оптимального керування для систем диференціальних рівнянь с нефіксован...
Синтез оптимального керування для систем диференціальних рівнянь с нефіксован...
 
Iterative methods
Iterative methodsIterative methods
Iterative methods
 
Transformations of functions
Transformations of functionsTransformations of functions
Transformations of functions
 
Lagrangian mechanics
Lagrangian mechanicsLagrangian mechanics
Lagrangian mechanics
 
Reinforcement Learning, Application and Q-Learning
Reinforcement Learning, Application and Q-LearningReinforcement Learning, Application and Q-Learning
Reinforcement Learning, Application and Q-Learning
 
Chapter 9 - convolutional networks
Chapter 9 - convolutional networksChapter 9 - convolutional networks
Chapter 9 - convolutional networks
 
Lesson 14 derivative of inverse hyperbolic functions
Lesson 14 derivative of inverse hyperbolic functionsLesson 14 derivative of inverse hyperbolic functions
Lesson 14 derivative of inverse hyperbolic functions
 
Gait
GaitGait
Gait
 
Popular search algorithms
Popular search algorithmsPopular search algorithms
Popular search algorithms
 
Reinforcement Learning
Reinforcement LearningReinforcement Learning
Reinforcement Learning
 
vector spaces notes.pdf
vector spaces notes.pdfvector spaces notes.pdf
vector spaces notes.pdf
 
Inverse function
Inverse functionInverse function
Inverse function
 
L1 functions, domain & range
L1 functions, domain & rangeL1 functions, domain & range
L1 functions, domain & range
 

En vedette

En vedette (20)

Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияПрогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
 
Прогнозирование - Лекция 6. Использование инструментов подготовки данных и пр...
Прогнозирование - Лекция 6. Использование инструментов подготовки данных и пр...Прогнозирование - Лекция 6. Использование инструментов подготовки данных и пр...
Прогнозирование - Лекция 6. Использование инструментов подготовки данных и пр...
 
Прогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессияПрогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессия
 
Визуализация данных на географических картах - 2016
Визуализация данных на географических картах - 2016Визуализация данных на географических картах - 2016
Визуализация данных на географических картах - 2016
 
Прогнозирование - Лекция 4. Регрессионные модели временных рядов
Прогнозирование - Лекция 4. Регрессионные модели временных рядовПрогнозирование - Лекция 4. Регрессионные модели временных рядов
Прогнозирование - Лекция 4. Регрессионные модели временных рядов
 
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессияПрогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
 
Визуализация данных на географических картах в Tableau (базовый уровень)
Визуализация данных на географических картах в Tableau (базовый уровень)Визуализация данных на географических картах в Tableau (базовый уровень)
Визуализация данных на географических картах в Tableau (базовый уровень)
 
Визуализация данных на географических картах в Tableau. Следующий уровень.
Визуализация данных на географических картах в Tableau. Следующий уровень.Визуализация данных на географических картах в Tableau. Следующий уровень.
Визуализация данных на географических картах в Tableau. Следующий уровень.
 
1 spss общие сведения
1 spss общие сведения1 spss общие сведения
1 spss общие сведения
 
Прогнозирование - Лекция 7. Oracle Demand Management
Прогнозирование - Лекция 7. Oracle Demand ManagementПрогнозирование - Лекция 7. Oracle Demand Management
Прогнозирование - Лекция 7. Oracle Demand Management
 
Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.
 
Трансформация данных в Deductor Studio
Трансформация данных в Deductor StudioТрансформация данных в Deductor Studio
Трансформация данных в Deductor Studio
 
Тренинг GLPK, часть 1: Модель планирования производства
Тренинг GLPK, часть 1: Модель планирования производстваТренинг GLPK, часть 1: Модель планирования производства
Тренинг GLPK, часть 1: Модель планирования производства
 
Тренинг GLPK, часть 2: Двухиндексные задачи
Тренинг GLPK, часть 2: Двухиндексные задачиТренинг GLPK, часть 2: Двухиндексные задачи
Тренинг GLPK, часть 2: Двухиндексные задачи
 
Взаимодействие с источниками данных в GLPK
Взаимодействие с источниками данных в GLPKВзаимодействие с источниками данных в GLPK
Взаимодействие с источниками данных в GLPK
 
Тренинг GLPK, часть 3: Транспортная задача
Тренинг GLPK, часть 3: Транспортная задачаТренинг GLPK, часть 3: Транспортная задача
Тренинг GLPK, часть 3: Транспортная задача
 
Business statisics and forecasting techniques: testing models.
Business statisics and forecasting techniques: testing models. Business statisics and forecasting techniques: testing models.
Business statisics and forecasting techniques: testing models.
 
Sales forecasting 101
Sales forecasting 101Sales forecasting 101
Sales forecasting 101
 
Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...
Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...
Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...
 
среднесрочное прогнозирование нефтяных цен в R
среднесрочное прогнозирование нефтяных цен в Rсреднесрочное прогнозирование нефтяных цен в R
среднесрочное прогнозирование нефтяных цен в R
 

Прогнозирование - Лекция 5. Методология Бокса-Дженкинса (модели ARIMA)

  • 1. Курс «Компьютерная поддержка прогнозирования» Заходякин Глеб Викторович, кафедра Информационных систем и технологий в логистике e-mail: postlogist@gmail.com
  • 2. 2 Метод Бокса-Дженкинса (ARIMA) o Общие принципы моделирования o Модели авторегрессии и скользящего среднего o Выборочная АКФ и ЧАКФ, статистики связанные с ними o Приведение ряда к стационарности o Реализация стратегии разработки модели o Сезонные модели ARIMA
  • 3. 3 Общая характеристика метода o Модели ARIMA (Auto-Regressive Integrated Moving Average) – класс универсальных линейных моделей для описания стационарных и нестационарных временных рядов o Разработчики – G.P. Box, G.M. Jenkins (197x-199x) o Для моделирования используются только данные временного ряда o Разработаны расширения моделей – ARIMAX, учитывающие факторы, выбросы и структурные изменения различных видов o Особенностью метода является итеративный подход к определению лучшей модели среди всех возможных o Для идентификации моделей используются диаграммы последовательности ряда и коррелограммы с АКФ и ЧАКФ o Для оценки адекватности применяется анализ остатков: – остатки должны быть малыми – не должно быть закономерных компонент и корреляций
  • 4. 4 Схема применения метода 1. Приведение ряда к стационарности 2. Определение общего класса модели (AR, MA, ARMA, ARIMA) и порядка модели 3. Оценка параметров модели 4. Статистический анализ модели: o значимость модели o значимость коэффициентов o остаточные корреляции 5. Если модель неадекватна – Goto 2 6. Выбор лучшей модели 7. Прогнозирование пример: АКФ и ЧАКФ для процесса AR(1)
  • 5. 5 Исследование автокорреляций      1 2 1 n t t kt k k n tt Y Y Y Y r Y Y          kr tY t kY  Y - наблюдение в момент t - наблюдение с лагом (запаздыванием) в k периодов- наблюдение в момент t - среднее значение временного ряда - коэффициент автокорреляции для лага k
  • 6. 6 Оценка значимости rk o Стандартная ошибка для rk: o Доверительный интервал для rk: +/- t * SE(rk) o Использование t-статистики: o Критическое значение – t-распределение, df=n-1, a   1 2 1 1 2 1 k i i k r SE r nn         k k r t SE r 
  • 7. 7 Статистика Бокса-Пирса o Q-Статистика Бокса-Пирса (Льюнг, Бокс) - Ljung-Box Q o Для проверки используется распределение Хи2 с m степенями свободы (m-k) или p-значение (p-вероятность того, что Q будет иметь наблюдаемую величину по случайным причинам) o Малое p-значение – АКФ значимо отличается от нуля!   2 1 2 m k k r Q n n n k     
  • 8. 8 Модели авторегрессии AR o Авторегрессионная модель порядка p имеет вид: оцениваемые коэффициенты в модели – f. o Коэффициент f0 (константа) связан со средним ряда: если значения ряда изменяются относительно нуля, или были центрированы относительно среднего: Zt = Yt – Yср, то константа не нужна o Порядок модели можно определить с помощью графика ЧАКФ: количество rkk > 0 равно порядку модели, АКФ быстро затухает 0 1 1 2 2t t t p t p tY Y Y Yf f f f         0 1 21 pf  f f f   
  • 11. 11 o В таблице показаны последние данные ряда o Для описания используется модель AR(2) o Параметры: o Прогноз: Y(76) = 115.2 – 0.535*(72) + 0.055*(99) = 77.2 Как применять модель Период Время Факт t-5 71 90 t-4 72 78 t-3 73 87 t-2 74 99 t-1 75 72 t 76 ? 0 1 1 2 2t t t tY Y Yf f f      0 1 2115.2, 0.535, 0.0055f f f   
  • 12. 12 Модель скользящего среднего MA o Модель скользящего среднего порядка q задается уравнением:  – постоянное среднее процесса, оцениваемые параметры – w o Значение прогноза определяется значением ошибок прогноза в предыдущих периодах, а не значением самой величины o Название «скользящее среднее» относится к отклонению Yt от среднего значения, представляющее собой линейную комбинацию q ошибок (подобно скользящему окну в методе скользящего среднего): 1 1 2 2t t t t q t qY   w w  w         Период Время Факт Прогноз Остаток t-5 71 90 76.1 13.9 t-4 72 78 69.1 8.9 t-3 73 87 75.3 11.7 t-2 74 99 72 27 t-1 75 72 64.3 7.7 t 76 ? 1 1 2 2 (2): 75.4 0.5667 7.7 0.3560 27 80.6 t t t t MA Y   w  w              1 1 2 2t t t t q t qY   w w  w        
  • 15. 15 Смешанные модели - ARMA o Комбинированная модель авторегрессии-скользящего среднего ARMA(p,q) включает оба вида слагаемых: p авторегрессионных и q скользящего среднего: o Характерный вид коррелограмм для процесса ARMA(1,1): 0 1 1 1 1t t p t p t t q t qY Y Yf f f  w w            АКФ ЧАКФ АКФ ЧАКФ
  • 16. 16 Вид коррелограмм для различных процессов Модель АКФ ЧАКФ AR(p) Затухает Обрывается на шаге p MA(q) Обрывается на шаге q Затухает ARMA(p,q) Затухает Затухает
  • 17. 17 Приведение ряда к стационарности o Наличие тенденции затрудняет идентификацию модели временного ряда o Характерный признак: АКФ затухает медленно
  • 18. 18 Стационарность ряда o Стационарность означает постоянство параметров случайного процесса: – среднего – дисперсии – вида распределения o «Сильная» стационарность – нормальность распределения o Способы устранения нестационарности: – изменение среднего - дифференцирование и сезонное дифференцирование, удаление тренда – изменение дисперсии - логарифмирование или степенное преобразование
  • 19. 19 Эффект дифференцирования o Пример дифференцирования для случайного процесса: o Порядок разности – d в спецификации модели ARIMA(p,d,q) 1t t tY Y    1 1 1t t t t t t tY Y Y Y Y         
  • 20. 20 Эффект логарифмирования o Если дисперсия ряда увеличивается с ростом уровня ряда, можно применить логарифмическое преобразование или извлечение корня
  • 21. 21 Критерии выбора модели o Информационный критерий Акаике (Akaike Information Criterion, AIC): o Байесовский информационный критерий Шварца (Bayesian Information Criterion, BIC) o Число параметров в модели, включая константу – r o Оба критерия содержат слагаемое штрафа за увеличение числа параметров 2 lnAIC MSE r n   ln ln n BIC MSE r n  

Notes de l'éditeur

  1. Примечание. В русскоязычной литере иногда применяется обозначение АРПСС – модели авторегрессии и проинтегрированного скользящего среднего
  2. Примечание. Q -статистика применяется для исследования значимости нескольких (например, первых 10) коэффициентов автокорреляции, как правило, в остатках моделей прогнозирования. Метод проверки основан на том, что для случайных, независимых, одинаково распределенных остатков (белого шума) Q- статистика представляет собой сумму квадратов нормальных случайных величин, т.е. имеет Хи 2 распределение. Для Хи 2 распределения имеются таблицы критических значений, входами в таблицу является число слагаемых (число степеней свободы m) и уровень значимости. Гипотеза H0: коэффициенты автокорреляции равны нулю и остатки независимы. Альтернативная гипотеза H1: по крайней мере один коэффициент автокорреляции отличен от нуля ( => остатки зависимы). Если Q- статистика < критического значения для заданного числа степеней свободы (m – число коэффициентов автокорреляции для исходного ряда, либо m-k – разность числа коэффициентов и числа оцениваемых параметров модели), то нет оснований отвергнуть H0, т.к. распределение Q- статистики не отличается от Хи 2 . Если Q > критического значения, то ее распределение отличается от Хи 2 на уровне значимости alpha. Эту же гипотезу можно проверить и с помощью p- значения. p – вероятность того, что распределение выборочной статистики не отличается от Хи 2 . При малом p (Sig.) гипотезу следует отвергнуть и признать наличие автокорреляций.
  3. Примечание : Y t – отклик ( зависимая переменная) в момент времени t Y t-1 , … Y t-p – отклик в момент времени t-1…t-p eps t – ошибка, учитывающая влияние переменных, не включенных в модель. Предположения о свойствах ошибки – те же, что и для регрессии (нормальность, стационарность, независимость)
  4. Примечание. Эта модель также похожа на AR(1). Необходимо построить обе и выбрать лучшую по R 2 и BIC
  5. АКФ показывает связь сигнала (функции f(t)) с собственной копией, смещенной на tau