Для многих систем характерны частые случайные всплески прогнозируемых величин, поскольку они не поддаются прогнозированию, а лишь вносят случайный шум, их нужно отфильтровать, именно для этого используются специальные алгоритмы сглаживания.
Методы сглаживания будут рассматриваться для интерполяции на временном диапазоне в три дня, которые при этом характерно выражены влиянием случайной составляющей.
Исходные данные по скоростям, для сравнения различных методов сглаживания временных рядов:
— | 12.03.2014 | 20.03.2014 | 25.03.2014 |
0 | 413 | 221 | 1266 |
1 | 176 | 89 | 423 |
2 | 136 | 81 | 351 |
3 | 55 | 47 | 150 |
4 | 33 | 28 | 64 |
5 | 30 | 31 | 52 |
6 | 35 | 55 | 76 |
7 | 85 | 138 | 187 |
8 | 107 | 203 | 526 |
9 | 171 | 308 | 1034 |
10 | 252 | 398 | 1969 |
11 | 314 | 569 | 3007 |
12 | 341 | 968 | 3661 |
13 | 442 | 2244 | 6081 |
14 | 652 | 3363 | 7376 |
15 | 1048 | 6265 | 7639 |
16 | 1505 | 10029 | 5768 |
17 | 1625 | 10565 | 6629 |
18 | 1821 | 13293 | 8294 |
19 | 2142 | 15227 | 10841 |
20 | 3465 | 19770 | 15646 |
21 | 3947 | 26747 | 20994 |
22 | 3008 | 15251 | 21894 |
23 | 1743 | 5690 | 11843 |
Метод сглаживания постой скользящей
Скользящая средняя для данной точки временного ряда равна арифметической сумме предыдущих исходов, деленной на их число.
где j – число рассматриваемых дней;
t – рассматриваемый момент времени;
H – матрица исходов;
i – рассматриваемый день.
Для данного случая требуется взять j=3 (рассматриваемый диапазон – три дня) и сгладить их с помощью формулы.
В результате сглаживания получилась кривая, близкая к эталону, не имеющая случайных всплесков, однако метод простой скользящей средней имеет существенный недостаток – данные по любым исходам (и старым и новым) вносят одинаковый вес, в итоге получается функция, которая может не иметь ничего общего с текущими значениями.
Предполагается, что последние значения исходов должны вносить в сглаженную функцию, большие изменения, чем от предыдущих исходов. Кроме того, такой метод хорошо применять для стабильных и уравновешенных систем, а, рассматриваемая в данной работе система, высокодинамичная и значение предыдущих дней и, даже, часов, могут практически не влиять на текущие и будущие значений функции.
Метод сглаживания взвешенной скользящей
В отличие от простого среднего в методе взвешенного среднего последним исходам отдается существенное преимущество при расчете сглаженной функции.
Расчет производится по следующей формуле:
где j – число дней;
t – рассматриваемый момент времени;
H – матрица исходов.
Производится расчет взвешенного среднего для последнего из трех выбранных периодов, результаты представлены на рисунке.
Такой метод сглаживание уже может претендовать на реальное применение, однако MAPE относительно исходной и сглаженной функции сразу добавит к ошибке прогноза, в рассматриваемом примере – 25%, что, более чем, существенно. Применяя этот метод, нужно помнить, что он сглаживает лишь случайные колебания. Если же ряд содержит сезонную составляющую, она сохранится и после сглаживания.
Можно пытаться уменьшить добавляемую ошибку к прогнозу изменяя весовые коэффициенты в приведенной формуле однако это будет необходимо проделывать для каждой конкретной задачи, а, возможно, и для некоторых из рассматриваемых промежутков времени.
Метод экспоненциального сглаживания
Обычно, при прогнозировании временных рядов, используется метод экспоненциального сглаживания.
Достоинство модели экспоненциального сглаживания состоит в том, что в ней придается более высокий вес поздней информации и относительно просто оцениваются значения коэффициентов даже в достаточно сложных случаях, например, при описании сезонных циклов. Уточнение прогноза при экспоненциальном сглаживании производится по принципу обратной связи — новые прогнозы корректируются на основе учета ошибок в предшествующих прогнозах.
Модель экспоненциального сглаживания описывается следующей формулой:
где – сглаженный временной ряд;
– исходный ряд;
α – коэффициент сглаживания;
t – момент времени.
Построив сглаженный ряд (S1, S2, S3) для каждого из заданных дней и коэффициентов сглаживания (0,95, 0,65 и 0,45), можно получить следующие зависимости, представленные соответственно на рисунке для α = 0,95, для α = 0,65 и на рис. 3.7 для α = 0,45.
Для выбора оптимального коэффициента α, оценим ошибку, которая будет добавляться в прогноз от сглаживания временного ряда. Данные оценок расхождения исходных и сглаженных функций для α = 0,65 внесены в таблицу:
Оценка расхождения исходных и сглаженных функций при α = 0,65
— | 12.03.2014 | 20.03.2014 | 25.03.2014 | S1 | S2 | S3 | Err_1 | Err_2 | Err_3 |
0 | 413 | 221 | 1266 | 413 | 221 | 1266 | 0,00 | 0,00 | 0,00 |
1 | 176 | 89 | 423 | 259 | 135 | 718 | 0,47 | 0,52 | 0,70 |
2 | 136 | 81 | 351 | 179 | 100 | 479 | 0,32 | 0,23 | 0,37 |
3 | 55 | 47 | 150 | 98 | 66 | 265 | 0,79 | 0,39 | 0,77 |
4 | 33 | 28 | 64 | 56 | 41 | 134 | 0,69 | 0,47 | 1,10 |
5 | 30 | 31 | 52 | 39 | 35 | 81 | 0,30 | 0,11 | 0,56 |
6 | 35 | 55 | 76 | 36 | 48 | 78 | 0,04 | 0,13 | 0,02 |
7 | 85 | 138 | 187 | 68 | 106 | 149 | 0,20 | 0,23 | 0,20 |
8 | 107 | 203 | 526 | 93 | 169 | 394 | 0,13 | 0,17 | 0,25 |
9 | 171 | 308 | 1034 | 144 | 259 | 810 | 0,16 | 0,16 | 0,22 |
10 | 252 | 398 | 1969 | 214 | 349 | 1563 | 0,15 | 0,12 | 0,21 |
11 | 314 | 569 | 3007 | 279 | 492 | 2502 | 0,11 | 0,14 | 0,17 |
12 | 341 | 968 | 3661 | 319 | 801 | 3255 | 0,06 | 0,17 | 0,11 |
13 | 442 | 2244 | 6081 | 399 | 1739 | 5092 | 0,10 | 0,22 | 0,16 |
14 | 652 | 3363 | 7376 | 563 | 2795 | 6577 | 0,14 | 0,17 | 0,11 |
15 | 1048 | 6265 | 7639 | 878 | 5050 | 7267 | 0,16 | 0,19 | 0,05 |
16 | 1505 | 10029 | 5768 | 1286 | 8286 | 6293 | 0,15 | 0,17 | 0,09 |
17 | 1625 | 10565 | 6629 | 1506 | 9768 | 6511 | 0,07 | 0,08 | 0,02 |
18 | 1821 | 13293 | 8294 | 1711 | 12059 | 7670 | 0,06 | 0,09 | 0,08 |
19 | 2142 | 15227 | 10841 | 1991 | 14118 | 9731 | 0,07 | 0,07 | 0,10 |
20 | 3465 | 19770 | 15646 | 2949 | 17792 | 13576 | 0,15 | 0,10 | 0,13 |
21 | 3947 | 26747 | 20994 | 3598 | 23613 | 18398 | 0,09 | 0,12 | 0,12 |
22 | 3008 | 15251 | 21894 | 3214 | 18178 | 20670 | 0,07 | 0,19 | 0,06 |
23 | 1743 | 5690 | 11843 | 2258 | 10061 | 14933 | 0,30 | 0,77 | 0,26 |
Aplha | 0,65 | ||||||||
MAPE_1 | 19,88 | ||||||||
MAPE_2 | 20,74 | ||||||||
MAPE_3 | 19,54 |
Данные оценок расхождения исходных и сглаженных функций для всех рассмотренных α (0,95, 0,65 и 0,45) занесены в сводную таблицу:
Оценка расхождения исходных и сглаженных функций при α = 0,95,
α = 0,65 и α = 0,45
α = 0,95 | α = 0,65 | α = 0,45 | |
Mape_1 | 1,95 | 19,88 | 44,49 |
Mape_2 | 2,03 | 20,74 | 46,42 |
Mape_3 | 1,85 | 19,54 | 45,17 |
Метод экспоненциального сглаживания показывает лучшие результаты, по сравнению с простым и взвешенным средним сглаживанием, и хорошо подходит для данной системы, т.к. не учитывает при сглаживании исходы по часам за разные сутки, а отталкивается от значения предыдущего часа.
Выводы
Для сглаживания временных рядов в задачах прогноза скорости показов рекламы в интернете, выбран метод экспоненциального сглаживания с коэффициентом α = 0,65. С одной стороны, это позволяет сгладить случайную составляющую, а с другой – не вносит значительных изменений, которые могли бы существенно уменьшить точность прогнозирования еще на этапе сглаживания
Автор: Чернядьев Леонид Валерьевич