Chronos: Zaawansowane wcześniej wyszkolone prognozy szeregów czasowych z Gluonts

Chronos różni się od innych wstępnie wyszkolonych modeli w Gluonts przede wszystkim poprzez jego podstawę jako preferowany model językowy dostosowany do prognozowania szeregów czasowych. Wykorzystuje architekturę opartą na transformatorze pierwotnie zaprojektowana do modelowania języków, ale ponownie wykorzystuje ją do interpretacji i przewidywania danych szeregów czasowych. Takie podejście kontrastuje tradycyjne i głębokie modele uczenia się, które są zazwyczaj szkolone od zera na poszczególnych zestawach danych lub zbiory szeregów czasowych specjalnie sformatowanych do prognozowania zadań.

Chronos tokenizuje wartości szeregów czasowych w ustalone słownictwo przy użyciu skalowania i kwantyzacji, co pozwala na szkolenie modeli językowych opartych na transformatorze, takich jak te z rodziny T5 na dużych i różnorodnych korpusach szeregów czasowych. Przekształcając prognozowanie szeregów czasowych w problem modelowania sekwencji podobny do modelowania języka, Chronos wykorzystuje postępy w preferowanych modelach językowych dla korzyści prognozowania. Szkolenie wykorzystuje utratę między entropią w probabilistycznym ramie prognozowania, wspierając bogatą kwantyfikację niepewności bezpośrednio w wynikach prognoz.

Model jest poddawany rozległym gromadzeniu publicznie dostępnych zestawów danych szeregów czasowych, uzupełnionych syntezowymi danymi generowanymi przy użyciu procesów Gaussa w celu poprawy uogólnienia. Ten zróżnicowany i duży korpus pretrenujący umożliwia chronosowi dobre wykonywanie zadań, w których nie nastąpiło szkolenie specyficzne dla zadania, znane jako prognozowanie zerowego strzału. W ustawieniach zerowych chronos generuje prognozy dotyczące nowych, niewidzialnych szeregów czasowych z niezwykłą dokładnością, często dopasowując lub przewyższając modele, które zostały specjalnie przeszkolone w tych zestawach danych.

Modele Chronos są zwykle porównywane z dwiema szerokimi klasami modeli: klasyczne metody statystyczne (takie jak ARIMA, ETS, sezonowe naiwne) i wyspecjalizowane modele głębokiego uczenia się przeszkolone w przypadku konkretnych zestawów danych prognozujących (takie jak Deepar, TFT, N-Beat i wiele innych). W różnych testach porównawczych, w tym 42 zestawach danych obejmujących różne domeny i częstotliwości, Chronos konsekwentnie przewyższa klasyczne podstawowe linię bazowe i większość modeli głębokiego uczenia się zadań na zestawach danych w domenach, w których zostały wypłacone. W zestawach danych zerowych, tych, którzy nie są widoczni podczas pretrenowania, modele Chronos nadal utrzymują wydajność konkurencyjną, przewyższając wiele lokalnych modeli i dopasowując najwyższe modele głębokiego uczenia się specjalnie przeszkolone dla tych zadań.

Jednym z kluczowych wyróżników jest zdolność chronos do skutecznego działania po wyjęciu z pudełka bez konieczności dostrajania lub przekwalifikowania specyficznego dla zadania, umożliwiając znacznie prostsze i szybsze wdrażanie rurociągów prognozujących. Niemniej jednak użytkownicy mogą opcjonalnie dostroić Chronos do własnych zestawów danych, aby jeszcze bardziej zwiększyć dokładność, jeśli dostępne są wystarczające dane i zasoby obliczeniowe.

Pod względem architektury Chronos przyjmuje projekt transformatora, ale stosuje go do danych szeregów czasowych, kodując dane wejściowe jako tokeny reprezentujące skalowane i kwantyzowane wartości liczbowe, a nie słowa lub tokeny tekstowe. Takie podejście pozwala mu wykorzystać siły modelowania transformatorów na dalekie odległości i złożonych wzorców czasowych, a jednocześnie zarządza niepewnością probabilistyczną.

Modele Chronos występują w różnych rozmiarach, od dziesiątków milionów do setek milionów parametrów (od 200 do 710 m), odzwierciedlając kompromisy między wydajnością modelu a wymaganiami obliczeniowymi. Mimo to Chronosowi udaje się zachować stosunkowo umiarkowany rozmiar modelu w porównaniu z bardzo dużymi modelami językowymi, dzięki czemu jest dostępny dla praktyków o skromnych zasobach GPU. Kontrastuje to z innymi dużymi modelem lub zespołami, które mogą wymagać bardziej znaczącego obliczenia do szkolenia i wnioskowania.

Schemat szkolenia obejmuje kompleksowe strategie powiększania danych, w tym syntetyczne generowanie zestawów danych, aby poprawić odporność modelu w różnych domenach i częstotliwości próbkowania. To syntetyczne powiększenie umożliwia modelu uogólnienie charakterystyki szeregów czasowych, które nie są mocno reprezentowane w dostępnych prawdziwych zestawach danych.

Z punktu widzenia obliczeniowego i wdrażania Chronos jest dużym modelem i może wymagać znacznych zasobów do szkolenia i dostrajania, z zaleceniami przyspieszenia GPU dla wydajności. W porównaniu z klasycznymi tradycyjnymi modelami ma wyższe wymagania pamięci wnioskowania i obliczeniowe, ale te kompromisy są często uzasadnione poprawą dokładności i uogólnienia. Rozmiar obrazu Docker do wdrażania chronów może być większy niż typowe klasyczne modele uczenia maszynowego, co należy wziąć pod uwagę w środowiskach produkcyjnych z ograniczeniami zasobów lub wieloma równoległymi instancjami.

Wydajność Chronosa jest starannie porównywana w wielu ocenach. W ustawieniach w domenach, w których zestawy danych wykorzystywane do testu porównawczego nakładają się na pretrenowanie, Chronos osiąga najwyższą ocenę dokładności prognozowania w różnych wskaźnikach, co jest konsekwentnie przewyższające podstawowe podstawy statystyczne i głębokie uczenie się. W ocenie zerowej za pomocą zestawów danych wykluczonych z pretracjonowania Chronos nadal przewyższa samodzielne lokalne modele statystyczne, a nawet niektóre wyszkolone w zadania modele głębokiego uczenia się, wykazujące silne uogólnienie. Na przykład, w prognozowaniu probabilistycznym, plasuje się na szczycie kilku konkurencyjnych metod.

Chronos rozróżnia się również poprzez swoje probabilistyczne możliwości prognozowania, powodując rozkłady, a nie tylko szacunki punktowe, co zapewnia bogatsze informacje na temat niepewności prognozy. Kontrastuje to z niektórymi klasycznymi modelami lub deterministycznymi metodami prognozowania, które wyświetlają jedynie prognozy jednokierunkowe.

Ponadto Chronos jest zgodny z ewoluującymi trendami w uczeniu maszynowym, w których dominują modele fundamentów i techniki uczenia się transferu. Rozpowszechniając prognozowanie szeregów czasowych jako problemu modelowania języka, Chronos otwiera ścieżki integracji z postępami w dużych modelach językowych (LLM) i badań modeli fundamentów. Ten projekt sprawia, że jest to obiecująca platforma dla przyszłych innowacji w jednolitych podejściach modelowania w różnych domenach.

Porównania z innymi pretrutowanymi modelami szeregów czasowych, takich jak Moirai-1.0-R, Lag-Llama, LLMTime, PrognostPFN i dopracowane modele GPT-2, pokazują chronos konsekwentnie przed lub na równi, często przewyższając je do zadań zerowych. Roztyczanie chronów po przygotowaniu dodatkowo poprawia wyniki, co czyni go jedną z najnowocześniejszych prognoz w kontekście konwencjonalnym i zerowym. Ta lepsza wyniki przypisuje się jej szkoleniu na wysoce zróżnicowanym korpusie w połączeniu z podejściem tokenize-i predyktowym opartym na modelu języka.

Podsumowując, Chronos odróżnia się od innych modeli Gluonts, stosując zasadniczo inną architekturę inspirowaną modelem języków transformatorów, wykorzystując dużą skalę pretracjonalnymi w tokenizowanych szeregach czasowych i osiągając solidną wydajność prognozowania zerowego strzału. Równoważy wielkość modelu i potrzeby obliczeniowe z wysoką dokładnością i ogólnością, wspiera probabilistyczne prognozowanie i dostrajanie oraz stanowi nowy paradygmat w ramach prognozowania szeregów czasowych, które wypełniają postęp w analizie NLP i szeregach czasowych.

Czym różni się chrono od innych wstępnie wyszkolonych modeli w Gluonts