Chronos：Gluontsを使用した事前訓練を受けた時系列予測

Chronosは、主に時系列予測に適合した前提条件の言語モデルとして、主にその基礎を通じてGluontsの他の事前に訓練されたモデルとは異なります。もともと言語モデリング用に設計されたトランスベースのアーキテクチャを使用しますが、これを再利用して時系列データを解釈および予測します。このアプローチは、通常、個々のデータセットまたは予測タスクのために特別にフォーマットされた時系列のコレクションでゼロからトレーニングされる従来の深い学習モデルと対照的です。

Chronosは、スケーリングと量子化を使用して、時系列の値を固定語彙に象徴しています。これにより、大規模で多様な時系列コーパでT5ファミリーのトランスベースの言語モデルを訓練できます。時系列の予測を言語モデリングと同様のシーケンスモデリング問題に変換することにより、Chronosは、利点を予測するために、事前に処理された言語モデルの進歩を活用します。このトレーニングは、確率的予測フレームワークでエントロピーを横断する損失を使用し、予測出力における豊富な不確実性の定量化を直接サポートします。

このモデルは、一般化を改善するためにガウスプロセスを使用して生成された合成データによって補足された、公開されている時系列データセットの広範なコレクションで事前に処理されています。この多様で大規模な事前トレーニングコーパスにより、Chronosは、ゼロショット予測として知られているタスク固有のトレーニングが発生していないタスクでうまく機能します。ゼロショット設定では、Chronosは、これらのデータセットで具体的にトレーニングされているモデルをよく一致または上回る、顕著な精度で、目に見えない新しい時系列の予測を生成します。

Chronosモデルは通常、2つの広範なクラスのモデルと比較されます。古典的な統計的方法(Arima、ETS、季節的ナイーブなど)と、特定の予測データセット(Deepar、TFT、N-Beatsなど)のために訓練された専門的な深い学習モデルです。異なるドメインと周波数にまたがる42のデータセットを含むさまざまなベンチマークにわたって、Chronosは一貫して古典的なベースラインとドメイン内データセットのほとんどのタスク固有のディープラーニングモデルを前提としています。ゼロショットデータセットでは、事前トレーニング中に見られなかったデータセットでは、クロノスモデルは依然として競争力のあるパフォーマンスを維持し、多くのローカルモデルを上回り、これらのタスク用に特別に訓練されたトップディープラーニングモデルを一致させます。

重要な差別化要因の1つは、タスク固有のチューニングや再訓練を必要とせずに、Chronosがボックスから効果的に動作する能力であり、パイプラインの予測ではるかにシンプルで高速な展開を可能にすることです。それにもかかわらず、ユーザーはオプションで独自のデータセットでChronosを微調整して、十分なデータと計算リソースが利用可能な場合、精度をさらに高めることができます。

アーキテクチャに関しては、Chronosはトランス設計を採用しますが、単語やテキストトークンではなく、スケーリングされた数値化された数値を表すトークンとして入力をエンコードすることにより、時系列データに適用します。このアプローチにより、変圧器の長距離依存関係と複雑な時間的パターンのモデリングの強みを活用しながら、不確実性を確率的に管理することができます。

Chronosモデルには、モデル容量と計算需要の間のトレードオフを反映して、数千万から数億から数億のパラメーター(20mから710m)からさまざまなサイズがあります。それにもかかわらず、Chronosは非常に大きな言語モデルと比較して比較的緩やかなモデルサイズを維持することができ、控えめなGPUリソースを持つ開業医がアクセスできるようにします。これは、トレーニングと推論のためにより重要な計算を必要とする可能性のある他の大規模な前提条件の時系列モデルまたはアンサンブルとは対照的です。

トレーニングレジメンには、異なるドメインとサンプリング頻度のモデルの堅牢性を改善するための合成データセット生成を含む包括的なデータ増強戦略が含まれています。この合成増強により、モデルは、利用可能な実際のデータセットでは大きく表されない時系列特性に一般化できます。

計算および展開の観点から、Chronosは大規模なモデルであり、トレーニングと微調整に重要なリソースを必要とする可能性があり、GPU加速度は効率に推奨されます。古典的な従来のモデルと比較して、より高い推論メモリと計算要件がありますが、これらのトレードオフは、精度と一般化機能の改善によってしばしば正当化されます。クロノを展開するためのDockerの画像サイズは、典型的な古典的な機械学習モデルよりも大きくなる可能性があります。これは、リソースの制約または複数の並列インスタンスを備えた生産環境で考慮することが重要です。

Chronosのパフォーマンスは、複数の評価にわたって慎重にベンチマークされています。ベンチマークに使用されるデータセットが事前トレーニングとオーバーラップするドメイン内設定では、Chronosはさまざまなメトリックでトップランクの予測精度を達成し、統計的および深い学習ベースラインを一貫して上回ります。以前から除外されたデータセットを使用したゼロショット評価では、Chronosは依然としてスタンドアロンのローカル統計モデルや、タスクトレーニングを受けた深い学習モデルを上回り、強力な一般化を示しています。たとえば、確率的予測では、いくつかの競合する方法の中で上位にランクされています。

また、Chronosは、確率的予測機能を通じて自分自身を区別し、単なるポイント推定ではなく分布を生成し、予測の不確実性に関するより豊富な情報を提供します。これは、単一値の予測のみを出力するいくつかの古典的なモデルまたは決定論的予測アプローチとは対照的です。

さらに、Chronosは、基礎モデルと転送学習技術が支配する機械学習の進化する傾向と整合しています。時系列の予測を言語モデリングの問題としてフレーミングすることにより、Chronosは、大規模な言語モデル(LLMS)および基礎モデルの研究との進歩と統合するための経路を開きます。この設計により、ドメイン全体の統一されたモデリングアプローチにおける将来のイノベーションのための有望なプラットフォームになります。

Moirai-1.0-R、Lag-lama、LLMTime、ForeCastPFN、および微調整されたGPT-2モデルなどの他の事前に抑制された時系列モデルとの比較は、Chronosが一貫して先にまたはPARで示され、頻繁にゼロショットタスクを上回っています。 Chronosの予測後の微調整により、結果がさらに改善され、従来のコンテキストとゼロショットコンテキストの両方で最先端の予測の1つになります。このアウトパフォーマンスは、言語モデルベースのトークン化と予測アプローチと組み合わせた非常に多様なコーパスに関するトレーニングに起因しています。

要約すると、Chronosは、トランス語モデルに触発された根本的な異なるアーキテクチャを採用し、象徴的な時系列で大規模な事前供給を活用し、堅牢なゼロショット予測パフォーマンスを達成することにより、他のGluontsの前提型モデルと区別します。モデルのサイズと計算のニーズを高い精度と一般性のバランスをとり、確率的予測と微調整をサポートし、NLPおよび時系列分析で橋渡しするタイムシリーズ予測フレームワークの新しいパラダイムを表します。

ChronosはGluontsの他の事前に訓練されたモデルとどのように異なりますか