크로노스 : 글루온트를 사용한 고급 미리 훈련 된 시계열 예측

크로노스는 시계열 예측에 적합한 사전에 적용된 언어 모델로서 기초를 통해 글루온트의 다른 미리 훈련 된 모델과 다릅니다. 언어 모델링을 위해 원래 설계된 변압기 기반 아키텍처를 사용하지만 시계열 데이터를 해석하고 예측하기 위해이를 다시 찾을 수 있습니다. 이 접근법은 일반적으로 개별 데이터 세트 또는 예측 작업을 위해 특별히 포맷 된 시계열 모음에서 처음부터 훈련되는 전통적인 딥 러닝 모델과 대조됩니다.

Chronos는 스케일링 및 양자화를 사용하여 시계열 값을 고정 어휘로 토큰 화하여 크고 다양한 시계열 Corpora의 T5 제품군과 같은 변압기 기반 언어 모델을 훈련시킬 수 있습니다. 시계열 예측을 언어 모델링과 유사한 시퀀스 모델링 문제로 변환함으로써 Chronos는 예측 혜택을 위해 사전에 걸린 언어 모델의 발전을 활용합니다. 교육은 확률 론적 예측 프레임 워크에서 교차 엔트로피 손실을 사용하여 예측 출력에서 직접적으로 불확실성 정량화를 지원합니다.

이 모델은 일반화를 개선하기 위해 가우스 프로세스를 사용하여 생성 된 합성 데이터에 의해 보충 된 광범위한 공개 시계열 데이터 세트에 사전에 사전 배치됩니다. 이 다양하고 대규모 사전 해독 코퍼스를 통해 Chronos는 작업 별 교육이 발생하지 않은 작업에서 제로 샷 예측으로 알려진 작업에서 잘 수행 할 수 있습니다. Zero-Shot 설정에서 Chronos는 놀라운 정확도로 새로운 보이지 않는 시계열에 대한 예측을 생성하며, 종종 해당 데이터 세트에 대해 특별히 훈련 된 모델을 일치 시키거나 능가하는 모델입니다.

크로노스 모델은 일반적으로 두 가지 광범위한 클래스의 모델과 비교됩니다. 고전적인 통계적 방법 (ARIMA, ETS, 계절 순진함) 및 특정 예측 데이터 세트 (Deepar, TFT, N-Beats 등)를 위해 교육 된 전문 딥 러닝 모델과 비교됩니다. 상이한 도메인 및 주파수에 걸친 42 개의 데이터 세트를 포함한 다양한 벤치 마크에서 Chronos는 전형적인 기준선과 대부분의 작업 별 딥 러닝 모델을 발사 한 데이터 세트에서 지속적으로 성능이 우수합니다. 제로 샷 데이터 세트에서 프리 트레인 기간 동안 보이지 않는 크로노스 모델은 여전히 경쟁력있는 성능을 유지하며 많은 지역 모델을 능가하고 해당 작업을 위해 특별히 훈련 된 최고의 딥 러닝 모델을 일치시킵니다.

주요 차별화 요소 중 하나는 Chronos가 작업 별 튜닝 또는 재교육을 필요로하지 않고 상자 밖에서 효과적으로 작동하는 기능으로 예측 파이프 라인에서 훨씬 간단하고 빠른 배포를 가능하게하는 것입니다. 그럼에도 불구하고, 사용자는 자체 데이터 세트에서 크로노를 선택적으로 미세 조정하여 충분한 데이터와 계산 리소스를 사용할 수있는 경우 정확도를 높이기 위해 정확도를 높일 수 있습니다.

아키텍처 측면에서 Chronos는 변압기 설계를 채택하지만 입력을 단어 나 텍스트 토큰보다는 스케일링 및 양자화 된 숫자 값을 나타내는 토큰으로 인코딩하여 시계열 데이터에 적용합니다. 이 접근법은 변압기 모델링 장거리 종속성과 복잡한 시간적 패턴의 강점을 활용하면서 불확실성을 확률 적으로 관리 할 수 있습니다.

크로노스 모델은 모델 용량과 계산 요구 사이의 상충 관계를 반영하는 수천만에서 수억에서 수백만 개의 매개 변수 (20m ~ 710m)까지 다양한 크기로 제공됩니다. 그럼에도 불구하고 Chronos는 매우 큰 언어 모델과 비교하여 비교적 온화한 모델 크기를 유지하여 GPU 자원이 적은 실무자가 액세스 할 수 있도록합니다. 이것은 훈련 및 추론을위한보다 중요한 계산이 필요할 수있는 다른 큰 사전 시계열 모델 또는 앙상블과 대조됩니다.

훈련 요법에는 서로 다른 도메인 및 샘플링 주파수에 대한 모델 견고성을 향상시키기위한 합성 데이터 세트 생성을 포함한 포괄적 인 데이터 확대 전략이 포함됩니다. 이 합성 증강은 모델이 사용 가능한 실제 데이터 세트에 크게 표현되지 않은 시계열 특성으로 일반화 할 수 있도록합니다.

계산 및 배치 관점에서 Chronos는 대규모 모델이며 GPU 가속도가 효율성을 위해 권장되는 교육 및 미세 조정을위한 상당한 리소스가 필요할 수 있습니다. 고전적인 전통적인 모델과 비교할 때 추론 메모리 및 계산 요구 사항이 높지만 이러한 트레이드 오프는 종종 개선 된 정확도 및 일반화 기능으로 정당화됩니다. 크로노를 배포하기위한 Docker 이미지 크기는 일반적인 클래식 머신 러닝 모델보다 클 수 있으며, 이는 자원 제약 조건 또는 여러 병렬 인스턴스가있는 생산 환경에서 고려해야합니다.

Chronos의 성과는 여러 평가에서 신중하게 벤치마킹됩니다. Chronos는 벤치마킹에 사용되는 데이터 세트가 전 사전 조정과 겹치는 인 도메인 설정에서 다양한 메트릭스에서 최고 순위 예측 정확도를 달성하여 통계 및 딥 러닝 기반을 지속적으로 우수합니다. 프리 트레인에서 제외 된 데이터 세트를 사용한 제로 샷 평가에서 크로노는 여전히 독립형 로컬 통계 모델과 일부 작업 훈련 된 딥 러닝 모델을 능가하여 강력한 일반화를 보여줍니다. 예를 들어, 확률 론적 예측에서, 그것은 몇 가지 경쟁 방법 중에서 최상위에 순위가 매겨집니다.

Chronos는 또한 확률 론적 예측 기능을 통해 구별되어 포인트 추정치보다는 분포를 생성하여 예측 불확실성에 대한 더 풍부한 정보를 제공합니다. 이것은 단일 값 예측 만 출력하는 일부 고전적인 모델 또는 결정 론적 예측 접근법과 대조됩니다.

또한 Chronos는 기초 모델과 전송 학습 기술이 지배하는 기계 학습의 발전하는 트렌드와 일치합니다. Chronos는 언어 모델링 문제로 시계열 예측을 프레이밍하여 LLMS (Lange Language Model) 및 기초 모델 연구의 발전과 통합을위한 경로를 열어줍니다. 이 디자인은 도메인에 걸쳐 통합 모델링 접근 방식의 미래 혁신을위한 유망한 플랫폼입니다.

Moirai-1.0-R, Lag-Llama, LLMTIME, FORIGSTPFN 및 미세 조정 된 GPT-2 모델과 같은 다른 사전 시계열 모델과 비교하면 크로노스가 일관되게 미리 또는 동점으로 표시되어 제로 샷 작업의 경우 자주 이들을 능가합니다. 크로노스의 사후 미세 조정은 결과를 더욱 향상시켜 기존 및 제로 샷 컨텍스트에서 최첨단 예측 중 하나입니다. 이러한 성과는 언어 모델 기반 토큰 화 및 예측 접근 방식과 결합 된 매우 다양한 코퍼스에 대한 교육에 기인합니다.

요약하면, Chronos는 변압기 언어 모델에서 영감을 얻은 근본적으로 다른 아키텍처를 사용하고 토큰 화 된 시계열에 대한 대규모 사전 해제를 활용하고 강력한 제로 샷 예측 성능을 달성함으로써 다른 글루온트 사전 모델과 차별화됩니다. 모델 규모와 계산 요구의 정확성과 일반성과 균형을 이루고, 확률 예측 및 미세 조정을 지원하며, NLP 및 시계열 분석에서 발전을 연결하는 시계열 예측 프레임 워크의 새로운 패러다임을 나타냅니다.

Chronos는 Gluonts의 다른 미리 훈련 된 모델과 어떻게 다른가?