Porównanie danych treningowych DeepSeek-R1 i Lamy 3.1

Jakie są kluczowe różnice w danych treningowych wykorzystywanych dla DeepSeek-R1 i LAMA 3.1

Dane szkoleniowe dla DeepSeek-R1 i LAMA 3.1 wykazują kilka kluczowych różnic, odzwierciedlając różne podejścia do rozwoju modelu.

Dane szkoleniowe Deepseek-R1

Deepseek-R1 jest szkolony przy użyciu wieloetapowego procesu, który łączy uczenie się wzmocnienia (RL) z nadzorowanym dostrajaniem (SFT). Model zaczyna się od fazy „zimnego startu”, w której jest dopracowany na niewielkim zestawie starannie wykonanych przykładów w celu poprawy jasności i czytelności. Następnie następuje Pure RL w celu zwiększenia umiejętności rozumowania, podobnie jak R1-Zero. W pobliżu konwergencji RL model wykorzystuje próbkowanie odrzucania do tworzenia danych syntetycznych, wybierając najlepsze przykłady z poprzednich przebiegów RL. Te syntetyczne dane są następnie scalane z nadzorowanymi danymi z DeepSeek-V3-baz w domenach takich jak pisanie, QA i samo przekazanie. Ostatni etap obejmuje kolejną rundę RL w różnych podpowiedzi i scenariuszach w celu dalszego uogólnienia możliwości modelu [1] [4].

Llama 3.1 Dane szkoleniowe

Z drugiej strony LAMA 3.1 jest przeszkolony na ogromnym korpusie około 15 bilionów tokenów z publicznie dostępnych źródeł, z datą odcięcia wiedzy z grudnia 2023 r. [8]. Zestaw danych szkoleniowych obejmuje zrównoważoną mieszankę ogólnych domen, danych matematycznych i rozumowania, tekstów wielojęzycznych i kodu z różnych języków programowania w celu zwiększenia funkcji kodu i zrozumienia możliwości [5]. Model ulega początkowym wstępnym treningowi za pomocą celu przewidywania nowoczesnego, a następnie długiego kontaktu przed treningiem w celu obsługi długich dokumentów i złożonych zadań rozumowania. Mieszanka danych jest starannie dostosowywana w celu poprawy wydajności określonych zadań, takich jak zwiększenie danych nieanglojęzycznych dla możliwości wielojęzycznych i wysadzanie danych matematycznych w wysokości dla lepszego rozumowania [2] [5].

Kluczowe różnice

1. Podejście szkoleniowe: DeepSeek-R1 w dużej mierze opiera się na uczeniu się wzmocnienia i generowaniu danych syntetycznych, podczas gdy LLAMA 3.1 stosuje bardziej tradycyjne podejście do uczenia się z ogromnym zestawem danych przed treningiem.

2. Źródła danych: DeepSeek-R1 wykorzystuje kombinację początkowych danych startowych i syntetycznych wygenerowanych podczas procesu RL. Natomiast LAMA 3.1 jest przeszkolony na dużym korpusie publicznie dostępnych danych.

3. Objętość i jakość danych: LAMA 3.1 jest przeszkolony na znacznie większym zestawie danych (~ 15 bilionów tokenów) w porównaniu ze stosunkowo niewielkim początkowym zestawem danych używanego do DeepSeek-R1. Jednak wykorzystanie danych syntetycznych przez DeepSeek-R1 pozwala osiągnąć wysoką wydajność w zadaniach rozumowania pomimo mniejszego początkowego zestawu danych.

4. Obszary koncentracji: Oba modele koncentrują się na poprawie możliwości rozumowania i wiedzy, ale DeepSeek-R1 kładzie duży nacisk na rozumowanie za pośrednictwem RL, a LLAMA 3.1 koncentruje się również na możliwościach wielojęzycznych i kodowania.

Ogólnie rzecz biorąc, dane szkoleniowe dla DeepSeek-R1 i LLAMA 3.1 odzwierciedlają różne strategie rozwoju modeli, a DeepSeek-R1 wykorzystuje RL i dane syntetyczne w celu uzyskania silnych możliwości rozumowania i LAMA 3.1 polegających na dużym nadzorowanym podejściu uczenia się w celu pokrycia szerokiej gamy zadań.

Cytaty:
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it
[2] https://www.linkedin.com/pulse/dissecting-llama-31-deep-dive-benedict-smith-agi6f
[3] https://docsbot.ai/models/compary/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-language-models-llms/llama-3-1-guide-what-to-nows-about-meta-s-ew-405b-model-and-it-t-tata
[6] https://docsbot.ai/models/compary/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-reasoning-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
[9] https://www.pompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1