다른 생성 모델과 마찬가지로 DeepSeek R1의 온도 매개 변수는 상단 P 및 상단 K와 같은 다른 매개 변수와 상호 작용하여 출력의 무작위성 및 다양성을 제어합니다. 다음은 이러한 매개 변수가 함께 작동하는 방식에 대한 자세한 설명입니다.
온도 매개 변수
온도 매개 변수는 SoftMax 함수를 적용하기 전에 로그를 스케일링하여 토큰 선택의 전체 무작위성을 조정합니다. 낮은 온도 (예 : 0.0에 가까운)는 모델을보다 결정적이고 정확하게 만들어 코딩이나 수학과 같은 정확한 답변이 필요한 작업에 적합합니다. 반대로, 더 높은 온도 (예 : 1.0 이상)는 출력의 창의성과 변동성을 증가시켜 스토리 텔링이나시와 같은 작업에 유리합니다 [4] [8].상단 P 및 상단 K 매개 변수
-Top K :이 매개 변수는 모델의 선택을 최상위 K로 제한합니다. 모델이 희귀하거나 관련이없는 토큰을 선택하는 것을 방지하여 출력이 가장 가능성이 높은 옵션에 일관성을 유지하고 초점을 맞추는 데 도움이됩니다 [8].- 상단 P :이 매개 변수는 토큰을 누적 확률 내의 토큰으로 제한합니다. 그것은 예측에 대한 모델의 신뢰에 기초하여 어휘 크기를 적응시켜 출력의 다양성에 대한 역동적 인 제어를 제공한다 [8].
온도, 상단 P 및 상단 k 간의 상호 작용
이 매개 변수를 결합 할 때 모델의 출력을 더 자세히 세분화 할 수 있습니다.- 온도 + 상단 K : 온도를 조정하면 임의성을 제어하고 상단 K는 모델을 가장 가능성있는 토큰으로 제한합니다. 이 조합은 창의성과 일관성이 필요한 작업에 유용합니다.
- 온도 + 상단 P : 여기에서 온도는 임의성을 조정하고 상단 P는 자신감에 따라 토큰을 적응 적으로 제한합니다. 이 설정은 창의성의 예측에 대한 자신감과 창의성의 균형을 맞추려는 작업에 이상적입니다.
DeepSeek R1에서, 온도 파라미터는 일반적으로 반복적이거나 일관되지 않은 출력을 방지하기 위해 특정 범위 (예 : 0.5-0.7) 내에서 설정됩니다 [5]. 수학적 작업 측면에서 온도와 다른 매개 변수간에 직접적인 상호 작용은 없지만, 임의성, 다양성 및 일관성을 제어하여 모델의 출력 특성에 총체적으로 영향을 미칩니다.
실제 애플리케이션의 경우 이러한 매개 변수를 조정하면 개발자가 모델의 동작을 특정 사용 사례에 맞게 조정하여 출력이 관련이 있고 매력적인지 확인할 수 있습니다. 그러나 DeepSeek R1의 문서화는 주로 온도 조정에 중점을두고 상단 K 및 상단 P 설정에 중점을 둡니다. 이는 표준 구성에 눈에 띄지 않을 수 있음을 시사합니다 [4] [5].
인용 :
[1] https://writesonic.com/blog/what-is-deepseek-r1
[2] https://www.linkedin.com/pulse/deepseek-r1s-game-game--teptroach-parameter-activation danial-min-vumlf
[3] https://www.popai.pro/resources/understanding-deepseek-r1-model-technical-details-architecture-anddeployment-options/
[4] https://www.datacamp.com/tutorial/deepseek-api
[5] https://build.nvidia.com/deepseek-ai/deepseek-r1/modelcard
[6] https://huggingface.co/deepseek-ai/deepseek-r1
[7] https://www.linkedin.com/pulse/explanations-deepseek-r1-technical-paper-khang-vu-tien-ngsxe
[8] https://codefinity.com/blog/understanding-temperature ,-top-k,--top-p-simpling-in-generative-models
[9] https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-deepseek.html