DeepSeek R1 70B
DeepSeek R1 70Bとは、DeepSeekが開発した推論特化型モデルDeepSeek-R1をLlama 3.3 70Bモデルに基づいて知識蒸留(Distillation)した派生モデルである。70億のパラメータを持つが、元のDeepSeek-R1の推論能力を高い次元で維持しつつ、より軽量で高速な推論を実現している。
アーキテクチャ 編集
- ベースモデル:Llama 3.3 70B-Instruct
- パラメータ数:70億
- 学習手法:DeepSeek-R1からの知識蒸留
- ライセンス:MITライセンス
性能評価 編集
Distill前のDeepSeek-R1(パラメータ数約671億、MoE構造)と比較すると、AIME 2024では70.0% pass@1、MATH-500では94.5% pass@1を記録し、高い推論精度を維持しながら運用コストを削減している。
主な用途 編集
チャットボット、要約、QA、コード生成など、リソースが限られた環境での一般的なNLPタスクに最適化されている。