DeepSeek R1 70Bとは、DeepSeekが開発した推論特化型モデルDeepSeek-R1をLlama 3.3 70Bモデルに基づいて知識蒸留(Distillation)した派生モデルである。70億のパラメータを持つが、元のDeepSeek-R1の推論能力を高い次元で維持しつつ、より軽量で高速な推論を実現している。

アーキテクチャ 編集

  • ベースモデル:Llama 3.3 70B-Instruct
  • パラメータ数:70億
  • 学習手法:DeepSeek-R1からの知識蒸留
  • ライセンス:MITライセンス

性能評価 編集

Distill前のDeepSeek-R1(パラメータ数約671億、MoE構造)と比較すると、AIME 2024では70.0% pass@1、MATH-500では94.5% pass@1を記録し、高い推論精度を維持しながら運用コストを削減している。

主な用途 編集

チャットボット、要約、QA、コード生成など、リソースが限られた環境での一般的なNLPタスクに最適化されている。