DeepSeek R1 70B

2025年9月5日 (金) 05:55時点におけるAdministrator (トーク | 投稿記録)による版 (ページの作成:「'''DeepSeek R1 70B'''とは、DeepSeekが開発した推論特化型モデルDeepSeek-R1をLlama 3.3 70Bモデルに基づいて知識蒸留(Distillation)した派生モデルである。70億のパラメータを持つが、元のDeepSeek-R1の推論能力を高い次元で維持しつつ、より軽量で高速な推論を実現している。 == アーキテクチャ == * ベースモデル:Llama 3.3 70B-Instruct * パラメータ数:70…」)
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)

DeepSeek R1 70Bとは、DeepSeekが開発した推論特化型モデルDeepSeek-R1をLlama 3.3 70Bモデルに基づいて知識蒸留(Distillation)した派生モデルである。70億のパラメータを持つが、元のDeepSeek-R1の推論能力を高い次元で維持しつつ、より軽量で高速な推論を実現している。

アーキテクチャ 編集

  • ベースモデル:Llama 3.3 70B-Instruct
  • パラメータ数:70億
  • 学習手法:DeepSeek-R1からの知識蒸留
  • ライセンス:MITライセンス

性能評価 編集

Distill前のDeepSeek-R1(パラメータ数約671億、MoE構造)と比較すると、AIME 2024では70.0% pass@1、MATH-500では94.5% pass@1を記録し、高い推論精度を維持しながら運用コストを削減している。

主な用途 編集

チャットボット、要約、QA、コード生成など、リソースが限られた環境での一般的なNLPタスクに最適化されている。