DeepSeek R1 70B

DeepSeek R1 70Bとは、DeepSeekが開発した推論特化型モデルDeepSeek-R1 をLlama 3.3 70Bモデルに基づいて知識蒸留（Distillation）した派生モデルである。70億のパラメータを持つが、元のDeepSeek-R1の推論能力を高い次元で維持しつつ、より軽量で高速な推論を実現している。

アーキテクチャ編集

ベースモデル：Llama 3.3 70B-Instruct
パラメータ数：70億
学習手法：DeepSeek-R1からの知識蒸留
ライセンス：MITライセンス

性能評価編集

Distill前のDeepSeek-R1（パラメータ数約671億、MoE構造）と比較すると、AIME 2024では70.0% pass@1、MATH-500では94.5% pass@1を記録し、高い推論精度を維持しながら運用コストを削減している。

主な用途編集

チャットボット、要約、QA、コード生成など、リソースが限られた環境での一般的なNLPタスクに最適化されている。

DeepSeek R1 70B

アーキテクチャ 編集

性能評価 編集

主な用途 編集

アーキテクチャ編集

性能評価編集

主な用途編集