Administrator: ページの作成:「'''DeepSeek R1 70B'''とは、DeepSeekが開発した推論特化型モデルDeepSeek-R1をLlama 3.3 70Bモデルに基づいて知識蒸留（Distillation）した派生モデルである。70億のパラメータを持つが、元のDeepSeek-R1の推論能力を高い次元で維持しつつ、より軽量で高速な推論を実現している。 == アーキテクチャ == * ベースモデル：Llama 3.3 70B-Instruct * パラメータ数：70…」

2025-09-05T05:55:22Z

ページの作成:「'''DeepSeek R1 70B'''とは、DeepSeekが開発した推論特化型モデルDeepSeek-R1 をLlama 3.3 70Bモデルに基づいて知識蒸留（Distillation）した派生モデルである。70億のパラメータを持つが、元のDeepSeek-R1の推論能力を高い次元で維持しつつ、より軽量で高速な推論を実現している。 == アーキテクチャ == * ベースモデル：Llama 3.3 70B-Instruct * パラメータ数：70…」

新規ページ

'''DeepSeek R1 70B'''とは、[[DeepSeek]]が開発した推論特化型モデル[[DeepSeek-R1]][[をLlama 3.3 70Bモデル]]に基づいて[[知識蒸留]]（Distillation）した派生モデルである。70億のパラメータを持つが、元のDeepSeek-R1の推論能力を高い次元で維持しつつ、より軽量で高速な推論を実現している。

== アーキテクチャ ==
* ベースモデル：Llama 3.3 70B-Instruct
* パラメータ数：70億
* 学習手法：DeepSeek-R1からの知識蒸留
* ライセンス：MITライセンス

== 性能評価 ==
Distill前のDeepSeek-R1（パラメータ数約671億、MoE構造）と比較すると、AIME 2024では70.0% pass@1、MATH-500では94.5% pass@1を記録し、高い推論精度を維持しながら運用コストを削減している。

== 主な用途 ==
チャットボット、要約、QA、コード生成など、リソースが限られた環境での一般的なNLPタスクに最適化されている。

[[category: 大規模言語モデル]]

DeepSeek R1 70B - 版の履歴