<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ja">
	<id>https://monobook.org/w/index.php?action=history&amp;feed=atom&amp;title=DeepSeek_R1_70B</id>
	<title>DeepSeek R1 70B - 版の履歴</title>
	<link rel="self" type="application/atom+xml" href="https://monobook.org/w/index.php?action=history&amp;feed=atom&amp;title=DeepSeek_R1_70B"/>
	<link rel="alternate" type="text/html" href="https://monobook.org/w/index.php?title=DeepSeek_R1_70B&amp;action=history"/>
	<updated>2026-06-04T11:40:22Z</updated>
	<subtitle>このウィキのこのページに関する変更履歴</subtitle>
	<generator>MediaWiki 1.42.1</generator>
	<entry>
		<id>https://monobook.org/w/index.php?title=DeepSeek_R1_70B&amp;diff=28369&amp;oldid=prev</id>
		<title>Administrator: ページの作成:「&#039;&#039;&#039;DeepSeek R1 70B&#039;&#039;&#039;とは、DeepSeekが開発した推論特化型モデルDeepSeek-R1をLlama 3.3 70Bモデルに基づいて知識蒸留（Distillation）した派生モデルである。70億のパラメータを持つが、元のDeepSeek-R1の推論能力を高い次元で維持しつつ、より軽量で高速な推論を実現している。  == アーキテクチャ == * ベースモデル：Llama 3.3 70B-Instruct * パラメータ数：70…」</title>
		<link rel="alternate" type="text/html" href="https://monobook.org/w/index.php?title=DeepSeek_R1_70B&amp;diff=28369&amp;oldid=prev"/>
		<updated>2025-09-05T05:55:22Z</updated>

		<summary type="html">&lt;p&gt;ページの作成:「&amp;#039;&amp;#039;&amp;#039;DeepSeek R1 70B&amp;#039;&amp;#039;&amp;#039;とは、&lt;a href=&quot;/w/index.php?title=DeepSeek&amp;amp;action=edit&amp;amp;redlink=1&quot; class=&quot;new&quot; title=&quot;「DeepSeek」 (存在しないページ)&quot;&gt;DeepSeek&lt;/a&gt;が開発した推論特化型モデル&lt;a href=&quot;/w/index.php?title=DeepSeek-R1&amp;amp;action=edit&amp;amp;redlink=1&quot; class=&quot;new&quot; title=&quot;「DeepSeek-R1」 (存在しないページ)&quot;&gt;DeepSeek-R1&lt;/a&gt;&lt;a href=&quot;/w/index.php?title=%E3%82%92Llama_3.3_70B%E3%83%A2%E3%83%87%E3%83%AB&amp;amp;action=edit&amp;amp;redlink=1&quot; class=&quot;new&quot; title=&quot;「をLlama 3.3 70Bモデル」 (存在しないページ)&quot;&gt;をLlama 3.3 70Bモデル&lt;/a&gt;に基づいて&lt;a href=&quot;/w/index.php?title=%E7%9F%A5%E8%AD%98%E8%92%B8%E7%95%99&amp;amp;action=edit&amp;amp;redlink=1&quot; class=&quot;new&quot; title=&quot;「知識蒸留」 (存在しないページ)&quot;&gt;知識蒸留&lt;/a&gt;（Distillation）した派生モデルである。70億のパラメータを持つが、元のDeepSeek-R1の推論能力を高い次元で維持しつつ、より軽量で高速な推論を実現している。  == アーキテクチャ == * ベースモデル：Llama 3.3 70B-Instruct * パラメータ数：70…」&lt;/p&gt;
&lt;p&gt;&lt;b&gt;新規ページ&lt;/b&gt;&lt;/p&gt;&lt;div&gt;&amp;#039;&amp;#039;&amp;#039;DeepSeek R1 70B&amp;#039;&amp;#039;&amp;#039;とは、[[DeepSeek]]が開発した推論特化型モデル[[DeepSeek-R1]][[をLlama 3.3 70Bモデル]]に基づいて[[知識蒸留]]（Distillation）した派生モデルである。70億のパラメータを持つが、元のDeepSeek-R1の推論能力を高い次元で維持しつつ、より軽量で高速な推論を実現している。&lt;br /&gt;
&lt;br /&gt;
== アーキテクチャ ==&lt;br /&gt;
* ベースモデル：Llama 3.3 70B-Instruct&lt;br /&gt;
* パラメータ数：70億&lt;br /&gt;
* 学習手法：DeepSeek-R1からの知識蒸留&lt;br /&gt;
* ライセンス：MITライセンス&lt;br /&gt;
&lt;br /&gt;
== 性能評価 ==&lt;br /&gt;
Distill前のDeepSeek-R1（パラメータ数約671億、MoE構造）と比較すると、AIME 2024では70.0% pass@1、MATH-500では94.5% pass@1を記録し、高い推論精度を維持しながら運用コストを削減している。&lt;br /&gt;
&lt;br /&gt;
== 主な用途 ==&lt;br /&gt;
チャットボット、要約、QA、コード生成など、リソースが限られた環境での一般的なNLPタスクに最適化されている。&lt;br /&gt;
&lt;br /&gt;
[[category: 大規模言語モデル]]&lt;/div&gt;</summary>
		<author><name>Administrator</name></author>
	</entry>
</feed>