「Mixture of Experts」の版間の差分

 
(同じ利用者による、間の5版が非表示)
1行目: 1行目:
'''Mixture of Experts'''(MoE)とは[[、人工知能]]、とくに[[大規模言語モデル]]([[LLM]])で使われる重要なアーキテクチャのひとつで、「巨大なモデルを複数の「専門家」に分割し、入力ごとに必要な専門家だけを動かす仕組み」です。
'''Mixture of Experts'''(MoE)とは、[[人工知能]]、とくに[[大規模言語モデル]]([[LLM]])で使われる重要なアーキテクチャのひとつで、「巨大なモデルを複数の「専門家」に分割し、入力ごとに必要な専門家だけを動かす仕組み」です。


従来は全教科を1人の全知全能の先生が担当していたものを、国語の先生、数学の先生、社会の先生などと科目ごとに分担したような感じです。
従来は全教科を1人の全知全能の先生が担当していたものを、国語の先生、数学の先生、社会の先生などと科目ごとに分担したような感じです。
5行目: 5行目:
== 最小メモリ使用量が増える ==
== 最小メモリ使用量が増える ==
すべての専門家をメモリに保持する必要あるため「起動した直後のメモリ使用量」は増えます。
すべての専門家をメモリに保持する必要あるため「起動した直後のメモリ使用量」は増えます。
つまり人工知能アプリの起動に必要なメモリ容量が増えます。
つまり人工知能アプリの起動に必要なメモリ容量が増えます。これは大した問題ではありません。


== 最大メモリ使用量が減る ==
== 最大メモリ使用量が減る ==
前述のように最小メモリ使用量は増えますが「計算中のメモリ使用量の増加」、つまり最大メモリ使用量は減ります。
前述のように最小メモリ使用量は増えますが「計算中のメモリ使用量の増加」、つまり最大メモリ使用量は減ります。
これによりメモリ不足で落ちる現象は減ります。
これにより「起動したが途中でメモリ不足で落ちて使いものにならない」という現象は減るので絶対にこっちの方がいいです。


== 性能向上 ==
== 性能向上 ==
18行目: 18行目:
ただし、組織が大きくなると専門家間の派閥争いなどで学習の安定化や調整が難しいというデメリットもあります。
ただし、組織が大きくなると専門家間の派閥争いなどで学習の安定化や調整が難しいというデメリットもあります。


[[category:人工知能]]
== 主な採用例 ==
* [[Switch Transformer]](Google, 2021)
* [[Mixtral 8x7B]]
* [[Wan 2.2]]
 
[[category:大規模言語モデル]]