「Mixture of Experts」の版間の差分
Administrator (トーク | 投稿記録) 編集の要約なし |
Administrator (トーク | 投稿記録) |
||
| (同じ利用者による、間の2版が非表示) | |||
| 5行目: | 5行目: | ||
== 最小メモリ使用量が増える == | == 最小メモリ使用量が増える == | ||
すべての専門家をメモリに保持する必要あるため「起動した直後のメモリ使用量」は増えます。 | すべての専門家をメモリに保持する必要あるため「起動した直後のメモリ使用量」は増えます。 | ||
つまり人工知能アプリの起動に必要なメモリ容量が増えます。これは大した問題ではありません。 | |||
== 最大メモリ使用量が減る == | == 最大メモリ使用量が減る == | ||
| 18行目: | 18行目: | ||
ただし、組織が大きくなると専門家間の派閥争いなどで学習の安定化や調整が難しいというデメリットもあります。 | ただし、組織が大きくなると専門家間の派閥争いなどで学習の安定化や調整が難しいというデメリットもあります。 | ||
[[category: | == 主な採用例 == | ||
* [[Switch Transformer]](Google, 2021) | |||
* [[Mixtral 8x7B]] | |||
* [[Wan 2.2]] | |||
[[category:大規模言語モデル]] | |||