「Mixture of Experts」の版間の差分

@@ 17行目: / 17行目: @@
 新しい専門家を追加すれば新タスクに対応可能です。
 ただし、組織が大きくなると専門家間の派閥争いなどで学習の安定化や調整が難しいというデメリットもあります。
+== 主な採用例 ==
+* [[Switch Transformer]]（Google, 2021）
+* [[Mixtral 8x7B]]
+* [[Wan 2.2]]
 [[category:大規模言語モデル]]