「BitNet b1.58」の版間の差分
Administrator (トーク | 投稿記録) 編集の要約なし |
Administrator (トーク | 投稿記録) 編集の要約なし |
||
| (同じ利用者による、間の1版が非表示) | |||
| 1行目: | 1行目: | ||
'''BitNet b1.58'''とは、2024年2月末に[[マイクロソフト]]が発表したパラメータを3値(-1, 0, +1)で表現する超軽量で超高速な1ビットLLMアーキテクチャです。「[[1bit LLM]]」とも呼ばれます。 | '''BitNet b1.58'''とは、2024年2月末に[[マイクロソフト]]が発表したパラメータを3値(-1, 0, +1)で表現する超軽量で超高速な1ビットLLMアーキテクチャです。「[[1bit LLM]]」とも呼ばれます。 | ||
業界をあげて「[[bfloat16]]だ」「[[FP8]]だ」とデータサイズの削減を続けた結果、ついにパラメータが取り得る値は3種類(-1, 0, 1) | 業界をあげて「[[bfloat16]]だ」「[[FP8]]だ」とデータサイズの削減を続けた結果、ついにパラメータが取り得る値は3種類(-1, 0, 1)になりました。なお内部的には2ビットで3値を保持する「1.58ビット」を採用しています。2ビットだと4値を表現できますがゼロを表現するために3値だけを使うようにしているようです。 | ||
通常、[[ニューラルネットワーク]]の[[内積]]計算は各要素の[[乗算]]とその結果の[[加算]]から成り立ちます。例えば、ベクトル <math>( \mathbf{a} = [a_1, a_2, a_3] ) </math>と <math>( \mathbf{b} = [b_1, b_2, b_3] )</math> の内積は次のように計算されます。 | 通常、[[ニューラルネットワーク]]の[[内積]]計算は各要素の[[乗算]]とその結果の[[加算]]から成り立ちます。例えば、ベクトル <math>( \mathbf{a} = [a_1, a_2, a_3] ) </math>と <math>( \mathbf{b} = [b_1, b_2, b_3] )</math> の内積は次のように計算されます。 | ||
| 24行目: | 22行目: | ||
* [[Bonsai-8B]] | * [[Bonsai-8B]] | ||
[[category: | [[category: 人工知能]] | ||
[[category: 2024年]] | [[category: 2024年]] | ||