Bfloat16

提供: MonoBook
2021年6月15日 (火) 08:53時点におけるAdministrator (トーク | 投稿記録)による版
ナビゲーションに移動 検索に移動

bfloat16 (brain floating point、BF16)とは、浮動小数点を16ビット長で表す形式のひとつである。

GoogleTensorFlow向けに開発しているもの。

BF16は「単純にFP32の仮数部を切り詰めた」というものである。 汎用的なFP16に対して、BF16は「FP32から高速変換できる」のが利点で、出し入れの激しい人工知能向けだと言われている。

FP16
sign exponent (5 bit) fraction (10 bit)
  ┃ ┌───────┐ ┌─────────────────┐
 0   0   1   1   0   0   0   1   0   0   0   0   0   0   0   0 
15 14 10 9 0
bfloat16
sign exponent (8 bit) fraction (7 bit)
  ┃ ┌─────────────┐ ┌───────────┐
 0   0   1   1   1   1   1   0   0   0   1   0   0   0   0   0 
15 14 7 6 0
FP32
sign exponent (8 bit) fraction (23 bit)
  ┃ ┌─────────────┐ ┌───────────────────────────────────────────┐
 0   0   1   1   1   1   1   0   0   0   1   0   0   0   0   0   1   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0 
31 30 23 22 0

FP32からBF16への丸め処理の発動条件は

  • FP32の仮数部の「7ビット目が0」かつ「8ビット目が1」

主なBF16をサポートする製品