BERT

BERT（バート、Bidirectional Encoder Representations from Transformers）とは、2018年にGoogleが発表した自然言語処理（NLP）向けの深層学習モデルです。

Transformerアーキテクチャの応用例の第二弾（第一弾は翻訳）としてGoogleが発表したものです。

主な特徴

BERTは文の前後両方の文脈を同時に考慮して学習します。これにより、単語やフレーズの意味をより正確に理解できるようになりました。従来モデルは一方向（左から右、または右から左）にしか文脈を捉えられませんでしたが、BERTは双方向に情報を取り入れることで文脈理解力が飛躍的に向上しています。

BERTは「Transformer」と呼ばれる機械学習アーキテクチャを基盤としています。 Transformerは自己注意機構（Self-Attention）を用いて、文中の単語同士の関係性を柔軟に捉えます。

BERTは大量のテキスト（例：WikipediaやBooksCorpus）で事前学習され、その後、特定のタスク（質問応答、文書分類、感情分析など）に合わせてファインチューニング（追加学習）することで高精度な処理が可能です。

BERTは事前学習済みモデルをさまざまなNLPタスクに応用できるため、少ないデータでも高い精度を発揮します。

BERTの学習には主に2つの手法が使われます。

Masked Language Model（マスク化言語モデル）
入力文の一部の単語をマスク（隠す）し、文脈からその単語を予測することで、双方向の文脈理解を学習します。
Next Sentence Prediction（次文予測）
2つの文を与えて、2文目が1文目の直後に実際に続く文かどうかを判定するタスクで学習します。