DrDavis

Upload folder using huggingface_hub

17c6d62 verified 10 months ago

preview code

raw

history blame contribute delete

16.5 kB

BERT

Overview

BERT モデルは、Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova によって BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding で提案されました。それはマスクされた言語モデリング目標と次の文の組み合わせを使用して事前トレーニングされた双方向トランスフォーマー Toronto Book Corpus と Wikipedia からなる大規模なコーパスでの予測。

論文の要約は次のとおりです。

BERT と呼ばれる新しい言語表現モデルを導入します。これは Bidirectional Encoder Representations の略ですトランスフォーマーより。最近の言語表現モデルとは異なり、BERT は深い双方向性を事前にトレーニングするように設計されています。すべてのレイヤーの左と右の両方のコンテキストを共同で条件付けすることにより、ラベルのないテキストから表現します。結果として、事前トレーニングされた BERT モデルは、出力層を 1 つ追加するだけで微調整して、最先端のモデルを作成できます。実質的なタスク固有のものを必要とせず、質問応答や言語推論などの幅広いタスクに対応アーキテクチャの変更。

BERT は概念的にはシンプルですが、経験的に強力です。 11 の自然な要素に関する新しい最先端の結果が得られます。言語処理タスク（GLUE スコアを 80.5% に押し上げる（7.7% ポイントの絶対改善）、MultiNLI を含む）精度は 86.7% (絶対値 4.6% 向上)、SQuAD v1.1 質問応答テスト F1 は 93.2 (絶対値 1.5 ポイント) 改善) および SQuAD v2.0 テスト F1 から 83.1 (5.1 ポイントの絶対改善)。

Usage tips

BERT は絶対位置埋め込みを備えたモデルであるため、通常は入力を右側にパディングすることをお勧めします。左。
BERT は、マスク言語モデリング (MLM) および次の文予測 (NSP) の目標を使用してトレーニングされました。それはマスクされたトークンの予測や NLU では一般に効率的ですが、テキスト生成には最適ではありません。
ランダムマスキングを使用して入力を破壊します。より正確には、事前トレーニング中に、トークンの指定された割合 (通常は 15%) が次によってマスクされます。
- 確率0.8の特別なマスクトークン
- 確率 0.1 でマスクされたトークンとは異なるランダムなトークン
- 確率 0.1 の同じトークン
モデルは元の文を予測する必要がありますが、2 番目の目的があります。入力は 2 つの文 A と B (間に分離トークンあり) です。確率 50% では、文はコーパス内で連続していますが、残りの 50% では関連性がありません。モデルは、文が連続しているかどうかを予測する必要があります。

このモデルは thomwolf によって提供されました。元のコードはこちらにあります。

Resources

BERT を始めるのに役立つ公式 Hugging Face およびコミュニティ (🌎 で示される) リソースのリスト。ここに含めるリソースの送信に興味がある場合は、お気軽にプルリクエストを開いてください。審査させていただきます。リソースは、既存のリソースを複製するのではなく、何か新しいものを示すことが理想的です。

に関するブログ投稿別の言語での BERT テキスト分類。
マルチラベルテキスト分類のための BERT (およびその友人) の微調整のノートブック.
方法に関するノートブック PyTorch を使用したマルチラベル分類のための BERT の微調整。
方法に関するノートブック要約のために BERT を使用して EncoderDecoder モデルをウォームスタートする。
[BertForSequenceClassification] は、このサンプルスクリプトおよびノートブック。
[TFBertForSequenceClassification] は、このサンプルスクリプトおよびノートブック。
[FlaxBertForSequenceClassification] は、このサンプルスクリプトおよびノートブック。
テキスト分類タスクガイド

Hugging Face Transformers with Keras: Fine-tune a non-English BERT for Named Entity Recognition の使用方法に関するブログ投稿。
各単語の最初の単語部分のみを使用した固有表現認識のための BERT の微調整のノートブックトークン化中の単語ラベル内。単語のラベルをすべての単語部分に伝播するには、代わりにノートブックのこのバージョンを参照してください。
[BertForTokenClassification] は、このサンプルスクリプトおよびノートブック。
[TFBertForTokenClassification] は、このサンプルスクリプトおよびノートブック。
[FlaxBertForTokenClassification] は、このサンプルスクリプトによってサポートされています。
トークン分類 🤗 ハグフェイスコースの章。
トークン分類タスクガイド

[BertForMaskedLM] は、このサンプルスクリプトでサポートされており、ノートブック。
[TFBertForMaskedLM] は、このサンプルスクリプトおよびノートブック。
[FlaxBertForMaskedLM] は、このサンプルスクリプトおよびノートブック。
マスクされた言語モデリング 🤗 顔ハグコースの章。
マスクされた言語モデリングタスクガイド

[BertForQuestionAnswering] は、このサンプルスクリプトおよびノートブック。
[TFBertForQuestionAnswering] は、このサンプルスクリプトおよびノートブック。
[FlaxBertForQuestionAnswering] は、このサンプルスクリプトでサポートされています。
質問回答 🤗 ハグフェイスコースの章。
質問回答タスクガイド

複数の選択肢

[BertForMultipleChoice] は、このサンプルスクリプトおよびノートブック。
[TFBertForMultipleChoice] は、このサンプルスクリプトおよびノートブック。
多肢選択タスクガイド

⚡️ 推論

方法に関するブログ投稿 Hugging Face Transformers と AWS Inferentia を使用して BERT 推論を高速化する。
方法に関するブログ投稿 GPU 上の DeepSpeed-Inference を使用して BERT 推論を高速化する。

⚙️ 事前トレーニング

Hugging Face Transformers と Habana Gaudi を使用した BERT の事前トレーニングに関するブログ投稿。

🚀 デプロイ

方法に関するブログ投稿ハグフェイス最適化でトランスフォーマーを ONNX に変換する。
方法に関するブログ投稿 AWS 上の Habana Gaudi を使用したハグ顔トランスフォーマーのための深層学習環境のセットアップ。
に関するブログ投稿 Hugging Face Transformers、Amazon SageMaker、および Terraform モジュールを使用した自動スケーリング BERT。
に関するブログ投稿 HuggingFace、AWS Lambda、Docker を使用したサーバーレス BERT。
に関するブログ投稿 Amazon SageMaker と Training Compiler を使用した Hugging Face Transformers BERT 微調整。
に関するブログ投稿 Transformers と Amazon SageMaker を使用した BERT のタスク固有の知識の蒸留

BertConfig

[[autodoc]] BertConfig - all

BertTokenizer

[[autodoc]] BertTokenizer - build_inputs_with_special_tokens - get_special_tokens_mask - create_token_type_ids_from_sequences - save_vocabulary

BertTokenizerFast

[[autodoc]] BertTokenizerFast

TFBertTokenizer

[[autodoc]] TFBertTokenizer

Bert specific outputs

[[autodoc]] models.bert.modeling_bert.BertForPreTrainingOutput

[[autodoc]] models.bert.modeling_tf_bert.TFBertForPreTrainingOutput

[[autodoc]] models.bert.modeling_flax_bert.FlaxBertForPreTrainingOutput

BertModel

[[autodoc]] BertModel - forward

BertForPreTraining

[[autodoc]] BertForPreTraining - forward

BertLMHeadModel

[[autodoc]] BertLMHeadModel - forward

BertForMaskedLM

[[autodoc]] BertForMaskedLM - forward

BertForNextSentencePrediction

[[autodoc]] BertForNextSentencePrediction - forward

BertForSequenceClassification

[[autodoc]] BertForSequenceClassification - forward

BertForMultipleChoice

[[autodoc]] BertForMultipleChoice - forward

BertForTokenClassification

[[autodoc]] BertForTokenClassification - forward

BertForQuestionAnswering

[[autodoc]] BertForQuestionAnswering - forward

TFBertModel

[[autodoc]] TFBertModel - call

TFBertForPreTraining

[[autodoc]] TFBertForPreTraining - call

TFBertModelLMHeadModel

[[autodoc]] TFBertLMHeadModel - call

TFBertForMaskedLM

[[autodoc]] TFBertForMaskedLM - call

TFBertForNextSentencePrediction

[[autodoc]] TFBertForNextSentencePrediction - call

TFBertForSequenceClassification

[[autodoc]] TFBertForSequenceClassification - call

TFBertForMultipleChoice

[[autodoc]] TFBertForMultipleChoice - call

TFBertForTokenClassification

[[autodoc]] TFBertForTokenClassification - call

TFBertForQuestionAnswering

[[autodoc]] TFBertForQuestionAnswering - call

FlaxBertModel

[[autodoc]] FlaxBertModel - call

FlaxBertForPreTraining

[[autodoc]] FlaxBertForPreTraining - call

FlaxBertForCausalLM

[[autodoc]] FlaxBertForCausalLM - call

FlaxBertForMaskedLM

[[autodoc]] FlaxBertForMaskedLM - call

FlaxBertForNextSentencePrediction

[[autodoc]] FlaxBertForNextSentencePrediction - call

FlaxBertForSequenceClassification

[[autodoc]] FlaxBertForSequenceClassification - call

FlaxBertForMultipleChoice

[[autodoc]] FlaxBertForMultipleChoice - call

FlaxBertForTokenClassification

[[autodoc]] FlaxBertForTokenClassification - call

FlaxBertForQuestionAnswering

[[autodoc]] FlaxBertForQuestionAnswering - call