xingzhikb's picture
init
002bd9b

データ照合者

データ照合器は、データセット要素のリストを入力として使用してバッチを形成するオブジェクトです。これらの要素は、 train_dataset または eval_dataset の要素と同じ型。

バッチを構築できるようにするために、データ照合者は何らかの処理 (パディングなど) を適用する場合があります。そのうちのいくつかは( [DataCollat​​orForLanguageModeling]) ランダムなデータ拡張 (ランダム マスキングなど) も適用します 形成されたバッチ上で。

使用例は、サンプル スクリプト または サンプル ノートブック にあります。

Default data collator

[[autodoc]] data.data_collator.default_data_collator

DefaultDataCollator

[[autodoc]] data.data_collator.DefaultDataCollator

DataCollatorWithPadding

[[autodoc]] data.data_collator.DataCollatorWithPadding

DataCollatorForTokenClassification

[[autodoc]] data.data_collator.DataCollatorForTokenClassification

DataCollatorForSeq2Seq

[[autodoc]] data.data_collator.DataCollatorForSeq2Seq

DataCollatorForLanguageModeling

[[autodoc]] data.data_collator.DataCollatorForLanguageModeling - numpy_mask_tokens - tf_mask_tokens - torch_mask_tokens

DataCollatorForWholeWordMask

[[autodoc]] data.data_collator.DataCollatorForWholeWordMask - numpy_mask_tokens - tf_mask_tokens - torch_mask_tokens

DataCollatorForPermutationLanguageModeling

[[autodoc]] data.data_collator.DataCollatorForPermutationLanguageModeling - numpy_mask_tokens - tf_mask_tokens - torch_mask_tokens