xingzhikb's picture
init
002bd9b

Data Collator

Data collators是一个对象,通过使用数据集元素列表作为输入来形成一个批次。这些元素与 train_dataseteval_dataset 的元素类型相同。

为了能够构建批次,Data collators可能会应用一些预处理(比如填充)。其中一些(比如[DataCollatorForLanguageModeling])还会在形成的批次上应用一些随机数据增强(比如随机掩码)。

示例脚本示例notebooks中可以找到使用的示例。

Default data collator

[[autodoc]] data.data_collator.default_data_collator

DefaultDataCollator

[[autodoc]] data.data_collator.DefaultDataCollator

DataCollatorWithPadding

[[autodoc]] data.data_collator.DataCollatorWithPadding

DataCollatorForTokenClassification

[[autodoc]] data.data_collator.DataCollatorForTokenClassification

DataCollatorForSeq2Seq

[[autodoc]] data.data_collator.DataCollatorForSeq2Seq

DataCollatorForLanguageModeling

[[autodoc]] data.data_collator.DataCollatorForLanguageModeling - numpy_mask_tokens - tf_mask_tokens - torch_mask_tokens

DataCollatorForWholeWordMask

[[autodoc]] data.data_collator.DataCollatorForWholeWordMask - numpy_mask_tokens - tf_mask_tokens - torch_mask_tokens

DataCollatorForPermutationLanguageModeling

[[autodoc]] data.data_collator.DataCollatorForPermutationLanguageModeling - numpy_mask_tokens - tf_mask_tokens - torch_mask_tokens