Buckets:

hf-doc-build
/

doc-dev

Files

xet

hf-doc-build/doc-dev / course /pr_1114 /pt /chapter5 /1.md

rtrm

about 2 months ago

preview code

download

raw

1.39 kB

Introdução

No Capítulo 3 você teve seu primeiro gostinho da biblioteca 🤗 Datasets e viu que havia três passos principais quando se tratava de treinar para melhorar (fine-tuning) um modelo:

Carregar um conjunto de dados (dataset) do Hugging Face Hub.
Pré-processar os dados com Dataset.map().
Carregar e calcular as métricas.

Mas isto está apenas arranhando a superfície do que 🤗 Dataset.map pode fazer! Neste capítulo, vamos dar um mergulho profundo na biblioteca. Ao longo do caminho, encontraremos respostas para as seguintes perguntas:

O que você faz quando seu conjunto de dados não está no Hub?
Como você pode separar um conjunto de dados? (E se você necessário usar Pandas?)
O que você faz quando seu conjunto de dados é enorme e derreterá a RAM de seu laptop?
O que diabos são "mapeamento de memória" e Apache Arrow?
Como você pode criar seu próprio conjunto de dados e enviar para o Hub?

As técnicas que você aprender aqui vão prepará-lo para as tarefas avançadas de tokenization e fine-tuning no Capítulo 6 e Capítulo 7 -- então pegue um café e vamos começar!

Xet Storage Details

Size:: 1.39 kB
Xet hash:: 4ecbd381d9e78f7958dc44bf9a68f4d9a101a2d923e145bf1198698e0811dc7d

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.