Buckets:
| # Introdução | |
| <CourseFloatingBanner | |
| chapter={5} | |
| classNames="absolute z-10 right-0 top-0" | |
| /> | |
| No [Capítulo 3](/course/chapter3) você teve seu primeiro gostinho da biblioteca 🤗 Datasets e viu que havia três passos principais quando se tratava de treinar para melhorar (fine-tuning) um modelo: | |
| 1. Carregar um conjunto de dados (dataset) do Hugging Face Hub. | |
| 2. Pré-processar os dados com `Dataset.map()`. | |
| 3. Carregar e calcular as métricas. | |
| Mas isto está apenas arranhando a superfície do que 🤗 Dataset.map pode fazer! Neste capítulo, vamos dar um mergulho profundo na biblioteca. Ao longo do caminho, encontraremos respostas para as seguintes perguntas: | |
| * O que você faz quando seu conjunto de dados não está no Hub? | |
| * Como você pode separar um conjunto de dados? (E se você _necessário_ usar Pandas?) | |
| * O que você faz quando seu conjunto de dados é enorme e derreterá a RAM de seu laptop? | |
| * O que diabos são "mapeamento de memória" e Apache Arrow? | |
| * Como você pode criar seu próprio conjunto de dados e enviar para o Hub? | |
| As técnicas que você aprender aqui vão prepará-lo para as tarefas avançadas de tokenization e fine-tuning no [Capítulo 6](/course/chapter6) e [Capítulo 7](/course/chapter7) -- então pegue um café e vamos começar! | |
| <EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/pt/chapter5/1.mdx" /> |
Xet Storage Details
- Size:
- 1.39 kB
- Xet hash:
- 4ecbd381d9e78f7958dc44bf9a68f4d9a101a2d923e145bf1198698e0811dc7d
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.