Buckets:
| # Introducere[[introduction]] | |
| <CourseFloatingBanner | |
| chapter={5} | |
| classNames="absolute z-10 right-0 top-0" | |
| /> | |
| În [Capitolul 3](/course/chapter3) ați încercat biblioteca 🤗Datasets și ați văzut că existau trei pași principali atunci când vine vorba de fine-tuningul unui model: | |
| 1. Încărcați un dataset din Hugging Face Hub. | |
| 2. Preprocesați datele cu `Dataset.map()`. | |
| 3. Încărcați și calculați metricele. | |
| Dar aceasta este doar o mică parte a ceea ce poate face 🤗 Datasets! În acest capitol, ne vom aprofunda în această bibliotecă. Pe parcurs, vom găsi răspunsuri la următoarele întrebări: | |
| * Ce faceți atunci când datasetul tău nu este pe Hub? | |
| * Cum puteți tăia și împărți un dataset? (Și ce dacă tu _really_ trebuie să folosești Pandas?) | |
| * Ce faceți atunci când datasetul este uriaș și va topi RAM-ul laptopului dumneavoastră? | |
| * Ce este "memory mapping" și Apache Arrow? | |
| * Cum puteți crea propriul dataset și să-l trimiteți pe Hub? | |
| Tehnicile pe care le veți învăța aici vă vor pregăti pentru sarcinile avansate de tokenizare și fine-tuning din [Capitolul 6](/course/chapter6) și [Capitolul 7](/course/chapter7) -- deci luați o cafea sau două și să începem! | |
| <EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/ro/chapter5/1.mdx" /> |
Xet Storage Details
- Size:
- 1.34 kB
- Xet hash:
- c12103ef6012aa09b2814aff0272dddb7da2c424b7ed005977300b2b4eaf35d2
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.