Buckets:
Introducere[[introduction]]
În Capitolul 3 ați încercat biblioteca 🤗Datasets și ați văzut că existau trei pași principali atunci când vine vorba de fine-tuningul unui model:
- Încărcați un dataset din Hugging Face Hub.
- Preprocesați datele cu
Dataset.map(). - Încărcați și calculați metricele.
Dar aceasta este doar o mică parte a ceea ce poate face 🤗 Datasets! În acest capitol, ne vom aprofunda în această bibliotecă. Pe parcurs, vom găsi răspunsuri la următoarele întrebări:
- Ce faceți atunci când datasetul tău nu este pe Hub?
- Cum puteți tăia și împărți un dataset? (Și ce dacă tu really trebuie să folosești Pandas?)
- Ce faceți atunci când datasetul este uriaș și va topi RAM-ul laptopului dumneavoastră?
- Ce este "memory mapping" și Apache Arrow?
- Cum puteți crea propriul dataset și să-l trimiteți pe Hub?
Tehnicile pe care le veți învăța aici vă vor pregăti pentru sarcinile avansate de tokenizare și fine-tuning din Capitolul 6 și Capitolul 7 -- deci luați o cafea sau două și să începem!
Xet Storage Details
- Size:
- 1.34 kB
- Xet hash:
- c12103ef6012aa09b2814aff0272dddb7da2c424b7ed005977300b2b4eaf35d2
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.