Buckets:

hf-doc-build
/

doc-dev

Files

xet

hf-doc-build/doc-dev / course /pr_1114 /ro /chapter5 /1.md

rtrm

about 2 months ago

preview code

download

raw

1.34 kB

Introducere[[introduction]]

În Capitolul 3 ați încercat biblioteca 🤗Datasets și ați văzut că existau trei pași principali atunci când vine vorba de fine-tuningul unui model:

Încărcați un dataset din Hugging Face Hub.
Preprocesați datele cu Dataset.map().
Încărcați și calculați metricele.

Dar aceasta este doar o mică parte a ceea ce poate face 🤗 Datasets! În acest capitol, ne vom aprofunda în această bibliotecă. Pe parcurs, vom găsi răspunsuri la următoarele întrebări:

Ce faceți atunci când datasetul tău nu este pe Hub?
Cum puteți tăia și împărți un dataset? (Și ce dacă tu really trebuie să folosești Pandas?)
Ce faceți atunci când datasetul este uriaș și va topi RAM-ul laptopului dumneavoastră?
Ce este "memory mapping" și Apache Arrow?
Cum puteți crea propriul dataset și să-l trimiteți pe Hub?

Tehnicile pe care le veți învăța aici vă vor pregăti pentru sarcinile avansate de tokenizare și fine-tuning din Capitolul 6 și Capitolul 7 -- deci luați o cafea sau două și să începem!

Xet Storage Details

Size:: 1.34 kB
Xet hash:: c12103ef6012aa09b2814aff0272dddb7da2c424b7ed005977300b2b4eaf35d2

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.