Buckets:

hf-doc-build
/

doc-dev

about 2 months ago

1.34 kB

	# Introducere[[introduction]]

	<CourseFloatingBanner
	chapter={5}
	classNames="absolute z-10 right-0 top-0"
	/>

	În [Capitolul 3](/course/chapter3) ați încercat biblioteca 🤗Datasets și ați văzut că existau trei pași principali atunci când vine vorba de fine-tuningul unui model:

	1. Încărcați un dataset din Hugging Face Hub.
	2. Preprocesați datele cu `Dataset.map()`.
	3. Încărcați și calculați metricele.

	Dar aceasta este doar o mică parte a ceea ce poate face 🤗 Datasets! În acest capitol, ne vom aprofunda în această bibliotecă. Pe parcurs, vom găsi răspunsuri la următoarele întrebări:

	* Ce faceți atunci când datasetul tău nu este pe Hub?
	* Cum puteți tăia și împărți un dataset? (Și ce dacă tu _really_ trebuie să folosești Pandas?)
	* Ce faceți atunci când datasetul este uriaș și va topi RAM-ul laptopului dumneavoastră?
	* Ce este "memory mapping" și Apache Arrow?
	* Cum puteți crea propriul dataset și să-l trimiteți pe Hub?

	Tehnicile pe care le veți învăța aici vă vor pregăti pentru sarcinile avansate de tokenizare și fine-tuning din [Capitolul 6](/course/chapter6) și [Capitolul 7](/course/chapter7) -- deci luați o cafea sau două și să începem!

	<EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/ro/chapter5/1.mdx" />

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.