Buckets:

hf-doc-build
/

doc-dev

Files

xet

hf-doc-build/doc-dev / course /pr_1107 /ko /chapter5 /1.md

rtrm

about 2 months ago

preview code

download

raw

1.54 kB

	# 단원 소개[[introduction]]

	<CourseFloatingBanner
	chapter={5}
	classNames="absolute z-10 right-0 top-0"
	/>

	[챕터 3](/course/chapter3)에서는 🤗 Datasets 라이브러리를 처음 맛보면서 모델을 미세 조정하는 데 필요한 세 가지 주요 단계를 배웠습니다:

	1. Hugging Face Hub에서 데이터셋을 로드한다.
	2. `Dataset.map()` 함수를 통해 데이터셋을 전처리한다.
	3. 평가 메트릭를 로드하고 계산한다.

	하지만 지금까지 배운 것은 🤗 Datasets 라이브러리가 할 수 있는 것의 빙산의 일각입니다! 이번 챕터에서는 더 자세히 살펴볼 것이며, 그 과정에서 다음 질문에 대한 답을 찾을 수 있을 것입니다:

	* 데이터셋이 Hub에 없을 때는 어떻게 할 것인가?
	* 데이터셋을 어떻게 쪼개어 분석할 수 있는가? (그리고 Pandas를 반드시 사용해야만 한다면?)
	* 데이터셋이 너무 방대하여 노트북 RAM을 초과하면 어떻게 할 것인가?
	* 도대체 "메모리 매핑 (mmap)"과 Apache Arrow는 무엇인가?
	* 당신 고유의 데이터셋을 만들어 Hub로 푸시하려면 어떻게 해야 하는가?

	여기서 배운 기술을 통해 [챕터 6](/course/chapter6)과 [챕터 7](/course/chapter7)에서 심화 토큰화 기법 및 미세 조정 작업을 하는 데 활용할 예정이므로 커피 한 잔 하고 오신 뒤 시작하도록 하겠습니다!


	<EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/ko/chapter5/1.mdx" />

Xet Storage Details

Size:: 1.54 kB
Xet hash:: dca9265c68592b8af2e3c711df605a4206e0f26067b718b49ba6317f81ae843b

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.