Buckets:
| # 단원 소개[[introduction]] | |
| <CourseFloatingBanner | |
| chapter={5} | |
| classNames="absolute z-10 right-0 top-0" | |
| /> | |
| [챕터 3](/course/chapter3)에서는 🤗 Datasets 라이브러리를 처음 맛보면서 모델을 미세 조정하는 데 필요한 세 가지 주요 단계를 배웠습니다: | |
| 1. Hugging Face Hub에서 데이터셋을 로드한다. | |
| 2. `Dataset.map()` 함수를 통해 데이터셋을 전처리한다. | |
| 3. 평가 메트릭를 로드하고 계산한다. | |
| 하지만 지금까지 배운 것은 🤗 Datasets 라이브러리가 할 수 있는 것의 빙산의 일각입니다! 이번 챕터에서는 더 자세히 살펴볼 것이며, 그 과정에서 다음 질문에 대한 답을 찾을 수 있을 것입니다: | |
| * 데이터셋이 Hub에 없을 때는 어떻게 할 것인가? | |
| * 데이터셋을 어떻게 쪼개어 분석할 수 있는가? (그리고 Pandas를 반드시 사용해야만 한다면?) | |
| * 데이터셋이 너무 방대하여 노트북 RAM을 초과하면 어떻게 할 것인가? | |
| * 도대체 "메모리 매핑 (mmap)"과 Apache Arrow는 무엇인가? | |
| * 당신 고유의 데이터셋을 만들어 Hub로 푸시하려면 어떻게 해야 하는가? | |
| 여기서 배운 기술을 통해 [챕터 6](/course/chapter6)과 [챕터 7](/course/chapter7)에서 심화 토큰화 기법 및 미세 조정 작업을 하는 데 활용할 예정이므로 커피 한 잔 하고 오신 뒤 시작하도록 하겠습니다! | |
| <EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/ko/chapter5/1.mdx" /> |
Xet Storage Details
- Size:
- 1.54 kB
- Xet hash:
- dca9265c68592b8af2e3c711df605a4206e0f26067b718b49ba6317f81ae843b
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.