refactor(data): replace per-worker seed strategy with full sharding in IterableDataset

- Add num_shards and shard_index params to _load_dataset()
- Apply ds.shard() before shuffle to eliminate document overlap across workers
- Pass worker_info.num_workers/id from __iter__() to _load_dataset()
- Maintain backward compatibility with single-process (num_workers=0) mode
- Fix .gitignore to unblock llm_lab/data/ from data/ exclusion rule

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

Files changed (2) hide show

.gitignore +1 -0
llm_lab/data/dataset.py +32 -8

.gitignore CHANGED Viewed

@@ -41,6 +41,7 @@ runs/
 *.csv
 *.tsv
 data/
 # Secrets
 .env

 *.csv
 *.tsv
 data/
+!llm_lab/data/
 # Secrets
 .env

llm_lab/data/dataset.py CHANGED Viewed

@@ -44,8 +44,17 @@ class PackedStreamingDataset(IterableDataset):
         self.seed = seed
         self.max_seq_len = config.max_seq_len
-    def _load_dataset(self):
-        """HuggingFace 데이터셋을 스트리밍 모드로 로드합니다."""
         from datasets import load_dataset
         ds = load_dataset(
@@ -56,6 +65,11 @@ class PackedStreamingDataset(IterableDataset):
             trust_remote_code=True,
         )
         # 셔플 (스트리밍에서는 버퍼 기반 근사 셔플)
         ds = ds.shuffle(seed=self.seed, buffer_size=10_000)
@@ -109,21 +123,31 @@ class PackedStreamingDataset(IterableDataset):
     def __iter__(self) -> Iterator[Dict[str, torch.Tensor]]:
         """DataLoader가 호출하는 이터레이터.
-        멀티 워커 지원:
-          - 각 워커가 서로 다른 시드로 셔플된 스트림을 처리
-          - 워커 간 데이터 중복을 최소화
         """
         worker_info = torch.utils.data.get_worker_info()
         if worker_info is not None:
-            # 멀티 워커: 각 워커에 다른 시드
             worker_seed = self.seed + worker_info.id
         else:
             worker_seed = self.seed
-        # 워커별 시드로 데이터셋 로드
         self.seed = worker_seed
-        dataset = self._load_dataset()
         return self._tokenize_and_pack(dataset)

         self.seed = seed
         self.max_seq_len = config.max_seq_len
+    def _load_dataset(self, num_shards: int = 1, shard_index: int = 0):
+        """HuggingFace 데이터셋을 스트리밍 모드로 로드합니다.
+        Args:
+            num_shards: 전체 샤드 수 (= DataLoader num_workers)
+            shard_index: 이 워커가 담당할 샤드 번호 (0 ~ num_shards-1)
+        샤딩 원리:
+            num_shards=4 일 때 스트림을 4등분하여 각 워커가 서로 다른 1/4만 처리.
+            셔플은 샤딩 이후에 적용하므로 워커 간 문서 중복이 없음.
+        """
         from datasets import load_dataset
         ds = load_dataset(
             trust_remote_code=True,
         )
+        # 완전 분할(샤딩): 워커 i는 전체 스트림의 1/num_shards 구간만 처리
+        # 반드시 셔플 전에 적용해야 각 워커가 겹치지 않는 문서 집합을 가짐
+        if num_shards > 1:
+            ds = ds.shard(num_shards=num_shards, index=shard_index)
         # 셔플 (스트리밍에서는 버퍼 기반 근사 셔플)
         ds = ds.shuffle(seed=self.seed, buffer_size=10_000)
     def __iter__(self) -> Iterator[Dict[str, torch.Tensor]]:
         """DataLoader가 호출하는 이터레이터.
+        멀티 워커 지원 (완전 분할 방식):
+          - 이전: 모든 워커가 동일한 스트림을 읽고 시드만 달리함 → 문서 중복 가능
+          - 개선: ds.shard()로 스트림을 num_workers등분 → 워커 간 문서 중복 없음
+          예시 (num_workers=4, 전체 문서 N개):
+            Worker 0: 문서 0, 4, 8,  12, ...  (N/4개)
+            Worker 1: 문서 1, 5, 9,  13, ...  (N/4개)
+            Worker 2: 문서 2, 6, 10, 14, ...  (N/4개)
+            Worker 3: 문서 3, 7, 11, 15, ...  (N/4개)
         """
         worker_info = torch.utils.data.get_worker_info()
         if worker_info is not None:
+            # 완전 분할: 워커별 샤드 할당 + 독립적인 셔플 시드
+            num_shards = worker_info.num_workers
+            shard_index = worker_info.id
             worker_seed = self.seed + worker_info.id
         else:
+            # 단일 프로세스: 샤딩 없이 전체 스트림 처리
+            num_shards = 1
+            shard_index = 0
             worker_seed = self.seed
         self.seed = worker_seed
+        dataset = self._load_dataset(num_shards=num_shards, shard_index=shard_index)
         return self._tokenize_and_pack(dataset)