Spaces:

Neon-tech
/

Dataset

Sleeping

Neon-tech commited on 29 days ago

Commit

b78a519

verified ·

1 Parent(s): 39937a7

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -81,7 +81,7 @@ def flush_shard(lang, rows, state):
     tok_in_shard = sum(r["token_count"] for r in rows)
     state["lang_shards"][lang] = shard_idx + 1
     state["lang_tokens"][lang] = state["lang_tokens"].get(lang, 0) + tok_in_shard
-   # print(f"  ✓ {lang}/{shard_name} | {len(rows)} samples | {tok_in_shard:,} tokens")
 # ── Main processing loop ─────────────────────────────────────────────────────
 def process(tokenizer, state):
@@ -91,7 +91,7 @@ def process(tokenizer, state):
             continue
         url = PARQUET_URL.format(i=i)
-        #print(f"[{i:05d}/{TOTAL_PARQUETS}] Downloading...")
         try:
             resp = requests.get(
@@ -146,7 +146,7 @@ def process(tokenizer, state):
         state["done"].append(i)
         save_state(state)
-        #print(f"[{i:05d}] ✓ Complete")
     # ── Flush remaining partial shards ────────────────────────────────────────
     print("\nFlushing remaining buffers...")

     tok_in_shard = sum(r["token_count"] for r in rows)
     state["lang_shards"][lang] = shard_idx + 1
     state["lang_tokens"][lang] = state["lang_tokens"].get(lang, 0) + tok_in_shard
+    print(f"  ✓ {lang}/{shard_name} | {len(rows)} samples | {tok_in_shard:,} tokens")
 # ── Main processing loop ─────────────────────────────────────────────────────
 def process(tokenizer, state):
             continue
         url = PARQUET_URL.format(i=i)
+        print(f"[{i:05d}/{TOTAL_PARQUETS}] Downloading...")
         try:
             resp = requests.get(
         state["done"].append(i)
         save_state(state)
+        print(f"[{i:05d}] ✓ Complete")
     # ── Flush remaining partial shards ────────────────────────────────────────
     print("\nFlushing remaining buffers...")