SciCode
/

dataset-builder

DouDou commited on Feb 19

Commit

b805898

verified ·

1 Parent(s): 5c31870

Upload data3/check_enhanced.py with huggingface_hub

Files changed (1) hide show

data3/check_enhanced.py ADDED Viewed

+#!/usr/bin/env python3
+import csv
+import json
+print("Checking enhanced_dataset.csv...")
+with open('enhanced_dataset.csv', 'r', encoding='utf-8') as f:
+    reader = csv.DictReader(f)
+    # Get first row
+    row = next(reader)
+    print(f"Columns: {list(row.keys())}")
+    print(f"\nFirst row values:")
+    print(f"  Unnamed: 0: {row.get('Unnamed: 0', 'N/A')}")
+    print(f"  Unnamed: 0.1: {row.get('Unnamed: 0.1', 'N/A')}")
+    print(f"  repo_name: {row.get('repo_name', 'N/A')}")
+    print(f"  path: {row.get('path', 'N/A')}")
+    print(f"  language: {row.get('language', 'N/A')}")
+    # Try to find the row matching original_index=489788
+    print("\n\nSearching for original_index=489788...")
+    f.seek(0)
+    next(reader)  # Skip header
+    for i, row in enumerate(reader):
+        # Check different potential index columns
+        idx_val = row.get('Unnamed: 0.1') or row.get('Unnamed: 0') or row.get('')
+        if idx_val == '489788':
+            print(f"Found at row {i+1}!")
+            print(f"  repo_name: '{row.get('repo_name', 'N/A')}'")
+            print(f"  path: '{row.get('path', 'N/A')}'")
+            print(f"  language: '{row.get('language', 'N/A')}'")
+            break
+        if i >= 100000:  # Don't search forever
+            print(f"Not found in first 100k rows")
+            break