Codyfederer
/

vyvo-training-scripts

Codyfederer commited on Dec 12, 2025

Commit

3924e02

verified ·

1 Parent(s): 6fa703e

Upload train_qwen3_8b_hf.py with huggingface_hub

Files changed (1) hide show

train_qwen3_8b_hf.py CHANGED Viewed

@@ -6,7 +6,8 @@
 #     "accelerate>=0.24.0",
 #     "trackio",
 #     "bitsandbytes",
-#     "datasets"
 # ]
 # ///
@@ -15,25 +16,31 @@ Fine-tune Qwen3-8B on Vyvo Life CoPilot conversations dataset.
 """
 import json
-from datasets import load_dataset, Dataset
 from peft import LoraConfig
 from trl import SFTTrainer, SFTConfig
-print("📦 Loading dataset from Hub...")
-raw_dataset = load_dataset("Codyfederer/vyvo-text-conversations", split="train")
-print(f"✅ Loaded {len(raw_dataset)} conversations")
-# Convert to messages format
-print("🔄 Converting to messages format...")
 conversations = []
-for item in raw_dataset:
-    messages = []
-    for turn in item['turns']:
-        messages.append({
-            'role': turn['role'],
-            'content': turn['content']
-        })
-    conversations.append({'messages': messages})
 dataset = Dataset.from_list(conversations)
 print(f"✅ Converted {len(dataset)} conversations")

 #     "accelerate>=0.24.0",
 #     "trackio",
 #     "bitsandbytes",
+#     "datasets",
+#     "huggingface_hub"
 # ]
 # ///
 """
 import json
+from datasets import Dataset
 from peft import LoraConfig
 from trl import SFTTrainer, SFTConfig
+from huggingface_hub import hf_hub_download
+print("📦 Downloading dataset from Hub...")
+data_path = hf_hub_download(
+    repo_id="Codyfederer/vyvo-text-conversations",
+    filename="text_conversations.jsonl",
+    repo_type="dataset"
+)
+# Load JSONL manually to avoid schema inference issues
+print("🔄 Loading and converting to messages format...")
 conversations = []
+with open(data_path, 'r', encoding='utf-8') as f:
+    for line in f:
+        item = json.loads(line)
+        messages = []
+        for turn in item['turns']:
+            messages.append({
+                'role': turn['role'],
+                'content': turn['content']
+            })
+        conversations.append({'messages': messages})
 dataset = Dataset.from_list(conversations)
 print(f"✅ Converted {len(dataset)} conversations")