ligaments-dev
/

gemma-telecom-training

Model card Files Files and versions

xet

Community

ligaments-dev commited on Apr 24

Commit

48301ee

verified ·

1 Parent(s): 8c55461

Remove system role, verify alternating user/assistant for Gemma compatibility

Browse files

Files changed (1) hide show

train.py +19 -9

train.py CHANGED Viewed

@@ -3,6 +3,7 @@ Full fine-tuning script:
   Model: google/gemma-2-2b-it
   Dataset: talkmap/telecom-conversation-corpus
   Converts turn-based telecom dialogues into alternating-role conversational messages for SFT.
 """
 import os
 from collections import defaultdict
@@ -20,7 +21,7 @@ MODEL_ID = "google/gemma-2-2b-it"
 DATASET_ID = "talkmap/telecom-conversation-corpus"
 OUTPUT_DIR = "./gemma-2b-it-telecom"
 HUB_MODEL_ID = "ligaments-dev/gemma-2b-it-telecom"
-MAX_CONVERSATIONS = 50000  # cap for faster training
 # ------------------------------------------------------------------
 # Trackio monitoring
@@ -52,7 +53,7 @@ for conv_id in conversations:
     conversations[conv_id].sort(key=lambda x: x["date_time"])
 # Convert each conversation into messages format with merged consecutive same-role turns
-# Also add a system prompt and ensure first turn is always user
 print("Converting to messages format...")
 messages_data = []
 for conv_id, turns in conversations.items():
@@ -71,15 +72,19 @@ for conv_id, turns in conversations.items():
     if current_role is not None:
         messages.append({"role": current_role, "content": "\n".join(current_content)})
-    # Skip if first role is not user (Gemma requires user first)
-    if messages and messages[0]["role"] != "user":
         continue
-    # Add system prompt for telecom context
-    messages.insert(0, {
-        "role": "system",
-        "content": "You are a helpful telecom customer service assistant. Help customers with their mobile, internet, and billing issues."
-    })
     messages_data.append({"messages": messages})
@@ -89,6 +94,11 @@ for conv_id, turns in conversations.items():
 train_dataset = Dataset.from_list(messages_data)
 print(f"Total conversations: {len(train_dataset)}")
 # ------------------------------------------------------------------
 # Tokenizer
 # ------------------------------------------------------------------

   Model: google/gemma-2-2b-it
   Dataset: talkmap/telecom-conversation-corpus
   Converts turn-based telecom dialogues into alternating-role conversational messages for SFT.
+  NOTE: Gemma chat template does NOT support system role.
 """
 import os
 from collections import defaultdict
 DATASET_ID = "talkmap/telecom-conversation-corpus"
 OUTPUT_DIR = "./gemma-2b-it-telecom"
 HUB_MODEL_ID = "ligaments-dev/gemma-2b-it-telecom"
+MAX_CONVERSATIONS = 50000
 # ------------------------------------------------------------------
 # Trackio monitoring
     conversations[conv_id].sort(key=lambda x: x["date_time"])
 # Convert each conversation into messages format with merged consecutive same-role turns
+# Gemma requires: NO system role, user first, alternating user/assistant
 print("Converting to messages format...")
 messages_data = []
 for conv_id, turns in conversations.items():
     if current_role is not None:
         messages.append({"role": current_role, "content": "\n".join(current_content)})
+    # Gemma requires first turn to be user and alternating roles
+    if not messages or messages[0]["role"] != "user":
         continue
+    # Verify alternating roles
+    valid = True
+    for i, msg in enumerate(messages):
+        expected_role = "user" if i % 2 == 0 else "assistant"
+        if msg["role"] != expected_role:
+            valid = False
+            break
+    if not valid:
+        continue
     messages_data.append({"messages": messages})
 train_dataset = Dataset.from_list(messages_data)
 print(f"Total conversations: {len(train_dataset)}")
+# Print a sample for debugging
+if len(train_dataset) > 0:
+    print("Sample conversation:")
+    print(train_dataset[0])
 # ------------------------------------------------------------------
 # Tokenizer
 # ------------------------------------------------------------------