augustocsc
/

gpt2_base_prefix_682k

augustocsc commited on Feb 10

Commit

ecafb0d

verified ·

1 Parent(s): c082aa2

GPT-2 Base trained on prefix dataset (682K)

Files changed (1) hide show

scripts/train_with_json.py CHANGED Viewed

@@ -28,7 +28,7 @@ from peft import LoraConfig, get_peft_model
 def convert_to_json_format(example):
     """Convert dataset format to JSON format."""
-    text = example['i_prompt_n']
     # Parse the text format
     lines = text.strip().split('\n')
@@ -115,12 +115,12 @@ def main():
     # Check original format
     print("Original format sample:")
-    print(dataset["train"][0]['i_prompt_n'][:150])
     print()
     # Convert to JSON format
     print("Converting to JSON format...")
-    train_dataset = dataset["train"].map(convert_to_json_format, remove_columns=['i_prompt_n'])
     # Split for validation (10%)
     split_dataset = train_dataset.train_test_split(test_size=0.1, seed=42)

 def convert_to_json_format(example):
     """Convert dataset format to JSON format."""
+    text = example['p_prompt_n_converted']
     # Parse the text format
     lines = text.strip().split('\n')
     # Check original format
     print("Original format sample:")
+    print(dataset["train"][0]['p_prompt_n_converted'][:150])
     print()
     # Convert to JSON format
     print("Converting to JSON format...")
+    train_dataset = dataset["train"].map(convert_to_json_format, remove_columns=['p_prompt_n_converted'])
     # Split for validation (10%)
     split_dataset = train_dataset.train_test_split(test_size=0.1, seed=42)