Spaces:

Kahrhoff
/

Model-Training-V2

Sleeping

App Files Files Community

Kahrhoff commited on Oct 31, 2025

Commit

bb4659c

verified ·

1 Parent(s): 6f5c468

Update app.py

Browse files

Files changed (1) hide show

app.py +2 -27

app.py CHANGED Viewed

@@ -40,18 +40,15 @@ TRAINING_DATA_FILES = ["customer_service_conversations.csv", "financial_conversa
 def find_training_data():
     """Find training data files in the space"""
-    print("🔍 Looking for training data files...")
     # Check for CSV files
     for filename in TRAINING_DATA_FILES:
         if os.path.exists(filename):
-            print(f"Found training data: {filename}")
             return filename
     # Check all CSV files in current directory
     csv_files = [f for f in os.listdir('.') if f.endswith('.csv')]
     if csv_files:
-        print(f"Found CSV files: {csv_files}")
         return csv_files[0]  # Use the first one
     print("No training data found. Please upload a CSV file with 'Question' and 'Answer' columns.")
@@ -59,26 +56,21 @@ def find_training_data():
 def load_training_data(filename):
     """Load and prepare training data"""
-    print(f"📊 Loading training data from {filename}...")
     try:
         # Read CSV file
         df = pd.read_csv(filename)
-        print(f"Raw data shape: {df.shape}")
         # Check for required columns (flexible naming)
-        question_cols = [col for col in df.columns if 'question' in col.lower() or 'prompt' in col.lower() or 'input' in col.lower()]
-        answer_cols = [col for col in df.columns if 'answer' in col.lower() or 'response' in col.lower() or 'output' in col.lower()]
         if not question_cols or not answer_cols:
-            print(f"Available columns: {list(df.columns)}")
             raise ValueError("Could not find Question/Answer columns")
         question_col = question_cols[0]
         answer_col = answer_cols[0]
-        print(f"Using columns: {question_col} -> {answer_col}")
         # Create training format
         training_data = []
         for _, row in df.iterrows():
@@ -94,7 +86,6 @@ def load_training_data(filename):
         return training_data
     except Exception as e:
-        print(f"Error loading data: {e}")
         return None
 def train_model(training_data):
@@ -109,10 +100,8 @@ def train_model(training_data):
     # Create dataset
     dataset = Dataset.from_list(training_data)
-    print(f"Dataset size: {len(dataset)} examples")
     # Load tokenizer and model
-    print("Loading model and tokenizer...")
     tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
     if tokenizer.pad_token is None:
         tokenizer.pad_token = tokenizer.eos_token
@@ -124,7 +113,6 @@ def train_model(training_data):
     )
     # Tokenize dataset
-    print("Tokenizing dataset...")
     def tokenize_function(examples):
         return tokenizer(
             examples["text"],
@@ -166,7 +154,6 @@ def train_model(training_data):
     )
     # Create trainer
-    print("Initializing trainer...")
     trainer = Trainer(
         model=model,
         args=training_args,
@@ -176,7 +163,6 @@ def train_model(training_data):
     )
     # Train the model
-    print("Starting training...")
     start_time = time.time()
     try:
@@ -186,7 +172,6 @@ def train_model(training_data):
         training_duration = (end_time - start_time) / 60
         # Save the model
-        print("Saving trained model...")
         trainer.save_model(OUTPUT_MODEL_DIR)
         tokenizer.save_pretrained(OUTPUT_MODEL_DIR)
@@ -267,16 +252,6 @@ def create_interface():
     return demo
 if __name__ == "__main__":
-    print("OpenFinancial Chatbot - HF Space Trainer")
-    print("=" * 50)
-    # Auto-login if token is available
-    if "HF_TOKEN" in os.environ:
-        try:
-            login(token=os.environ["HF_TOKEN"])
-            print("Hugging Face authentication successful")
-        except:
-            print("HF authentication failed (optional)")
     # Launch interface
     interface = create_interface()

 def find_training_data():
     """Find training data files in the space"""
     # Check for CSV files
     for filename in TRAINING_DATA_FILES:
         if os.path.exists(filename):
             return filename
     # Check all CSV files in current directory
     csv_files = [f for f in os.listdir('.') if f.endswith('.csv')]
     if csv_files:
         return csv_files[0]  # Use the first one
     print("No training data found. Please upload a CSV file with 'Question' and 'Answer' columns.")
 def load_training_data(filename):
     """Load and prepare training data"""
     try:
         # Read CSV file
         df = pd.read_csv(filename)
         # Check for required columns (flexible naming)
+        question_cols = [col for col in df.columns if 'question' in col.lower()]
+        answer_cols = [col for col in df.columns if 'answer' in col.lower()]
         if not question_cols or not answer_cols:
             raise ValueError("Could not find Question/Answer columns")
         question_col = question_cols[0]
         answer_col = answer_cols[0]
         # Create training format
         training_data = []
         for _, row in df.iterrows():
         return training_data
     except Exception as e:
         return None
 def train_model(training_data):
     # Create dataset
     dataset = Dataset.from_list(training_data)
     # Load tokenizer and model
     tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
     if tokenizer.pad_token is None:
         tokenizer.pad_token = tokenizer.eos_token
     )
     # Tokenize dataset
     def tokenize_function(examples):
         return tokenizer(
             examples["text"],
     )
     # Create trainer
     trainer = Trainer(
         model=model,
         args=training_args,
     )
     # Train the model
     start_time = time.time()
     try:
         training_duration = (end_time - start_time) / 60
         # Save the model
         trainer.save_model(OUTPUT_MODEL_DIR)
         tokenizer.save_pretrained(OUTPUT_MODEL_DIR)
     return demo
 if __name__ == "__main__":
     # Launch interface
     interface = create_interface()