Spaces:

Rulga
/

status-law-gbot

Running

Rulga commited on Apr 3

Commit

b47770f

1 Parent(s): c93708c

fine tuned

Files changed (2) hide show

config/settings.py CHANGED Viewed

@@ -22,16 +22,21 @@ API_CONFIG = {
 DATASET_ID = "Rulga/status-law-knowledge-base"
 CHAT_HISTORY_PATH = "chat_history"
 VECTOR_STORE_PATH = "vector_store"
-FINE_TUNED_PATH = "fine_tuned_models"  # новый путь
 # Paths configuration
 MODEL_PATH = os.path.join(os.path.dirname(os.path.dirname(__file__)), "models")
-TRAINING_OUTPUT_DIR = os.path.join(CHAT_HISTORY_PATH, FINE_TUNED_PATH)  # изменённый путь
 # Create necessary directories if they don't exist
 os.makedirs(MODEL_PATH, exist_ok=True)
 os.makedirs(TRAINING_OUTPUT_DIR, exist_ok=True)
-MODELS_REGISTRY_PATH = os.path.join(CHAT_HISTORY_PATH, "models_registry.json")  # перемещаем registry.json
 # Models configuration with detailed information
 MODELS = {

 DATASET_ID = "Rulga/status-law-knowledge-base"
 CHAT_HISTORY_PATH = "chat_history"
 VECTOR_STORE_PATH = "vector_store"
+FINE_TUNED_PATH = "fine_tuned_models"
 # Paths configuration
 MODEL_PATH = os.path.join(os.path.dirname(os.path.dirname(__file__)), "models")
+TRAINING_OUTPUT_DIR = os.path.join(CHAT_HISTORY_PATH, FINE_TUNED_PATH)
 # Create necessary directories if they don't exist
 os.makedirs(MODEL_PATH, exist_ok=True)
 os.makedirs(TRAINING_OUTPUT_DIR, exist_ok=True)
+# Dataset paths
+DATASET_CHAT_HISTORY_PATH = f"{DATASET_ID}/chat_history"
+DATASET_VECTOR_STORE_PATH = f"{DATASET_ID}/vector_store"
+DATASET_FINE_TUNED_PATH = f"{DATASET_ID}/fine_tuned_models"
+MODELS_REGISTRY_PATH = os.path.join(CHAT_HISTORY_PATH, "models_registry.json")
 # Models configuration with detailed information
 MODELS = {

src/training/fine_tuner.py CHANGED Viewed

@@ -441,6 +441,41 @@ def finetune_from_chat_history(epochs: int = 3,
     return success, message
 if __name__ == "__main__":
     # Usage example
     success, message = finetune_from_chat_history()

     return success, message
+def finetune_from_file(
+    training_file: str,
+    epochs: int = 3,
+    batch_size: int = 4,
+    learning_rate: float = 2e-4
+) -> Tuple[bool, str]:
+    """
+    Fine-tune model using training data from file
+    Args:
+        training_file: Path to JSONL file with training data
+        epochs: Number of training epochs
+        batch_size: Batch size for training
+        learning_rate: Learning rate
+    Returns:
+        (success, message)
+    """
+    try:
+        # Create fine tuner instance
+        tuner = FineTuner()
+        # Start training process
+        success, message = tuner.train(
+            training_data_path=training_file,
+            num_train_epochs=epochs,
+            per_device_train_batch_size=batch_size,
+            learning_rate=learning_rate
+        )
+        return success, message
+    except Exception as e:
+        return False, f"Error during fine-tuning: {str(e)}"
 if __name__ == "__main__":
     # Usage example
     success, message = finetune_from_chat_history()