Spaces:

MGZON
/

api-mg

Runtime error

App Files Files Community

MGZON commited on Aug 26, 2025

Commit

e9688d3

verified ·

1 Parent(s): 007f931

Optimize startup with reduced threads and timing logs

Browse files

Files changed (1) hide show

app.py +13 -6

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import os
 import logging
 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
@@ -37,6 +38,8 @@ async def health_check():
 # Async function to load models
 async def load_models():
     global t5_tokenizer, t5_model, mistral, models_loaded
     try:
         # Load T5 model from local cache
         T5_MODEL_PATH = os.path.join(CACHE_DIR, "models--MGZON--mgzon-flan-t5-base/snapshots")
@@ -45,13 +48,13 @@ async def load_models():
             T5_MODEL_PATH,
             local_files_only=True
         )
-        logger.info(f"Successfully loaded tokenizer for MGZON/mgzon-flan-t5-base")
         logger.info(f"Loading model for MGZON/mgzon-flan-t5-base from {T5_MODEL_PATH}")
         t5_model = AutoModelForSeq2SeqLM.from_pretrained(
             T5_MODEL_PATH,
             local_files_only=True
         )
-        logger.info(f"Successfully loaded model for MGZON/mgzon-flan-t5-base")
         # Load Mistral GGUF model
         gguf_path = os.path.abspath("models/mistral-7b-instruct-v0.1.Q4_K_M.gguf")
@@ -66,14 +69,18 @@ async def load_models():
         mistral = Llama(
             model_path=gguf_path,
             n_ctx=2048,
-            n_threads=8,
-            # إذا كان لديك GPU، يمكنك إضافة: n_gpu_layers=35
         )
-        logger.info(f"Successfully loaded Mistral model from {gguf_path}")
         models_loaded = True
     except Exception as e:
         logger.error(f"Failed to load models: {str(e)}")
         raise RuntimeError(f"Failed to load models: {str(e)}")
 # Run model loading in the background
 @app.on_event("startup")
@@ -108,7 +115,7 @@ async def ask(req: AskRequest):
         else:
             # نموذج Mistral
             logger.info("Using Mistral-7B-GGUF model")
-            out = mistral(prompt=q, max_tokens=req.max_new_tokens)
             answer = out["choices"][0]["text"].strip()
             model_name = "Mistral-7B-GGUF"
         logger.info(f"Response generated by {model_name}: {answer}")

 import os
 import logging
+import time
 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 # Async function to load models
 async def load_models():
     global t5_tokenizer, t5_model, mistral, models_loaded
+    start_time = time.time()
+    logger.info(f"Starting model loading at {start_time}")
     try:
         # Load T5 model from local cache
         T5_MODEL_PATH = os.path.join(CACHE_DIR, "models--MGZON--mgzon-flan-t5-base/snapshots")
             T5_MODEL_PATH,
             local_files_only=True
         )
+        logger.info(f"Successfully loaded tokenizer for MGZON/mgzon-flan-t5-base in {time.time() - start_time} seconds")
         logger.info(f"Loading model for MGZON/mgzon-flan-t5-base from {T5_MODEL_PATH}")
         t5_model = AutoModelForSeq2SeqLM.from_pretrained(
             T5_MODEL_PATH,
             local_files_only=True
         )
+        logger.info(f"Successfully loaded model for MGZON/mgzon-flan-t5-base in {time.time() - start_time} seconds")
         # Load Mistral GGUF model
         gguf_path = os.path.abspath("models/mistral-7b-instruct-v0.1.Q4_K_M.gguf")
         mistral = Llama(
             model_path=gguf_path,
             n_ctx=2048,
+            n_threads=4,  # قللنا عدد الـ threads عشان نقلل الحمل
+            n_batch=512,
+            verbose=True
         )
+        logger.info(f"Successfully loaded Mistral model from {gguf_path} in {time.time() - start_time} seconds")
         models_loaded = True
     except Exception as e:
         logger.error(f"Failed to load models: {str(e)}")
         raise RuntimeError(f"Failed to load models: {str(e)}")
+    finally:
+        end_time = time.time()
+        logger.info(f"Model loading completed in {end_time - start_time} seconds")
 # Run model loading in the background
 @app.on_event("startup")
         else:
             # نموذج Mistral
             logger.info("Using Mistral-7B-GGUF model")
+            out = mistral(prompt=q, max_tokens=req.max_new_tokens, temperature=0.7)
             answer = out["choices"][0]["text"].strip()
             model_name = "Mistral-7B-GGUF"
         logger.info(f"Response generated by {model_name}: {answer}")