Spaces:

kacperbb
/

phi-3.5-api

Sleeping

App Files Files Community

kacperbb commited on Jul 22, 2025

Commit

71fb2b8

verified ·

1 Parent(s): 267ac8a

Update app.py

Browse files

Files changed (1) hide show

app.py +87 -5

app.py CHANGED Viewed

@@ -1,7 +1,89 @@
-from fastapi import FastAPI
-app = FastAPI()
-@app.get("/")
-def greet_json():
-    return {"Hello": "World!"}

+from flask import Flask, request, jsonify
+import os
+import logging
+# Set up logging
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+app = Flask(__name__)
+# Global variables for model
+model = None
+tokenizer = None
+def load_model():
+    global model, tokenizer
+    try:
+        logger.info("Loading MLX model...")
+        from mlx_lm import load, generate as mlx_generate
+        # Load your fine-tuned model
+        model, tokenizer = load(
+            'microsoft/Phi-3.5-mini-instruct',
+            adapter_path='kacperbb/phi-3.5-mlx-finetuned'
+        )
+        logger.info("✅ Model loaded successfully!")
+        return True
+    except Exception as e:
+        logger.error(f"❌ Error loading MLX model: {e}")
+        try:
+            # Fallback to transformers
+            from transformers import pipeline
+            global model
+            model = pipeline("text-generation", model="microsoft/Phi-3.5-mini-instruct")
+            logger.info("✅ Fallback model loaded!")
+            return True
+        except Exception as e2:
+            logger.error(f"❌ Fallback failed: {e2}")
+            return False
+@app.route('/generate', methods=['POST'])
+def generate_text():
+    try:
+        data = request.json
+        prompt = data.get('inputs', data.get('prompt', ''))
+        max_tokens = data.get('parameters', {}).get('max_new_tokens', 100)
+        if not prompt:
+            return jsonify({"error": "No prompt provided"}), 400
+        if model and tokenizer:
+            # Use MLX
+            from mlx_lm import generate as mlx_generate
+            response = mlx_generate(model, tokenizer, prompt=prompt, max_tokens=max_tokens)
+        elif model:
+            # Use transformers pipeline
+            result = model(prompt, max_length=len(prompt.split()) + max_tokens, do_sample=True)
+            response = result[0]['generated_text']
+        else:
+            return jsonify({"error": "Model not loaded"}), 500
+        return jsonify([{"generated_text": response}])
+    except Exception as e:
+        logger.error(f"Generation error: {e}")
+        return jsonify({"error": str(e)}), 500
+@app.route('/health', methods=['GET'])
+def health():
+    return jsonify({
+        "status": "healthy",
+        "model_loaded": model is not None
+    })
+@app.route('/', methods=['GET'])
+def home():
+    return jsonify({
+        "message": "Phi 3.5 API is running!",
+        "endpoints": {
+            "generate": "POST /generate",
+            "health": "GET /health"
+        }
+    })
+if __name__ == '__main__':
+    logger.info("Starting Phi 3.5 API...")
+    load_model()
+    port = int(os.environ.get('PORT', 7860))
+    app.run(host='0.0.0.0', port=port, debug=False)