Spaces:

CooLLaMACEO
/

ChatGPTOpenSource1.0

Running

App Files Files Community

CooLLaMACEO commited on Feb 5

Commit

049d9d4

verified ·

1 Parent(s): 111e00f

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -33

app.py CHANGED Viewed

@@ -9,23 +9,20 @@ from llama_cpp import Llama
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
-# 2. Model Configuration (20B Q3_K_M)
 MODEL_PATH = "./models/gpt-oss-20b-Q3_K_M.gguf"
 llm = None
 def load_model():
     global llm
     if llm is None:
-        logger.info("🔥 Initializing 20B Engine (Direct I/O Mode)...")
         try:
-            # Using conservative settings to fit in 16GB RAM
             llm = Llama(
                 model_path=MODEL_PATH,
-                n_ctx=1024,        # Crucial: Keep context low to avoid OOM crashes
-                n_threads=2,       # HF Free tier limit
-                n_batch=512,
-                use_mmap=False,    # Match your log discovery
-                use_mlock=False,
                 verbose=True
             )
             logger.info("✅ Brain Linked! System Online.")
@@ -35,10 +32,10 @@ def load_model():
 # 3. FastAPI App Setup
 app = FastAPI(title="ChatGPT Open-Source 1.0 API")
-# 4. CORS Setup: Allows GitHub Pages and Local Testing
 app.add_middleware(
     CORSMiddleware,
-    allow_origins=["*"], # Change to ["https://hydrogenclient.github.io"] for production
     allow_credentials=True,
     allow_methods=["*"],
     allow_headers=["*"],
@@ -48,56 +45,56 @@ app.add_middleware(
 async def startup_event():
     load_model()
-# 5. Routes
 @app.get("/")
 async def root():
     return {"status": "online", "message": "Connect to /chat"}
-@app.get("/health")
-async def health():
-    return {"status": "ready" if llm else "loading"}
 @app.post("/chat")
 async def chat(request: Request):
     if llm is None:
-        return JSONResponse({"response": "I'm still waking up. Try again in 60 seconds."}, status_code=503)
     try:
         data = await request.json()
-        # --- Handle different request formats ---
-        # Format A: {"message": "Hello"}
         user_message = data.get("message")
-        # Format B: {"messages": [{"role": "user", "content": "Hello"}]}
         if not user_message and "messages" in data:
-            # Take the last message from the conversation list
             user_message = data["messages"][-1]["content"]
         if not user_message:
-            return JSONResponse({"response": "I didn't see a message in your request."}, status_code=400)
-        # --- Formatting for GPT-OSS Architecture ---
-        # Note: Your model expects <|user|> and <|assistant|> markers
-        prompt = f"<|system|>You are a helpful AI.<|user|>{user_message}<|assistant|>"
-        # --- Inference ---
         output = llm(
             prompt,
-            max_tokens=256,
-            stop=["<|user|>", "<|system|>", "</s>"],
-            temperature=0.7
         )
         reply = output["choices"][0]["text"].strip()
         return {"response": reply}
     except Exception as e:
-        logger.error(f"❌ Inference Error: {e}")
-        return JSONResponse({"response": "My brain encountered an error processing that."}, status_code=500)
-# 6. Entry point for local testing
 if __name__ == "__main__":
     import uvicorn
-    # Local: uvicorn app:app --host 0.0.0.0 --port 7860
     uvicorn.run(app, host="0.0.0.0", port=7860)

 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
+# 2. Model Configuration
 MODEL_PATH = "./models/gpt-oss-20b-Q3_K_M.gguf"
 llm = None
 def load_model():
     global llm
     if llm is None:
+        logger.info("🔥 Initializing 20B Harmony Engine...")
         try:
             llm = Llama(
                 model_path=MODEL_PATH,
+                n_ctx=2048,
+                n_threads=2,
+                use_mmap=False,
                 verbose=True
             )
             logger.info("✅ Brain Linked! System Online.")
 # 3. FastAPI App Setup
 app = FastAPI(title="ChatGPT Open-Source 1.0 API")
+# 4. CORS Setup (Crucial for GitHub Pages)
 app.add_middleware(
     CORSMiddleware,
+    allow_origins=["*"],
     allow_credentials=True,
     allow_methods=["*"],
     allow_headers=["*"],
 async def startup_event():
     load_model()
 @app.get("/")
 async def root():
     return {"status": "online", "message": "Connect to /chat"}
 @app.post("/chat")
 async def chat(request: Request):
     if llm is None:
+        return JSONResponse({"response": "I'm still waking up..."}, status_code=503)
     try:
         data = await request.json()
+        # Handle both simple string and OpenAI list formats
         user_message = data.get("message")
         if not user_message and "messages" in data:
             user_message = data["messages"][-1]["content"]
         if not user_message:
+            return JSONResponse({"response": "No message received."}, status_code=400)
+        # --- THE HARMONY FIX ---
+        # We wrap the message so it stops rambling about code tests.
+        prompt = (
+            f"<|start|>system<|message|>You are ChatGPT Open-Source 1.0, a helpful assistant.<|end|>\n"
+            f"<|start|>user<|message|>{user_message}<|end|>\n"
+            f"<|start|>assistant<|message|>"
+        )
+        # --- Inference with Stop Tokens ---
         output = llm(
             prompt,
+            max_tokens=512,
+            # We tell the model to STOP as soon as it tries to write its own end tokens
+            stop=["<|end|>", "<|return|>", "<|start|>", "user:", "assistant:"],
+            temperature=0.7,
+            repeat_penalty=1.2
         )
         reply = output["choices"][0]["text"].strip()
+        # If the model still includes "analysis" channel text, we clean it
+        if "<|channel|>final<|message|>" in reply:
+            reply = reply.split("<|channel|>final<|message|>")[-1].strip()
         return {"response": reply}
     except Exception as e:
+        logger.error(f"❌ Error: {e}")
+        return JSONResponse({"response": "Error processing request."}, status_code=500)
 if __name__ == "__main__":
     import uvicorn
     uvicorn.run(app, host="0.0.0.0", port=7860)