Spaces:

NOT-OMEGA
/

Inference

Sleeping

App Files Files Community

NOT-OMEGA commited on Mar 3

Commit

66be360

verified ·

1 Parent(s): 29bb2d7

Update main.py

Browse files

Files changed (1) hide show

main.py +13 -84

main.py CHANGED Viewed

@@ -23,29 +23,23 @@ class GenerateRequest(BaseModel):
     temperature: float = 0.8
     top_k: int = 40
-# Tokenizer setup
 try:
     enc = tiktoken.get_encoding("gpt2")
-    print("✅ Tokenizer loaded successfully.")
 except Exception as e:
-    print(f"❌ Warning: tiktoken not found. Error: {e}")
     enc = None
-# ✅ FIX 1: index.html serve karo root pe
 @app.get("/")
 async def root():
     current_dir = os.path.dirname(os.path.abspath(__file__))
     return FileResponse(os.path.join(current_dir, "index.html"))
 @app.get("/health")
 async def health_check():
     current_dir = os.path.dirname(os.path.abspath(__file__))
-    # ✅ FIX 2: .exe → no extension (Linux binary)
-    exe_path    = os.path.join(current_dir, "inference")
-    model_path  = os.path.join(current_dir, "model.bin")
     return {
         "status": "ok",
         "inference_exe_found": os.path.exists(exe_path),
@@ -53,101 +47,55 @@ async def health_check():
         "working_directory":   current_dir
     }
 @app.post("/generate")
 async def generate_text(req: GenerateRequest):
-    # 0. Tokenizer check
     if enc is None:
-        raise HTTPException(
-            status_code=500,
-            detail="Tokenizer not loaded. Run: pip install tiktoken"
-        )
-    # 1. Encode prompt
     input_tokens = enc.encode(req.prompt)
     token_str    = ",".join(map(str, input_tokens))
-    # 2. Path setup
     current_dir = os.path.dirname(os.path.abspath(__file__))
-    # ✅ FIX 3: .exe → no extension (Linux binary)
     exe_path    = os.path.join(current_dir, "inference")
     model_path  = os.path.join(current_dir, "model.bin")
-    print(f"DEBUG: exe   -> {exe_path}   exists={os.path.exists(exe_path)}")
-    print(f"DEBUG: model -> {model_path} exists={os.path.exists(model_path)}")
-    # 3. File existence checks
     if not os.path.exists(exe_path):
-        raise HTTPException(
-            status_code=500,
-            detail=f"inference binary nahi mili: {exe_path} — Dockerfile se compile honi chahiye!"
-        )
     if not os.path.exists(model_path):
-        raise HTTPException(
-            status_code=500,
-            detail=f"model.bin nahi mili: {model_path} — Model file same folder mein rakhni hai!"
-        )
-    # 4. Run C++ engine
     try:
         start_time = time.perf_counter()
         process = subprocess.run(
-            [
-                exe_path,
-                token_str,
-                str(req.max_tokens),
-                str(req.temperature),
-                str(req.top_k),
-            ],
             capture_output=True,
             text=True,
             cwd=current_dir
         )
         elapsed_ms = (time.perf_counter() - start_time) * 1000
     except Exception as e:
         raise HTTPException(status_code=500, detail=f"Execution failed: {str(e)}")
-    # 5. Error check
     if process.returncode != 0 and not process.stdout.strip():
         stdout_msg = process.stdout.strip() if process.stdout else ""
         stderr_msg = process.stderr.strip() if process.stderr else ""
-        if "ERROR_MODEL_NOT_FOUND" in stdout_msg:
-            raise HTTPException(status_code=500, detail="model.bin nahi mili! Same folder mein rakho.")
-        elif "ERROR_ARGS" in stdout_msg:
-            raise HTTPException(status_code=500, detail="C++ engine ko arguments galat mile.")
-        else:
-            raise HTTPException(
-                status_code=500,
-                detail=f"C++ Error | stdout: '{stdout_msg}' | stderr: '{stderr_msg}'"
-            )
-    # 6. Decode output token IDs
     try:
         output_str = process.stdout.strip()
-        if not output_str:
-            generated_ids = []
-        else:
-            generated_ids = []
             for x in output_str.split():
                 try:
                     generated_ids.append(int(x))
                 except ValueError:
-                    print(f"DEBUG: skipping non-integer token: '{x}'")
         generated_text = enc.decode(generated_ids) if generated_ids else ""
         tokens_out     = len(generated_ids)
         tokens_per_sec = round(tokens_out / (elapsed_ms / 1000), 2) if elapsed_ms > 0 else 0
-        print(f"✅ Generated {tokens_out} tokens in {elapsed_ms:.2f}ms ({tokens_per_sec} tok/s)")
         return {
             "prompt":         req.prompt,
             "generated_text": generated_text,
@@ -156,24 +104,5 @@ async def generate_text(req: GenerateRequest):
             "latency_ms":     round(elapsed_ms, 2),
             "tokens_per_sec": tokens_per_sec
         }
     except Exception as e:
-        raise HTTPException(status_code=500, detail=f"Decoding error: {str(e)}")
-```
----
-## 🚀 Deployment Steps (Basic se Basic)
-**Step 1** — Hugging Face pe jaao → apna `NOT-OMEGA/Inference` Space kholo
-**Step 2** — `main.py` file pe click karo → Edit button dabao → Pura purana code delete karo → Upar wala naya code paste karo → **Commit changes**
-**Step 3** — Baaki files (Dockerfile, index.html, inference.cpp, requirements.txt) already sahi hain, unhe **mat chhuona**
-**Step 4** — Space automatically rebuild hoga (2-5 minutes lagenge)
-**Step 5** — **Logs** tab check karo — ye lines dikhni chahiye:
-```
-✅ Tokenizer loaded successfully.
-INFO: Uvicorn running on http://0.0.0.0:7860

     temperature: float = 0.8
     top_k: int = 40
 try:
     enc = tiktoken.get_encoding("gpt2")
+    print("Tokenizer loaded successfully.")
 except Exception as e:
+    print(f"Warning: tiktoken not found. Error: {e}")
     enc = None
 @app.get("/")
 async def root():
     current_dir = os.path.dirname(os.path.abspath(__file__))
     return FileResponse(os.path.join(current_dir, "index.html"))
 @app.get("/health")
 async def health_check():
     current_dir = os.path.dirname(os.path.abspath(__file__))
+    exe_path   = os.path.join(current_dir, "inference")
+    model_path = os.path.join(current_dir, "model.bin")
     return {
         "status": "ok",
         "inference_exe_found": os.path.exists(exe_path),
         "working_directory":   current_dir
     }
 @app.post("/generate")
 async def generate_text(req: GenerateRequest):
     if enc is None:
+        raise HTTPException(status_code=500, detail="Tokenizer not loaded.")
     input_tokens = enc.encode(req.prompt)
     token_str    = ",".join(map(str, input_tokens))
     current_dir = os.path.dirname(os.path.abspath(__file__))
     exe_path    = os.path.join(current_dir, "inference")
     model_path  = os.path.join(current_dir, "model.bin")
     if not os.path.exists(exe_path):
+        raise HTTPException(status_code=500, detail=f"inference binary not found: {exe_path}")
     if not os.path.exists(model_path):
+        raise HTTPException(status_code=500, detail=f"model.bin not found: {model_path}")
     try:
         start_time = time.perf_counter()
         process = subprocess.run(
+            [exe_path, token_str, str(req.max_tokens), str(req.temperature), str(req.top_k)],
             capture_output=True,
             text=True,
             cwd=current_dir
         )
         elapsed_ms = (time.perf_counter() - start_time) * 1000
     except Exception as e:
         raise HTTPException(status_code=500, detail=f"Execution failed: {str(e)}")
     if process.returncode != 0 and not process.stdout.strip():
         stdout_msg = process.stdout.strip() if process.stdout else ""
         stderr_msg = process.stderr.strip() if process.stderr else ""
+        raise HTTPException(status_code=500, detail=f"C++ Error | stdout: '{stdout_msg}' | stderr: '{stderr_msg}'")
     try:
         output_str = process.stdout.strip()
+        generated_ids = []
+        if output_str:
             for x in output_str.split():
                 try:
                     generated_ids.append(int(x))
                 except ValueError:
+                    pass
         generated_text = enc.decode(generated_ids) if generated_ids else ""
         tokens_out     = len(generated_ids)
         tokens_per_sec = round(tokens_out / (elapsed_ms / 1000), 2) if elapsed_ms > 0 else 0
         return {
             "prompt":         req.prompt,
             "generated_text": generated_text,
             "latency_ms":     round(elapsed_ms, 2),
             "tokens_per_sec": tokens_per_sec
         }
     except Exception as e:
+        raise HTTPException(status_code=500, detail=f"Decoding error: {str(e)}")