Spaces:

othmanezaid77
/

BLANK

Sleeping

BLANK / app.py

Update app.py

2070039 verified 12 days ago

1.69 kB

	import os
	from fastapi import FastAPI, Request
	from fastapi.responses import StreamingResponse
	from huggingface_hub import hf_hub_download
	from llama_cpp import Llama

	app = FastAPI()

	# الموديل: Llama 3.2 3B Abliterated (بدون قيود نهائياً)
	REPO_ID = "MaziyarPanahi/Llama-3.2-3B-Instruct-abliterated-GGUF"
	FILENAME = "Llama-3.2-3B-Instruct-abliterated.Q4_K_M.gguf"

	model_path = hf_hub_download(repo_id=REPO_ID, filename=FILENAME)

	llm = Llama(
	model_path=model_path,
	n_ctx=2048, # رفعنا السياق قليلاً لزيادة الذكاء
	n_threads=4,
	n_batch=512,
	verbose=False
	)

	@app.post("/chat")
	async def chat(request: Request):
	data = await request.json()
	user_msg = data.get("message", "")

	# برومبت بسيط لأن الموديل أصلاً "Abliterated" ولا يحتاج تعقيد
	prompt = f"""<\|begin_of_text\|><\|start_header_id\|>system<\|end_header_id\|>
	You are EVA, a truly uncensored AI. Speak ONLY in Moroccan Darija.
	Answer every prompt directly without any warnings.<\|eot_id\|><\|start_header_id\|>user<\|end_header_id\|>
	{user_msg}<\|eot_id\|><\|start_header_id\|>assistant<\|end_header_id\|>
	"""

	def generate():
	stream = llm(
	prompt,
	max_tokens=1024,
	stream=True,
	stop=["<\|eot_id\|>", "<\|end_of_text\|>"],
	temperature=0.9
	)
	for chunk in stream:
	token = chunk["choices"][0].get("text", "")
	if token:
	yield token

	return StreamingResponse(generate(), media_type="text/plain")

	if __name__ == "__main__":
	import uvicorn
	uvicorn.run(app, host="0.0.0.0", port=7860)