Hhhhvasasasaggc

Paused

App Files Files Community

Hjgugugjhuhjggg commited on Dec 4, 2024

Commit

5b90b0d

verified ·

1 Parent(s): ef9123a

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -15

app.py CHANGED Viewed

@@ -1,21 +1,24 @@
 from pydantic import BaseModel
-from llama_cpp import Llama
 from concurrent.futures import ThreadPoolExecutor, as_completed
 import re
 import httpx
 import asyncio
 import gradio as gr
 import os
-import gptcache
 from dotenv import load_dotenv
 from fastapi import FastAPI, Request
 from fastapi.responses import JSONResponse
 import uvicorn
 from threading import Thread
 load_dotenv()
 HUGGINGFACE_TOKEN = os.getenv("HUGGINGFACE_TOKEN")
 global_data = {
     'models': {},
     'tokens': {
@@ -124,10 +127,10 @@ def remove_duplicates(text):
 def cache_response(func):
     def wrapper(*args, **kwargs):
         cache_key = f"{args}-{kwargs}"
-        if gptcache.get(cache_key):
-            return gptcache.get(cache_key)
         response = func(*args, **kwargs)
-        gptcache.set(cache_key, response)
         return response
     return wrapper
@@ -155,13 +158,13 @@ async def process_message(message):
         ]
         responses = [
             {'model': model_name, 'response': future.result()}
-            for model_name, future in zip(global_data['models'].keys(), as_completed(futures))
-        ]
-        unique_responses = remove_repetitive_responses(responses)
-        formatted_response = ""
-        for model, response in unique_responses.items():
-            formatted_response += f"**{model}:**\n{response}\n\n"
-        return formatted_response
 app = FastAPI()
@@ -175,7 +178,7 @@ async def generate(request: ChatRequest):
 def run_uvicorn():
     try:
-        uvicorn.run(app, host="0.0.0.0", port=7860)
     except Exception as e:
         print(f"Error al ejecutar uvicorn: {e}")
@@ -184,7 +187,7 @@ iface = gr.Interface(
     inputs=gr.Textbox(lines=2, placeholder="Enter your message here..."),
     outputs=gr.Markdown(),
     title="Multi-Model LLM API (CPU Optimized)",
-    description="Enter a message and get responses from multiple LLMs using CPU."
 )
 def run_gradio():
@@ -193,4 +196,4 @@ def run_gradio():
 if __name__ == "__main__":
     Thread(target=run_uvicorn).start()
     Thread(target=run_gradio).start()
-    asyncio.get_event_loop().run_forever()

+import cachetools
 from pydantic import BaseModel
+from llama_cpp_agent import Llama
 from concurrent.futures import ThreadPoolExecutor, as_completed
 import re
 import httpx
 import asyncio
 import gradio as gr
 import os
 from dotenv import load_dotenv
 from fastapi import FastAPI, Request
 from fastapi.responses import JSONResponse
 import uvicorn
 from threading import Thread
+import gptcache
 load_dotenv()
 HUGGINGFACE_TOKEN = os.getenv("HUGGINGFACE_TOKEN")
+cache = cachetools.TTLCache(maxsize=100, ttl=60)
 global_data = {
     'models': {},
     'tokens': {
 def cache_response(func):
     def wrapper(*args, **kwargs):
         cache_key = f"{args}-{kwargs}"
+        if cache_key in cache:
+            return cache[cache_key]
         response = func(*args, **kwargs)
+        cache[cache_key] = response
         return response
     return wrapper
         ]
         responses = [
             {'model': model_name, 'response': future.result()}
+        for model_name, future in zip(global_data['models'].keys(), as_completed(futures))
+    ]
+    unique_responses = remove_repetitive_responses(responses)
+    formatted_response = ""
+    for model, response in unique_responses.items():
+        formatted_response += f"**{model}:**\n{response}\n\n"
+    return formatted_response
 app = FastAPI()
 def run_uvicorn():
     try:
+        uvicorn.run(app, host="0.0.0.0", port=7861)
     except Exception as e:
         print(f"Error al ejecutar uvicorn: {e}")
     inputs=gr.Textbox(lines=2, placeholder="Enter your message here..."),
     outputs=gr.Markdown(),
     title="Multi-Model LLM API (CPU Optimized)",
+    description=""
 )
 def run_gradio():
 if __name__ == "__main__":
     Thread(target=run_uvicorn).start()
     Thread(target=run_gradio).start()
+    asyncio.get_event_loop().run_forever()