Spaces:

StefanG2002
/

code-llama

Runtime error

StefanG2002 commited on Apr 14, 2024

Commit

d6c82f4

verified ·

1 Parent(s): 68de808

Update main.py

Files changed (1) hide show

main.py CHANGED Viewed

@@ -6,7 +6,7 @@ import uvicorn
 app = FastAPI()
-client = InferenceClient("google/gemma-7b")
 class Item(BaseModel):
     prompt: str
@@ -17,14 +17,6 @@ class Item(BaseModel):
     top_p: float = 0.15
     repetition_penalty: float = 1.0
-# def format_prompt(message, history):
-#     prompt = "<s>"
-#     for user_prompt, bot_response in history:
-#         prompt += f"[INST] {user_prompt} [/INST]"
-#         prompt += f" {bot_response}</s> "
-#     prompt += f"[INST] {message} [/INST]"
-#     return prompt
 def generate(item: Item):
     temperature = float(item.temperature)
     if temperature < 1e-2:
@@ -40,7 +32,6 @@ def generate(item: Item):
         seed=42,
     )
-    # formatted_prompt = format_prompt(f"{item.system_prompt}, {item.prompt}", item.history)
     stream = client.text_generation(item.prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)
     output = ""

 app = FastAPI()
+client = InferenceClient("google/codegemma-7b-it")
 class Item(BaseModel):
     prompt: str
     top_p: float = 0.15
     repetition_penalty: float = 1.0
 def generate(item: Item):
     temperature = float(item.temperature)
     if temperature < 1e-2:
         seed=42,
     )
     stream = client.text_generation(item.prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)
     output = ""