Spaces:

gouravbhadraDev
/

server_test

Paused

App Files Files Community

gouravbhadraDev commited on Jun 24, 2025

Commit

e237568

verified ·

1 Parent(s): f138f18

Update app.py

Browse files

Files changed (1) hide show

app.py +43 -4

app.py CHANGED Viewed

@@ -249,23 +249,62 @@ def generate_qwen3(prompt: str) -> (str, str):
     else:
         return "", generated_text.strip()
-def generate_qwen3_gguf(prompt: str) -> (str, str):
     messages = [
         {"role": "user", "content": prompt}
     ]
-    # Set max_tokens or max_new_tokens to keep total tokens <= 512
     response = qwen3_gguf_llm.create_chat_completion(
         messages=messages,
-        max_tokens=512  # or smaller, adjust to fit your use case
     )
     generated_text = response['choices'][0]['message']['content']
     if "</think>" in generated_text:
         reasoning_content, content = generated_text.split("</think>", 1)
         return reasoning_content.strip() + "</think>", content.strip()
     else:
         return "", generated_text.strip()

     else:
         return "", generated_text.strip()
+def generate_qwen3_gguf(prompt: str, max_tokens: int = 256) -> (str, str):
     messages = [
         {"role": "user", "content": prompt}
     ]
     response = qwen3_gguf_llm.create_chat_completion(
         messages=messages,
+        max_tokens=max_tokens,
     )
     generated_text = response['choices'][0]['message']['content']
     if "</think>" in generated_text:
         reasoning_content, content = generated_text.split("</think>", 1)
         return reasoning_content.strip() + "</think>", content.strip()
     else:
         return "", generated_text.strip()
+# --- New summarization endpoint ---
+@app.post("/summarize_thread", response_model=SummarizeResponse)
+async def summarize_thread(request: SummarizeRequest):
+    if request.task.lower() != "summarisation":
+        return JSONResponse(
+            status_code=400,
+            content={"error": "Unsupported task. Only 'summarisation' is supported."}
+        )
+    individual_summaries = {}
+    combined_reasonings = []
+    combined_summaries = []
+    # Summarize each reply individually
+    for idx, reply in enumerate(request.replies):
+        reasoning, summary = generate_qwen3_gguf(reply, max_tokens=256)
+        individual_summaries[idx] = {
+            "reasoning": reasoning,
+            "summary": summary
+        }
+        if reasoning:
+            combined_reasonings.append(reasoning)
+        combined_summaries.append(summary)
+    # Combine all individual summaries into one text
+    combined_summary_text = " ".join(combined_summaries)
+    # Recursively summarize combined summary if too long (optional)
+    # Here, we summarize combined summary to get final reasoning and summary
+    final_reasoning, final_summary = generate_qwen3_gguf(combined_summary_text, max_tokens=256)
+    # Append final reasoning to combined reasonings
+    if final_reasoning:
+        combined_reasonings.append(final_reasoning)
+    return SummarizeResponse(
+        individual_summaries=individual_summaries,
+        combined_reasoning="\n\n".join(combined_reasonings).strip(),
+        combined_summary=final_summary.strip()
+    )