Spaces:

shijisan
/

text-summarization

Sleeping

shijisan commited on Jun 23, 2025

Commit

d5ba0c8

verified ·

1 Parent(s): 2035bab

updated app.py to clean text input before sending to model

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import os
 from fastapi import FastAPI
 from pydantic import BaseModel
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
@@ -26,10 +27,20 @@ except Exception as e:
 class InputText(BaseModel):
    text: str
 @app.post("/summarize")
 async def summarize(input: InputText):
    inputs = tokenizer(
-      input.text,
       return_tensors="pt",
       max_length=16384,
       truncation=True,

 import os
+import re
 from fastapi import FastAPI
 from pydantic import BaseModel
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 class InputText(BaseModel):
    text: str
+def clean_text(text: str) -> str:
+   text = re.sub(r"[\r\n\t]+", " ", text)
+   text = re.sub(r"\s{2,}", " ", text)
+   text = text.strip()
+   return text
 @app.post("/summarize")
 async def summarize(input: InputText):
+   cleaned_input = clean_text(input.text)
+   prompt = f"summarize: {cleaned_input}"
    inputs = tokenizer(
+      prompt,
       return_tensors="pt",
       max_length=16384,
       truncation=True,