Spaces:

Leesn465
/

fastapi-stock-api

Running

Leesn465 commited on Jan 10

Commit

5a95741

verified ·

1 Parent(s): 1097a00

Update keyword_module.py

Files changed (1) hide show

keyword_module.py CHANGED Viewed

@@ -11,17 +11,22 @@ from bs4 import BeautifulSoup as bs
 summary_tokenizer = PreTrainedTokenizerFast.from_pretrained("gogamza/kobart-summarization")
 summary_model = BartForConditionalGeneration.from_pretrained("gogamza/kobart-summarization")
-def summarize_kobart(text, max_input_length=512):
-    # 입력을 자르기
-    input_ids = summary_tokenizer.encode(text, return_tensors="pt", truncation=True, max_length=max_input_length)
     summary_ids = summary_model.generate(
-        input_ids,
-        max_length=160,
-        min_length=100,
         num_beams=4,
         repetition_penalty=2.5,
-        no_repeat_ngram_size=3,
         early_stopping=True,
     )
     return summary_tokenizer.decode(summary_ids[0], skip_special_tokens=True)

 summary_tokenizer = PreTrainedTokenizerFast.from_pretrained("gogamza/kobart-summarization")
 summary_model = BartForConditionalGeneration.from_pretrained("gogamza/kobart-summarization")
+def summarize_kobart(text):
+    # ✅ 입력 길이 제한(핵심)
+    inputs = summary_tokenizer(
+        text,
+        return_tensors="pt",
+        truncation=True,
+        max_length=512,  # 모델에 맞게 조정 (512/1024 중 하나일 확률 큼)
+    )
     summary_ids = summary_model.generate(
+        **inputs,
+        max_new_tokens=160,   # ✅ 출력 길이는 max_new_tokens로 관리 추천
+        min_new_tokens=100,
         num_beams=4,
         repetition_penalty=2.5,
+        no_repeat_ngram_size=4,
         early_stopping=True,
     )
     return summary_tokenizer.decode(summary_ids[0], skip_special_tokens=True)