Spaces:

VietCat
/

ViT5BaseNode

Sleeping

VietCat commited on Jun 11, 2025

Commit

a9b7eee

1 Parent(s): 4d593bf

fix broken encoding text issue

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,13 +2,12 @@ import os
 from flask import Flask, request, jsonify
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
-# Set thư mục cache hợp lệ cho Hugging Face
 os.environ["HF_HOME"] = "/app/cache"
 os.environ["TRANSFORMERS_CACHE"] = "/app/cache/transformers"
 app = Flask(__name__)
-# Load mô hình và tokenizer
 model_name = "VietAI/vit5-base"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
@@ -21,11 +20,10 @@ def summarize():
     if not text:
         return jsonify({"error": "Missing 'text' field"}), 400
-    # ✅ Thêm tiền tố đúng kiểu huấn luyện
     prompt = f"summarize: {text}"
     inputs = tokenizer.encode(prompt, return_tensors="pt", max_length=512, truncation=True)
-    # Generate với các tham số tối ưu
     summary_ids = model.generate(
         inputs,
         max_length=100,
@@ -36,6 +34,7 @@ def summarize():
         length_penalty=1.0,
         early_stopping=True
     )
     summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
     return jsonify({"summary": summary})

 from flask import Flask, request, jsonify
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+# Khai báo thư mục cache an toàn cho Hugging Face
 os.environ["HF_HOME"] = "/app/cache"
 os.environ["TRANSFORMERS_CACHE"] = "/app/cache/transformers"
 app = Flask(__name__)
 model_name = "VietAI/vit5-base"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
     if not text:
         return jsonify({"error": "Missing 'text' field"}), 400
+    # ✅ Rất quan trọng: Thêm tiền tố 'summarize:'
     prompt = f"summarize: {text}"
     inputs = tokenizer.encode(prompt, return_tensors="pt", max_length=512, truncation=True)
     summary_ids = model.generate(
         inputs,
         max_length=100,
         length_penalty=1.0,
         early_stopping=True
     )
     summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
     return jsonify({"summary": summary})