Spaces:

VietCat
/

VietnameseEmbeddingV2

Running

VietCat commited on Jun 23

Commit

b5c6b08

1 Parent(s): 708edae

init project

Files changed (4) hide show

.gitignore ADDED Viewed

Dockerfile ADDED Viewed

+FROM python:3.10-slim
+WORKDIR /app
+# Đặt biến môi trường cho cache (sử dụng HF_HOME thay vì TRANSFORMERS_CACHE)
+ENV HF_HOME=/tmp/.cache
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+COPY app.py .
+RUN mkdir -p /tmp/hf_home /tmp/transformers_cache
+EXPOSE 7860
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

app.py ADDED Viewed

+from fastapi import FastAPI, Request
+from pydantic import BaseModel
+from transformers import AutoTokenizer, AutoModel
+import torch
+app = FastAPI()
+# Load model
+model_name = "AITeamVN/Vietnamese_Embedding_v2"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModel.from_pretrained(model_name)
+class InputText(BaseModel):
+    text: str
+@app.get("/")
+def root():
+    return {"message": "AITeamVN/Vietnamese_Embedding_v2 embedding API is running."}
+@app.post("/embed")
+def get_embedding(data: InputText):
+    inputs = tokenizer(data.text, return_tensors="pt", padding=True, truncation=True)
+    with torch.no_grad():
+        outputs = model(**inputs)
+        # Get CLS token or use pooling method
+        embedding = outputs.last_hidden_state[:, 0, :].squeeze().tolist()
+    return {"embedding": embedding}

requirements.txt ADDED Viewed

+transformers
+torch
+fastapi
+uvicorn