Spaces:

forterro
/

tariff_codes

Sleeping

dxnxk commited on May 15, 2025

Commit

9ca8b14

verified ·

1 Parent(s): 84d7796

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,35 +6,31 @@ from sentence_transformers import SentenceTransformer
 from huggingface_hub import InferenceClient
 # --- Load data ---
-df = pd.read_csv("tariff_codes.csv")
-descriptions = df["description"].astype(str).tolist()
-codes = df["code"].astype(str).tolist()
 # --- Create embeddings ---
 embedding_model = SentenceTransformer("all-MiniLM-L6-v2")
 embeddings = embedding_model.encode(descriptions, convert_to_numpy=True)
-# --- FAISS index (cosine similarity = inner product on normalized vectors) ---
 dim = embeddings.shape[1]
 faiss.normalize_L2(embeddings)
 index = faiss.IndexFlatIP(dim)
 index.add(embeddings)
-# --- Hugging Face Inference API client ---
 client = InferenceClient("mistralai/Mistral-7B-Instruct-v0.2")
-# --- RAG response generation ---
 def generate_answer(user_query):
     query_embedding = embedding_model.encode([user_query], convert_to_numpy=True)
     faiss.normalize_L2(query_embedding)
     _, indices = index.search(query_embedding, k=5)
-    retrieved_context = "\n".join([f"{codes[i]}: {descriptions[i]}" for i in indices[0]])
-    prompt = f"""Here are some tariff code descriptions:
-{retrieved_context}
-Question: {user_query}
-Answer:"""
     response = client.text_generation(
         prompt,
@@ -44,7 +40,7 @@ Answer:"""
     )
     return response.strip()
-# --- Gradio Chat Interface ---
 gr.ChatInterface(
     fn=generate_answer,
     title="Tariff Code RAG Bot (FAISS + Inference API)"

 from huggingface_hub import InferenceClient
 # --- Load data ---
+df = pd.read_csv("tariff_codes.csv", encoding="latin1", low_memory=False)
+descriptions = df["Description"].astype(str).tolist()
+codes = df["Code"].astype(str).tolist()
 # --- Create embeddings ---
 embedding_model = SentenceTransformer("all-MiniLM-L6-v2")
 embeddings = embedding_model.encode(descriptions, convert_to_numpy=True)
+# --- FAISS index (cosine similarity) ---
 dim = embeddings.shape[1]
 faiss.normalize_L2(embeddings)
 index = faiss.IndexFlatIP(dim)
 index.add(embeddings)
+# --- Inference API ---
 client = InferenceClient("mistralai/Mistral-7B-Instruct-v0.2")
+# --- RAG pipeline ---
 def generate_answer(user_query):
     query_embedding = embedding_model.encode([user_query], convert_to_numpy=True)
     faiss.normalize_L2(query_embedding)
     _, indices = index.search(query_embedding, k=5)
+    context = "\n".join([f"{codes[i]}: {descriptions[i]}" for i in indices[0]])
+    prompt = f"""Here are some tariff code descriptions:\n{context}\n\nQuestion: {user_query}\nAnswer:"""
     response = client.text_generation(
         prompt,
     )
     return response.strip()
+# --- Gradio UI ---
 gr.ChatInterface(
     fn=generate_answer,
     title="Tariff Code RAG Bot (FAISS + Inference API)"