Spaces:

M17idd
/

army

Sleeping

App Files Files Community

M17idd commited on Apr 30, 2025

Commit

e224dd2

1 Parent(s): 3738a7d

Update app.py

Browse files

Files changed (1) hide show

app.py +43 -47

app.py CHANGED Viewed

@@ -1,45 +1,29 @@
 import streamlit as st
 import os
-import torch
-import numpy as np
-from hazm import *
 import docx
-from transformers import AutoTokenizer, AutoModel
-from langchain.llms import OpenAI
-from langchain.chat_models import ChatOpenAI
-# بارگذاری مدل‌ها و توکنایزر
-tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
-model = AutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")
-@st.cache
-def get_embedding(text):
-    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
-    with torch.no_grad():
-        outputs = model(**inputs)
-    embeddings = outputs.last_hidden_state.mean(dim=1)
-    return embeddings.squeeze().numpy()
-def cosine_similarity(vec1, vec2):
-    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))
-llm = ChatOpenAI(
     base_url="https://api.together.xyz/v1",
     api_key='0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979',
     model="meta-llama/Llama-3.3-70B-Instruct-Turbo-Free"
 )
 def rewrite_answer_with_llm(answer, user_input):
-    prompt = f"پاسخی که باید بازنویسی شود: {answer}\n\nلطفاً این پاسخ را با لحن مشابه به سوال پرسیده شده بازنویسی کن:\n\nسوال: {user_input}"
-    response = llm(prompt)
-    return response['choices'][0]['text'].strip()
-# وارد کردن متن از کاربر
-user_input = st.text_input("✅ لطفاً جمله خود را وارد کنید: ")
-# بارگذاری متن‌ها و تقسیم به بخش‌ها
 folder_path = '46'
 texts = []
 for filename in os.listdir(folder_path):
     if filename.endswith(".docx"):
         full_path = os.path.join(folder_path, filename)
@@ -48,30 +32,42 @@ for filename in os.listdir(folder_path):
         if file_text.strip():
             texts.append(file_text)
 normalizer = Normalizer()
 sentence_tokenizer = SentenceTokenizer()
 all_sentences = []
 for text in texts:
     normalized = normalizer.normalize(text)
     sentences = sentence_tokenizer.tokenize(normalized)
     all_sentences.extend(sentences)
-chunks = []
-for i in range(0, len(all_sentences), 5):
-    chunk = " ".join(all_sentences[i:i+5])
-    if chunk:
-        chunks.append(chunk)
-# محاسبه شباهت‌ها
-if user_input:
-    with st.spinner("در حال محاسبه شباهت‌ها..."):
-        user_embedding = get_embedding(user_input)
-        similarities = [cosine_similarity(user_embedding, get_embedding(chunk)) for chunk in chunks]
-        most_similar_index = np.argmax(similarities)
-        most_similar_chunk = chunks[most_similar_index]
-        # بازنویسی پاسخ با مدل LLM
-        rewritten_answer = rewrite_answer_with_llm(most_similar_chunk, user_input)
-        st.subheader("📌 پاسخ بازنویسی‌شده:")
-        st.write(rewritten_answer)

 import streamlit as st
+from hazm import Normalizer, SentenceTokenizer
 import os
 import docx
+from openai import OpenAI
+# LLM setup
+llm = OpenAI(
     base_url="https://api.together.xyz/v1",
     api_key='0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979',
     model="meta-llama/Llama-3.3-70B-Instruct-Turbo-Free"
 )
 def rewrite_answer_with_llm(answer, user_input):
+    prompt = f"پاسخی که باید بازنویسی شود:\n{answer}\n\nلطفاً این پاسخ را با در نظر گرفتن محتوای سوال زیر و لحن آن بازنویسی کن:\n\nسوال: {user_input}"
+    response = llm.chat.completions.create(
+        messages=[{"role": "user", "content": prompt}],
+        model=llm.model
+    )
+    return response.choices[0].message.content.strip()
+# 📁 بارگذاری فایل‌های کتاب
 folder_path = '46'
 texts = []
 for filename in os.listdir(folder_path):
     if filename.endswith(".docx"):
         full_path = os.path.join(folder_path, filename)
         if file_text.strip():
             texts.append(file_text)
+# 🌀 تبدیل کل کتاب به جملات
 normalizer = Normalizer()
 sentence_tokenizer = SentenceTokenizer()
 all_sentences = []
 for text in texts:
     normalized = normalizer.normalize(text)
     sentences = sentence_tokenizer.tokenize(normalized)
     all_sentences.extend(sentences)
+# 📌 دریافت ورودی از کاربر
+query = st.text_input("🔎 کلمه یا عبارت موردنظر خود را وارد کنید:")
+# ✅ نمایش جمله و ۵ جمله بعدی + بازنویسی با LLM
+if query:
+    found = False
+    for idx, sentence in enumerate(all_sentences):
+        if query in sentence:
+            st.success("✅ جمله یافت شد:")
+            st.write(sentence)
+            next_sentences = []
+            st.markdown("📌 پنج جمله بعدی:")
+            for i in range(1, 6):
+                if idx + i < len(all_sentences):
+                    st.write(all_sentences[idx + i])
+                    next_sentences.append(all_sentences[idx + i])
+            # ↪️ آماده‌سازی برای بازنویسی
+            total_text = sentence + " " + " ".join(next_sentences)
+            rewritten = rewrite_answer_with_llm(total_text, query)
+            st.markdown("🎨 **بازنویسی شده با LLM:**")
+            st.write(rewritten)
+            found = True
+            break
+    if not found:
+        st.warning("عبارت موردنظر در متن یافت نشد.")