Spaces:

Batnini
/

radius

Paused

App Files Files Community

Batnini commited on Aug 11, 2025

Commit

cede722

verified ·

1 Parent(s): a486f87

Update tools/quran_search.py

Browse files

Files changed (1) hide show

tools/quran_search.py +60 -36

tools/quran_search.py CHANGED Viewed

@@ -1,9 +1,30 @@
 import pandas as pd
 from sentence_transformers import SentenceTransformer
 from sklearn.metrics.pairwise import cosine_similarity
 import numpy as np
 import requests
-import logging
 class QuranSearchEngine:
     def __init__(self):
@@ -16,47 +37,38 @@ class QuranSearchEngine:
             4: "النساء", 5: "المائدة", 6: "الأنعام",
             114: "الناس"
         }
     def load_data(self):
         if not self.data_loaded:
             try:
-                # Try to load from API
-                verses_url = "https://api.quran.com/api/v4/verses/by_chapter/2?language=ar&words=true"
-                response = requests.get(verses_url, timeout=10)
-                verses = response.json().get('verses', [])
-                verses_data = []
-                for verse in verses:
-                    verses_data.append({
-                        'surah': verse['chapter_id'],
-                        'ayah': verse['verse_number'],
-                        'text': ' '.join([w['text_uthmani'] for w in verse['words']])
-                    })
-                self.quran_df = pd.DataFrame(verses_data)
-                self.model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
-                self.verse_embeddings = self.model.encode(self.quran_df['text'].tolist())
-                self.data_loaded = True
             except Exception as e:
-                logging.error(f"API Error: {str(e)}")
-                self.load_backup_data()
-    def load_backup_data(self):
-        """Load backup data if API fails"""
-        backup = [
-            {"surah": 2, "ayah": 163, "text": "وإلهكم إله واحد لا إله إلا هو الرحمن الرحيم"},
-            {"surah": 3, "ayah": 134, "text": "الذين ينفقون في السراء والضراء والكاظمين الغيظ والعافين عن الناس والله يحب المحسنين"},
-            {"surah": 4, "ayah": 135, "text": "يا أيها الذين آمنوا كونوا قوامين بالقسط شهداء لله ولو على أنفسكم أو الوالدين والأقربين"}
-        ]
-        self.quran_df = pd.DataFrame(backup)
-        if not hasattr(self, 'model'):
-            self.model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
-        self.verse_embeddings = self.model.encode(self.quran_df['text'].tolist())
-        self.data_loaded = True
     def search(self, query, top_k=5):
-        self.load_data()
         try:
             query_embedding = self.model.encode([query])
             similarities = cosine_similarity(query_embedding, self.verse_embeddings)[0]
@@ -77,4 +89,16 @@ class QuranSearchEngine:
         except Exception as e:
             logging.error(f"Search Error: {str(e)}")
-            return []

+import logging
 import pandas as pd
 from sentence_transformers import SentenceTransformer
 from sklearn.metrics.pairwise import cosine_similarity
 import numpy as np
 import requests
+# Configure logging
+logging.basicConfig(
+    level=logging.INFO,
+    format='%(asctime)s - %(levelname)s - %(message)s',
+    handlers=[
+        logging.StreamHandler(),
+        logging.FileHandler('app.log')
+    ]
+)
+# Quran data configuration
+QURAN_DATA_SOURCES = [
+    "https://cdn.jsdelivr.net/gh/mafahim/quran-json/quran_clean.csv",
+    "https://raw.githubusercontent.com/mafahim/quran-json/main/quran_clean.csv",
+    "https://gitlab.com/mafahim/quran-json/-/raw/main/quran_clean.csv"
+]
+# Model configuration
+MODEL_NAME = 'paraphrase-multilingual-MiniLM-L12-v2'
+CHUNK_SIZE = 50  # For memory management
 class QuranSearchEngine:
     def __init__(self):
             4: "النساء", 5: "المائدة", 6: "الأنعام",
             114: "الناس"
         }
+        self.load_data()
     def load_data(self):
         if not self.data_loaded:
             try:
+                # Load from the first available API source
+                for source in QURAN_DATA_SOURCES:
+                    response = requests.get(source, timeout=10)
+                    if response.status_code == 200:
+                        verses = response.json().get('verses', [])
+                        verses_data = []
+                        for verse in verses:
+                            verses_data.append({
+                                'surah': verse['chapter_id'],
+                                'ayah': verse['verse_number'],
+                                'text': ' '.join([w['text_uthmani'] for w in verse['words']])
+                            })
+                        self.quran_df = pd.DataFrame(verses_data)
+                        self.model = SentenceTransformer(MODEL_NAME)
+                        self.verse_embeddings = self.model.encode(self.quran_df['text'].tolist())
+                        self.data_loaded = True
+                        logging.info("Quran data loaded successfully.")
+                        return
+                logging.error("Failed to load Quran data from all sources.")
             except Exception as e:
+                logging.error(f"Error loading data: {str(e)}")
     def search(self, query, top_k=5):
+        if not self.data_loaded:
+            logging.error("Data not loaded properly.")
+            return []
         try:
             query_embedding = self.model.encode([query])
             similarities = cosine_similarity(query_embedding, self.verse_embeddings)[0]
         except Exception as e:
             logging.error(f"Search Error: {str(e)}")
+            return []
+# Example usage
+if __name__ == "__main__":
+    quran_searcher = QuranSearchEngine()
+    query = "العدل في الإسلام"
+    results = quran_searcher.search(query, top_k=5)
+    for result in results:
+        print(f"سورة: {result['surah']} ({result['surah_num']}:{result['ayah_num']})")
+        print(f"**التشابه**: {result['similarity']}")
+        print(f"{result['text']}")
+        print("---")