Spaces:

MrSimple01
/

AIEXP_1

Sleeping

App Files Files Community

MrSimple01 commited on Oct 15, 2025

Commit

549f9a0

verified ·

1 Parent(s): 3374997

Update utils.py

Browse files

Files changed (1) hide show

utils.py +62 -7

utils.py CHANGED Viewed

@@ -197,23 +197,78 @@ def debug_search_tables(vector_index, search_term="С-25"):
 from documents_prep import normalize_text, normalize_steel_designations
 def answer_question(question, query_engine, reranker, current_model, chunks_df=None, rerank_top_k=20):
     normalized_question = normalize_text(question)
-    log_message(f"Normalized question: {normalized_question}")
-    normalized_question_2, query_changes, change_list = normalize_steel_designations(question)  # FIX: 3 values
-    log_message(f"After steel normalization: {normalized_question_2}")
     if change_list:
-        log_message(f"Query changes: {', '.join(change_list)}")
     if query_engine is None:
         return "<div style='background-color: #e53e3e; color: white; padding: 20px; border-radius: 10px;'>Система не инициализирована</div>", "", ""
     try:
         start_time = time.time()
-        retrieved_nodes = query_engine.retriever.retrieve(normalized_question_2)
         log_message(f"user query: {question}")
         log_message(f"normalized query: {normalized_question}")
         log_message(f"after steel normalization: {normalized_question_2}")
         log_message(f"Steel grades normalized in query: {query_changes}")
@@ -243,11 +298,11 @@ def answer_question(question, query_engine, reranker, current_model, chunks_df=N
         log_message(f"UNIQUE NODES: {len(unique_retrieved)} nodes")
         # Simple reranking with NORMALIZED question and PARAMETERIZED top_k
-        reranked_nodes = rerank_nodes(normalized_question, unique_retrieved, reranker,
                                      top_k=rerank_top_k)  # NOW PARAMETERIZED
         # Direct query without formatting - use normalized question
-        response = query_engine.query(normalized_question)
         end_time = time.time()
         processing_time = end_time - start_time

 from documents_prep import normalize_text, normalize_steel_designations
+def enhance_query_for_steel_grades(query):
+    """Expand query with related terms for better steel grade retrieval"""
+    import re
+    # Detect if query contains steel grades
+    steel_pattern = r'\b\d{1,3}[XHТCВKMAPХНТСВКМАР]\d*[XHТCВKMAPХНТСВКМАР\d]*\b'
+    matches = re.findall(steel_pattern, query, re.IGNORECASE)
+    if matches:
+        # Add contextual terms
+        enhanced = query + " стандарт материал марка стали применение"
+        log_message(f"Enhanced query with steel context: {enhanced}")
+        return enhanced
+    return query
+def generate_sub_questions(question, llm_model):
+    """Generate 3-5 related sub-questions to expand query coverage"""
+    expansion_prompt = f"""Ты эксперт по нормативной документации.
+Пользователь задал вопрос: "{question}"
+Сгенерируй 3-5 дополнительных вопросов, которые помогут найти полный ответ на основной вопрос.
+Вопросы должны быть:
+- Максимально близкими и релевантными к основному вопросу
+- Покрывать разные аспекты темы (стандарты, материалы, методы, требования)
+- Короткими и конкретными
+Формат ответа - просто список вопросов, по одному на строку, без нумерации:"""
+    try:
+        response = llm_model.complete(expansion_prompt)
+        sub_questions = [q.strip() for q in response.text.strip().split('\n') if q.strip()]
+        # Take only first 5
+        sub_questions = sub_questions[:5]
+        log_message(f"Generated {len(sub_questions)} sub-questions:")
+        for sq in sub_questions:
+            log_message(f"  - {sq}")
+        return sub_questions
+    except Exception as e:
+        log_message(f"Error generating sub-questions: {e}")
+        return []
 def answer_question(question, query_engine, reranker, current_model, chunks_df=None, rerank_top_k=20):
+    # FIXED: Apply all normalizations in correct order
     normalized_question = normalize_text(question)
+    normalized_question_2, query_changes, change_list = normalize_steel_designations(normalized_question)
+    # FIX: Actually call enhance_query_for_steel_grades!
+    enhanced_query = enhance_query_for_steel_grades(normalized_question_2)
     if change_list:
+        log_message(f"Query changes: {', '.join(change_list)}")
     if query_engine is None:
         return "<div style='background-color: #e53e3e; color: white; padding: 20px; border-radius: 10px;'>Система не инициализирована</div>", "", ""
     try:
         start_time = time.time()
+        # FIX: Use enhanced_query instead of normalized_question_2
+        retrieved_nodes = query_engine.retriever.retrieve(enhanced_query)
         log_message(f"user query: {question}")
         log_message(f"normalized query: {normalized_question}")
         log_message(f"after steel normalization: {normalized_question_2}")
+        log_message(f"enhanced query: {enhanced_query}")  # NEW LOG
         log_message(f"Steel grades normalized in query: {query_changes}")
         log_message(f"UNIQUE NODES: {len(unique_retrieved)} nodes")
         # Simple reranking with NORMALIZED question and PARAMETERIZED top_k
+        reranked_nodes = rerank_nodes(enhanced_query, unique_retrieved, reranker,
                                      top_k=rerank_top_k)  # NOW PARAMETERIZED
         # Direct query without formatting - use normalized question
+        response = query_engine.query(enhanced_query)
         end_time = time.time()
         processing_time = end_time - start_time