Spaces:

KennyOry
/

PrintAI

Sleeping

App Files Files Community

KennyOry commited on Aug 14, 2025

Commit

6343785

verified ·

1 Parent(s): ef53b1f

Update app.py

Browse files

Files changed (1) hide show

app.py +164 -96

app.py CHANGED Viewed

@@ -8,6 +8,9 @@ import threading
 import queue
 import json
 import os
 app = Flask(__name__)
 app.secret_key = 'super_secret_key'
@@ -18,6 +21,7 @@ message_queue = queue.Queue()
 MISTRAL_MODEL = "mistral-large-latest"
 N_CTX = 32768
 MAX_RESULTS = 5
 # Новый клиент Mistral
 mistral_client = Mistral(api_key=os.getenv("MISTRAL_API_KEY"))
@@ -36,6 +40,9 @@ SYSTEM_PROMPT = """
 8. Указывай артикулы деталей при замене
 9. Отвечай ТОЛЬКО на русском языке
 10. Всегда проверяй точность кодов ошибок
 """
 BLACKLISTED_DOMAINS = [
@@ -45,7 +52,19 @@ BLACKLISTED_DOMAINS = [
     'facebook.com',
     'youtube.com',
     'x.com',
-    'twitter.com'
 ]
 logging.basicConfig(
@@ -57,8 +76,49 @@ logging.basicConfig(
     ]
 )
 def generate_search_query(prompt: str) -> dict:
-    # Создаем расширенный системный промт с требованием англоязычного вывода
     system_prompt = """
     You are a technical expert. Extract structured data from the user's query and generate an English search query.
     Return data in strict JSON format with these fields:
@@ -74,48 +134,9 @@ def generate_search_query(prompt: str) -> dict:
     3. Remove brand mentions and the word "error" from model name
     4. If error code is specified - include it in search_query
     5. Problem description should be concise technical terms (max 7 words)
-    Examples:
-    Query: "Коника Минольта bizhub 368 выдает ошибку C-2557"
-    Response: {
-        "brand": "Konica Minolta",
-        "model": "bizhub 368",
-        "error_code": "C-2557",
-        "problem_description": "C-2557 error code",
-        "search_query": "Konica Minolta bizhub 368 error code C-2557"
-    }
-    Query: "Не печа��ает HP LaserJet Pro M404dn"
-    Response: {
-        "brand": "HP",
-        "model": "LaserJet Pro M404dn",
-        "error_code": "",
-        "problem_description": "printer not printing",
-        "search_query": "HP LaserJet Pro M404dn not printing technical fix"
-    }
-    Query: "Hewlett-Packard Color LaserJet MFP E77825 Ошибка 63.00.41"
-    Response: {
-        "brand": "HP",
-        "model": "Color LaserJet MFP E77825",
-        "error_code": "63.00.41",
-        "problem_description": "error 63.00.41",
-        "search_query": "HP Color LaserJet MFP E77825 error code 63.00.41"
-    }
-    Query: "Canon imagePROGRAF TM-200 Ошибка EC12-2F2B"
-    Response: {
-        "brand": "Canon",
-        "model": "imagePROGRAF TM-200",
-        "error_code": "EC12-2F2B",
-        "problem_description": "EC12-2F2B error",
-        "search_query": "Canon imagePROGRAF TM-200 error code EC12-2F2B"
-    }
     """
     try:
-        # Запрашиваем структурированные данные у Mistral
         response = mistral_client.chat.complete(
             model=MISTRAL_MODEL,
             messages=[
@@ -127,16 +148,13 @@ def generate_search_query(prompt: str) -> dict:
             response_format={"type": "json_object"}
         )
-        # Парсим JSON ответ
         json_data = json.loads(response.choices[0].message.content)
-        # Простая валидация и нормализация полей
         required_fields = ['brand', 'model', 'error_code', 'problem_description', 'search_query']
         for field in required_fields:
             if field not in json_data:
                 json_data[field] = ""
-        # Очистка модели от бренда
         if json_data['brand'] and json_data['model']:
             json_data['model'] = re.sub(
                 re.escape(json_data['brand']),
@@ -145,9 +163,7 @@ def generate_search_query(prompt: str) -> dict:
                 flags=re.IGNORECASE
             ).strip()
-        # Обеспечиваем англоязычный поисковый запрос
         if not json_data['search_query']:
-            # Fallback генерация поискового запроса
             search_parts = [json_data['brand'], json_data['model']]
             if json_data['error_code']:
                 search_parts.append(f"error {json_data['error_code']}")
@@ -158,16 +174,14 @@ def generate_search_query(prompt: str) -> dict:
         return json_data
     except Exception as e:
-        # Простой fallback на случай ошибки
         error_msg = f"❌ Ошибка извлечения данных: {str(e)}"
         message_queue.put(('log', error_msg))
         return {
             'brand': "",
             'model': "",
             'error_code': "",
             'problem_description': "",
-            'search_query': prompt  # Используем оригинальный запрос как fallback
         }
 def web_search(query: str) -> tuple:
@@ -191,7 +205,9 @@ def web_search(query: str) -> tuple:
         combined_content = ""
         sources = []
         featured_snippet = data.get("featured_snippet", {})
         if featured_snippet:
             snippet = featured_snippet.get("snippet", "")
@@ -199,18 +215,13 @@ def web_search(query: str) -> tuple:
                 combined_content += f"[Автоответ Google]\n{snippet}\n\n"
                 sources.insert(0, {
                     "title": "Google — автоматический ответ",
-                    "url": f"https://www.google.com/search?q={requests.utils.quote(query)}"
                 })
-        knowledge_panel = data.get("knowledge_panel", {})
-        if knowledge_panel:
-            title = knowledge_panel.get("title", "")
-            description = knowledge_panel.get("description", "")
-            if description:
-                combined_content += f"[Knowledge Panel] {title}\n{description}\n\n"
         organic_results = data.get("organic_results", [])
-        for i, res in enumerate(organic_results):
             title = res.get("title", "Без заголовка")
             link = res.get("link", "#")
             snippet = res.get("snippet", "") or ""
@@ -218,16 +229,35 @@ def web_search(query: str) -> tuple:
             if any(domain in link for domain in BLACKLISTED_DOMAINS):
                 continue
-            cleaned_snippet = re.sub(r'<[^>]+>', '', snippet)
-            combined_content += f"[[Источник {i+1}]] {title}\n{cleaned_snippet}\n\n"
-            sources.append({"title": title, "url": link})
-            if len(sources) >= MAX_RESULTS:
-                break
         elapsed = time.time() - start_time
-        message_queue.put(('log', f"✅ Поиск был произведен за {elapsed:.2f}с"))
-        return combined_content[:12000], sources
     except Exception as e:
         error_msg = f"❌ SerpAPI ошибка: {str(e)}"
@@ -235,26 +265,31 @@ def web_search(query: str) -> tuple:
         return f"Поиск недоступен: {str(e)}", []
-def clean_response(response: str) -> str:
-    # Удаляем служебные теги
     response = re.sub(r'</?assistant>|<\|system\|>|</s>', '', response, flags=re.IGNORECASE)
-    # Удаляем дублирование разделов
     response = re.sub(r'(\*\*Проблема:\*\*.+?)(\*\*Проблема:\*\*)', r'\1', response, flags=re.DOTALL)
     response = re.sub(r'(\*\*Решение:\*\*.+?)(\*\*Решение:\*\*)', r'\1', response, flags=re.DOTALL)
-    response = re.sub(r'(\*\*Источники:\*\*.+?)(\*\*Источники:\*\*)', r'\1', response, flags=re.DOTALL)
-    # Удаляем лишние переносы и пробелы
     response = re.sub(r'\n\s*\n', '\n\n', response)
     response = re.sub(r'[ \t]{2,}', ' ', response)
-    # Удаляем маркеры решения
-    response = re.sub(r'\s*\[Решение\]\s*', '', response)
-    # Удаляем звездочки в конце
     response = re.sub(r'\*\*Источники:\*\*\s*$', '', response)
-    # Обрезаем до последней точки
     last_dot = response.rfind('.')
     if last_dot != -1:
         response = response[:last_dot + 1]
@@ -262,6 +297,52 @@ def clean_response(response: str) -> str:
     return response.strip()
 def process_query(prompt: str):
     try:
         start_time = time.time()
@@ -271,7 +352,6 @@ def process_query(prompt: str):
         norm_data = generate_search_query(prompt)
         message_queue.put(('log', f"⏏️ Извлечено: {json.dumps(norm_data, ensure_ascii=False)}"))
-        # Используем англоязычный поисковый запрос
         search_query = norm_data['search_query']
         search_data, sources = web_search(search_query)
@@ -305,8 +385,6 @@ def process_query(prompt: str):
             Суть проблемы (на основе поиска): {extracted_problem}
             Данные поиска:
             {search_data}
-            Список источников (для справки, не включай в ответ):
-            {sources_text}
             """},
             {"role": "user", "content": f"Проблема: {prompt}"}
         ]
@@ -318,7 +396,7 @@ def process_query(prompt: str):
         for chunk in mistral_client.chat.stream(
             model=MISTRAL_MODEL,
             messages=messages,
-            max_tokens=1024,
             temperature=0.3
         ):
             if chunk.data.choices[0].delta.content is not None:
@@ -326,27 +404,17 @@ def process_query(prompt: str):
                 full_response += chunk_text
                 message_queue.put(('response_chunk', chunk_text))
-        final_response = clean_response(full_response)
-        critical_steps = []
-        if "перепрошивк" in search_data.lower() or "firmware" in search_data.lower():
-            critical_steps.append("Выполните перепрошивку устройства")
-        if "замените" in search_data.lower() or "replace" in search_data.lower():
-            critical_steps.append("При необходимости замените неисправные компоненты")
-        if critical_steps:
-            solution_section = re.search(r'\*\*Решение:\*\*(.+?)(\*\*Источники:\*\*|$)',
-                                         final_response,
-                                         flags=re.DOTALL)
-            if solution_section:
-                updated_solution = solution_section.group(1) + "\n" + "\n".join(critical_steps)
-                final_response = final_response.replace(solution_section.group(1), updated_solution)
         message_queue.put(('response_end', final_response))
         message_queue.put(('sources', json.dumps(sources)))
         total_time = time.time() - start_time
-        message_queue.put(('log', f"💡 Ответ: {final_response}"))
         message_queue.put(('log', f"⏱ Время: {total_time:.1f}с"))
         message_queue.put(('done', ''))

 import queue
 import json
 import os
+import trafilatura
+from bs4 import BeautifulSoup
+import random
 app = Flask(__name__)
 app.secret_key = 'super_secret_key'
 MISTRAL_MODEL = "mistral-large-latest"
 N_CTX = 32768
 MAX_RESULTS = 5
+MAX_CONTENT_LENGTH = 10000  # Максимальная длина контента на источник
 # Новый клиент Mistral
 mistral_client = Mistral(api_key=os.getenv("MISTRAL_API_KEY"))
 8. Указывай артикулы деталей при замене
 9. Отвечай ТОЛЬКО на русском языке
 10. Всегда проверяй точность кодов ошибок
+11. Основывайся ТОЛЬКО на предоставленных источниках
+12. Для замены деталей указывай точные артикулы из источников
+13. Если в источниках противоречия - укажи это в решении
 """
 BLACKLISTED_DOMAINS = [
     'facebook.com',
     'youtube.com',
     'x.com',
+    'twitter.com',
+    'tiktok.com',
+    'instagram.com'
+]
+USER_AGENTS = [
+    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36",
+    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36",
+    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36",
+    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36",
+    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36",
+    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.1 Safari/605.1.15",
+    "Mozilla/5.0 (Macintosh; Intel Mac OS X 13_1) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.1 Safari/605.1.15"
 ]
 logging.basicConfig(
     ]
 )
+def get_random_headers():
+    return {
+        'User-Agent': random.choice(USER_AGENTS),
+        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
+        'Accept-Language': 'en-US,en;q=0.5',
+        'Referer': 'https://www.google.com/',
+        'DNT': '1',
+        'Connection': 'keep-alive',
+        'Upgrade-Insecure-Requests': '1'
+    }
+def extract_main_content(html, url):
+    """Извлекает основной контент страницы с помощью trafilatura или BeautifulSoup"""
+    try:
+        # Пробуем trafilatura
+        content = trafilatura.extract(html, include_links=False, include_tables=False)
+        if content and len(content) > 500:
+            return content[:MAX_CONTENT_LENGTH]
+    except Exception as e:
+        logging.error(f"Trafilatura error: {str(e)}")
+    # Fallback на BeautifulSoup
+    try:
+        soup = BeautifulSoup(html, 'html.parser')
+        # Удаляем ненужные элементы
+        for element in soup(['script', 'style', 'header', 'footer', 'nav', 'aside', 'form']):
+            element.decompose()
+        # Пытаемся найти основной контент
+        main_content = soup.find('main') or soup.find('article') or soup.find('div', class_=re.compile('content|main|article|post', re.I))
+        if main_content:
+            text = main_content.get_text(separator='\n', strip=True)
+            return text[:MAX_CONTENT_LENGTH] if text else None
+        # Fallback: весь текст body
+        return soup.body.get_text(separator='\n', strip=True)[:MAX_CONTENT_LENGTH]
+    except Exception as e:
+        logging.error(f"BeautifulSoup error: {str(e)}")
+        return None
 def generate_search_query(prompt: str) -> dict:
     system_prompt = """
     You are a technical expert. Extract structured data from the user's query and generate an English search query.
     Return data in strict JSON format with these fields:
     3. Remove brand mentions and the word "error" from model name
     4. If error code is specified - include it in search_query
     5. Problem description should be concise technical terms (max 7 words)
     """
     try:
         response = mistral_client.chat.complete(
             model=MISTRAL_MODEL,
             messages=[
             response_format={"type": "json_object"}
         )
         json_data = json.loads(response.choices[0].message.content)
         required_fields = ['brand', 'model', 'error_code', 'problem_description', 'search_query']
         for field in required_fields:
             if field not in json_data:
                 json_data[field] = ""
         if json_data['brand'] and json_data['model']:
             json_data['model'] = re.sub(
                 re.escape(json_data['brand']),
                 flags=re.IGNORECASE
             ).strip()
         if not json_data['search_query']:
             search_parts = [json_data['brand'], json_data['model']]
             if json_data['error_code']:
                 search_parts.append(f"error {json_data['error_code']}")
         return json_data
     except Exception as e:
         error_msg = f"❌ Ошибка извлечения данных: {str(e)}"
         message_queue.put(('log', error_msg))
         return {
             'brand': "",
             'model': "",
             'error_code': "",
             'problem_description': "",
+            'search_query': prompt
         }
 def web_search(query: str) -> tuple:
         combined_content = ""
         sources = []
+        full_contents = []
+        # Обработка featured snippet
         featured_snippet = data.get("featured_snippet", {})
         if featured_snippet:
             snippet = featured_snippet.get("snippet", "")
                 combined_content += f"[Автоответ Google]\n{snippet}\n\n"
                 sources.insert(0, {
                     "title": "Google — автоматический ответ",
+                    "url": f"https://www.google.com/search?q={requests.utils.quote(query)}",
+                    "content": snippet
                 })
+        # Обработка organic results
         organic_results = data.get("organic_results", [])
+        for i, res in enumerate(organic_results[:5]):  # Ограничиваемся топ-5
             title = res.get("title", "Без заголовка")
             link = res.get("link", "#")
             snippet = res.get("snippet", "") or ""
             if any(domain in link for domain in BLACKLISTED_DOMAINS):
                 continue
+            # Загрузка полного контента
+            content = None
+            try:
+                headers = get_random_headers()
+                page_response = requests.get(link, headers=headers, timeout=8)
+                if page_response.status_code == 200:
+                    content = extract_main_content(page_response.text, link)
+            except Exception as e:
+                logging.error(f"Ошибка загрузки {link}: {str(e)}")
+            if not content:
+                content = snippet  # Fallback на сниппет
+            # Форматирование контента
+            cleaned_content = re.sub(r'\s+', ' ', content).strip()
+            combined_content += f"[[Источник {i+1}]] {title}\n{cleaned_content}\n\n"
+            # Сохранение источника
+            source_data = {
+                "title": title,
+                "url": link,
+                "content": cleaned_content[:MAX_CONTENT_LENGTH]
+            }
+            sources.append(source_data)
+            full_contents.append(cleaned_content[:MAX_CONTENT_LENGTH])
         elapsed = time.time() - start_time
+        message_queue.put(('log', f"✅ Поиск был произведен за {elapsed:.2f}с. Найдено {len(sources)} источников."))
+        return combined_content[:20000], sources
     except Exception as e:
         error_msg = f"❌ SerpAPI ошибка: {str(e)}"
         return f"Поиск недоступен: {str(e)}", []
+def clean_response(response: str, sources: list) -> str:
+    # Удаление служебных тегов
     response = re.sub(r'</?assistant>|<\|system\|>|</s>', '', response, flags=re.IGNORECASE)
+    # Удаление дублирования разделов
     response = re.sub(r'(\*\*Проблема:\*\*.+?)(\*\*Проблема:\*\*)', r'\1', response, flags=re.DOTALL)
     response = re.sub(r'(\*\*Решение:\*\*.+?)(\*\*Решение:\*\*)', r'\1', response, flags=re.DOTALL)
+    # Удаление лишних переносов
     response = re.sub(r'\n\s*\n', '\n\n', response)
     response = re.sub(r'[ \t]{2,}', ' ', response)
+    # Удаление звездочек в конце
     response = re.sub(r'\*\*Источники:\*\*\s*$', '', response)
+    # Добавление ссылок на источники
+    if sources:
+        sources_text = "\n\n**Источники информации:**\n"
+        for i, source in enumerate(sources[:3]):  # Показываем первые 3 источника
+            domain = re.search(r'https?://([^/]+)', source['url'])
+            domain_name = domain.group(1) if domain else "Источник"
+            sources_text += f"• [{domain_name}]({source['url']}) - {source['title']}\n"
+        response += sources_text
+    # Обрезка до последней точки
     last_dot = response.rfind('.')
     if last_dot != -1:
         response = response[:last_dot + 1]
     return response.strip()
+def verify_with_sources(response: str, sources: list) -> str:
+    """Проверяет соответствие ответа источникам с помощью LLM"""
+    try:
+        message_queue.put(('log', "🔍 Проверяю соответствие ответа источникам..."))
+        sources_text = "\n\n".join([
+            f"Источник {i+1} ({source['title']}):\n{source['content'][:1500]}"
+            for i, source in enumerate(sources)
+        ])
+        verification_prompt = f"""
+        Проверь соответствие решения источникам:
+        ### Ответ бота:
+        {response}
+        ### Источники:
+        {sources_text}
+        Правила проверки:
+        1. Все шаги решения должны иметь подтверждение в источниках
+        2. Детали замены должны точно соответствовать арт��кулам из источников
+        3. Если в ответе есть шаги не из источников - удали их
+        4. Если есть противоречия между источниками - укажи это в решении
+        5. Если ошибки в кодах ошибок - исправь
+        6. Сохрани оригинальную структуру ответа
+        Верни исправленный ответ.
+        """
+        verification = mistral_client.chat.complete(
+            model=MISTRAL_MODEL,
+            messages=[{"role": "user", "content": verification_prompt}],
+            max_tokens=2048,
+            temperature=0.1
+        )
+        verified_response = verification.choices[0].message.content
+        return verified_response.strip()
+    except Exception as e:
+        error_msg = f"❌ Ошибка верификации: {str(e)}"
+        message_queue.put(('log', error_msg))
+        return response
 def process_query(prompt: str):
     try:
         start_time = time.time()
         norm_data = generate_search_query(prompt)
         message_queue.put(('log', f"⏏️ Извлечено: {json.dumps(norm_data, ensure_ascii=False)}"))
         search_query = norm_data['search_query']
         search_data, sources = web_search(search_query)
             Суть проблемы (на основе поиска): {extracted_problem}
             Данные поиска:
             {search_data}
             """},
             {"role": "user", "content": f"Проблема: {prompt}"}
         ]
         for chunk in mistral_client.chat.stream(
             model=MISTRAL_MODEL,
             messages=messages,
+            max_tokens=2048,
             temperature=0.3
         ):
             if chunk.data.choices[0].delta.content is not None:
                 full_response += chunk_text
                 message_queue.put(('response_chunk', chunk_text))
+        # Проверка соответствия источникам
+        verified_response = verify_with_sources(full_response, sources)
+        # Очистка и форматирование ответа
+        final_response = clean_response(verified_response, sources)
         message_queue.put(('response_end', final_response))
         message_queue.put(('sources', json.dumps(sources)))
         total_time = time.time() - start_time
+        message_queue.put(('log', f"💡 Ответ: {final_response[:200]}..."))
         message_queue.put(('log', f"⏱ Время: {total_time:.1f}с"))
         message_queue.put(('done', ''))