Spaces:

Yermek68
/

eroha-agentapi

Sleeping

App Files Files Community

Yermek68 commited on Dec 9, 2025

Commit

7bfdf8f

verified ·

1 Parent(s): b429f61

Update app.py

Browse files

Files changed (1) hide show

app.py +78 -44

app.py CHANGED Viewed

@@ -4,12 +4,12 @@ from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
 from langdetect import detect
-# Кэш моделей
 summarizers = {}
 analyzers = {}
 def get_summarizer(lang: str):
-    """Подбор модели суммаризации по языку"""
     if lang == "ru":
         model_name = "IlyaGusev/mbart_ru_sum_gazeta"
     else:
@@ -18,8 +18,8 @@ def get_summarizer(lang: str):
         summarizers[model_name] = pipeline("summarization", model=model_name)
     return summarizers[model_name]
 def get_sentiment_analyzer(lang: str):
-    """Подбор модели анализа настроения"""
     if lang == "ru":
         model_name = "blanchefort/rubert-base-cased-sentiment"
     else:
@@ -28,23 +28,40 @@ def get_sentiment_analyzer(lang: str):
         analyzers[model_name] = pipeline("sentiment-analysis", model=model_name)
     return analyzers[model_name]
 def detect_topic(text: str):
-    """Простая эвристика для темы текста"""
     topics = {
-        "политика": ["правительство", "закон", "президент", "выборы", "партия"],
-        "экономика": ["доллар", "рынок", "инфляция", "инвестиции", "компания", "бизнес"],
-        "технологии": ["AI", "искусственный интеллект", "технологии", "робот", "интернет"],
-        "спорт": ["матч", "игра", "команда", "футбол", "спортсмен"],
-        "наука": ["исследование", "учёные", "эксперимент", "данные", "результаты"]
     }
     text_lower = text.lower()
     for topic, keywords in topics.items():
         if any(word.lower() in text_lower for word in keywords):
-            return topic.capitalize()
     return "Общее / неопределённое направление"
 def summarize_text(text: str):
-    """Главная функция суммаризации"""
     if not text.strip():
         return "❌ Введите текст для анализа."
@@ -56,26 +73,30 @@ def summarize_text(text: str):
     summarizer = get_summarizer(lang)
     sentiment_model = get_sentiment_analyzer(lang)
-    # Оптимизация по длине
     words = len(text.split())
-    if words < 100:
-        max_len, min_len = 80, 20
-    elif words < 300:
-        max_len, min_len = 150, 40
     else:
-        max_len, min_len = 250, 60
-    # Суммаризация
-    summary_raw = summarizer(text, max_length=max_len, min_length=min_len, do_sample=False)[0]["summary_text"]
-# Декодируем и очищаем вывод
-if isinstance(summary_raw, bytes):
-    summary = summary_raw.decode("utf-8", errors="ignore")
-else:
-    summary = str(summary_raw).encode("utf-8", errors="ignore").decode("utf-8", errors="ignore")
-summary = summary.replace("▁", " ").replace("<n>", "\n").strip()
     # Анализ настроения
     sentiment_result = sentiment_model(summary)[0]
@@ -90,18 +111,31 @@ summary = summary.replace("▁", " ").replace("<n>", "\n").strip()
     # Определение темы
     topic = detect_topic(text)
-    # Форматированный вывод
-    output = f"## 🧠 Eroha Summarizer PRO+ (автоязык: {'Русский' if lang == 'ru' else 'Английский'})\n\n"
-    output += f"**📌 Основная тема:** {topic}\n\n"
-    output += f"**💬 Настроение:** {sentiment}\n\n"
-    output += f"---\n"
-    output += f"### 📘 Резюме:\n{summary}\n\n"
-    output += f"---\n"
-    output += f"**TL;DR:** {summary[:150]}{'...' if len(summary) > 150 else ''}"
-    return output
-# FastAPI backend
-app = FastAPI(title="Eroha Summarizer PRO+", version="1.3")
 app.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
@@ -114,13 +148,13 @@ async def summarize_api(data: dict):
     text = data.get("text", "")
     return {"summary": summarize_text(text)}
-# Gradio интерфейс
 iface = gr.Interface(
     fn=summarize_text,
     inputs=gr.Textbox(lines=10, label="Введите текст для анализа и суммаризации"),
     outputs=gr.Markdown(label="Результат"),
-    title="Eroha Summarizer PRO+",
-    description="AI-инструмент для суммаризации, определения языка, темы и настроения текста (рус/англ).",
 )
 if __name__ == "__main__":

 from fastapi.middleware.cors import CORSMiddleware
 from langdetect import detect
+# 🔹 Кэш моделей
 summarizers = {}
 analyzers = {}
+# 🔹 Подбор модели суммаризации
 def get_summarizer(lang: str):
     if lang == "ru":
         model_name = "IlyaGusev/mbart_ru_sum_gazeta"
     else:
         summarizers[model_name] = pipeline("summarization", model=model_name)
     return summarizers[model_name]
+# 🔹 Подбор модели анализа настроения
 def get_sentiment_analyzer(lang: str):
     if lang == "ru":
         model_name = "blanchefort/rubert-base-cased-sentiment"
     else:
         analyzers[model_name] = pipeline("sentiment-analysis", model=model_name)
     return analyzers[model_name]
+# 🔹 Определение темы (простая эвристика)
 def detect_topic(text: str):
     topics = {
+        "Политика": ["правительство", "закон", "президент", "выборы", "партия"],
+        "Экономика": ["доллар", "рынок", "инфляция", "инвестиции", "компания", "бизнес"],
+        "Технологии": ["AI", "искусственный интеллект", "технологии", "робот", "интернет"],
+        "Спорт": ["матч", "игра", "команда", "футбол", "спортсмен"],
+        "Наука": ["исследование", "учёные", "эксперимент", "данные", "результаты"]
     }
     text_lower = text.lower()
     for topic, keywords in topics.items():
         if any(word.lower() in text_lower for word in keywords):
+            return topic
     return "Общее / неопределённое направление"
+# 🔹 Очистка текста от мусора
+def clean_text(text: str):
+    text = (
+        text.replace("▁", " ")
+        .replace("<n>", "\n")
+        .replace("<s>", "")
+        .replace("</s>", "")
+        .replace("Ġ", " ")
+        .replace("Â", "")
+        .replace("", "")
+        .replace("�", "")
+        .strip()
+    )
+    while "  " in text:
+        text = text.replace("  ", " ")
+    return text
+# 🔹 Главная функция
 def summarize_text(text: str):
     if not text.strip():
         return "❌ Введите текст для анализа."
     summarizer = get_summarizer(lang)
     sentiment_model = get_sentiment_analyzer(lang)
+    # Оптимизация под длину текста
     words = len(text.split())
+    if words < 50:
+        # Короткий текст — возвращаем TL;DR напрямую
+        summary = text.strip()
     else:
+        if words < 100:
+            max_len, min_len = 80, 20
+        elif words < 300:
+            max_len, min_len = 150, 40
+        else:
+            max_len, min_len = 250, 60
+        # Суммаризация
+        summary_raw = summarizer(
+            text, max_length=max_len, min_length=min_len, do_sample=False
+        )[0]["summary_text"]
+        # Безопасное декодирование и очистка
+        if isinstance(summary_raw, bytes):
+            summary = summary_raw.decode("utf-8", errors="ignore")
+        else:
+            summary = str(summary_raw).encode("utf-8", errors="ignore").decode("utf-8", errors="ignore")
+        summary = clean_text(summary)
     # Анализ настроения
     sentiment_result = sentiment_model(summary)[0]
     # Определение темы
     topic = detect_topic(text)
+    # Улучшенное форматирование Markdown
+    output = f"""
+# 🧠 **Eroha Summarizer PRO++**
+_(Автоязык: {'Русский' if lang == 'ru' else 'Английский'})_
+---
+### 📌 **Основная тема:** {topic}
+### 💬 **Настроение:** {sentiment}
+---
+## 📘 **Резюме**
+{summary}
+---
+### ✨ **TL;DR**
+{summary[:200]}{'...' if len(summary) > 200 else ''}
+"""
+    return output.strip()
+# 🔹 FastAPI backend
+app = FastAPI(title="Eroha Summarizer PRO++", version="1.4")
 app.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
     text = data.get("text", "")
     return {"summary": summarize_text(text)}
+# 🔹 Gradio интерфейс
 iface = gr.Interface(
     fn=summarize_text,
     inputs=gr.Textbox(lines=10, label="Введите текст для анализа и суммаризации"),
     outputs=gr.Markdown(label="Результат"),
+    title="Eroha Summarizer PRO++",
+    description="AI-инструмент для анализа, определения языка, темы и настроения текста (рус/англ).",
 )
 if __name__ == "__main__":