Spaces:

Yermek68
/

eroha-agentapi

Sleeping

App Files Files Community

Yermek68 commited on Dec 9, 2025

Commit

a1a5c33

verified ·

1 Parent(s): 7bfdf8f

Update app.py

Browse files

Files changed (1) hide show

app.py +128 -100

app.py CHANGED Viewed

@@ -3,65 +3,78 @@ from transformers import pipeline
 from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
 from langdetect import detect
-# 🔹 Кэш моделей
-summarizers = {}
-analyzers = {}
-# 🔹 Подбор модели суммаризации
-def get_summarizer(lang: str):
     if lang == "ru":
-        model_name = "IlyaGusev/mbart_ru_sum_gazeta"
     else:
-        model_name = "facebook/bart-large-cnn"
-    if model_name not in summarizers:
-        summarizers[model_name] = pipeline("summarization", model=model_name)
-    return summarizers[model_name]
-# 🔹 Подбор модели анализа настроения
 def get_sentiment_analyzer(lang: str):
     if lang == "ru":
-        model_name = "blanchefort/rubert-base-cased-sentiment"
     else:
-        model_name = "nlptown/bert-base-multilingual-uncased-sentiment"
-    if model_name not in analyzers:
-        analyzers[model_name] = pipeline("sentiment-analysis", model=model_name)
-    return analyzers[model_name]
-# 🔹 Определение темы (простая эвристика)
 def detect_topic(text: str):
     topics = {
-        "Политика": ["правительство", "закон", "президент", "выборы", "партия"],
-        "Экономика": ["доллар", "рынок", "инфляция", "инвестиции", "компания", "бизнес"],
-        "Технологии": ["AI", "искусственный интеллект", "технологии", "робот", "интернет"],
-        "Спорт": ["матч", "игра", "команда", "футбол", "спортсмен"],
-        "Наука": ["исследование", "учёные", "эксперимент", "данные", "результаты"]
     }
-    text_lower = text.lower()
-    for topic, keywords in topics.items():
-        if any(word.lower() in text_lower for word in keywords):
             return topic
     return "Общее / неопределённое направление"
-# 🔹 Очистка текста от мусора
-def clean_text(text: str):
-    text = (
-        text.replace("▁", " ")
-        .replace("<n>", "\n")
-        .replace("<s>", "")
-        .replace("</s>", "")
-        .replace("Ġ", " ")
-        .replace("Â", "")
-        .replace("", "")
-        .replace("�", "")
-        .strip()
-    )
-    while "  " in text:
-        text = text.replace("  ", " ")
-    return text
-# 🔹 Главная функция
-def summarize_text(text: str):
     if not text.strip():
         return "❌ Введите текст для анализа."
@@ -70,91 +83,106 @@ def summarize_text(text: str):
     except:
         lang = "en"
-    summarizer = get_summarizer(lang)
     sentiment_model = get_sentiment_analyzer(lang)
-    # Оптимизация под длину текста
-    words = len(text.split())
     if words < 50:
-        # Короткий текст — возвращаем TL;DR напрямую
-        summary = text.strip()
     else:
-        if words < 100:
-            max_len, min_len = 80, 20
-        elif words < 300:
-            max_len, min_len = 150, 40
-        else:
-            max_len, min_len = 250, 60
-        # Суммаризация
-        summary_raw = summarizer(
-            text, max_length=max_len, min_length=min_len, do_sample=False
-        )[0]["summary_text"]
-        # Безопасное декодирование и очистка
-        if isinstance(summary_raw, bytes):
-            summary = summary_raw.decode("utf-8", errors="ignore")
-        else:
-            summary = str(summary_raw).encode("utf-8", errors="ignore").decode("utf-8", errors="ignore")
-        summary = clean_text(summary)
-    # Анализ настроения
-    sentiment_result = sentiment_model(summary)[0]
-    sentiment = sentiment_result["label"]
-    if "POS" in sentiment or "5" in sentiment:
-        sentiment = "😊 Позитивное"
-    elif "NEG" in sentiment or "1" in sentiment:
-        sentiment = "😞 Негативное"
-    else:
-        sentiment = "😐 Нейтральное"
-    # Определение темы
     topic = detect_topic(text)
-    # Улучшенное форматирование Markdown
     output = f"""
-# 🧠 **Eroha Summarizer PRO++**
 _(Автоязык: {'Русский' if lang == 'ru' else 'Английский'})_
 ---
-### 📌 **Основная тема:** {topic}
-### 💬 **Настроение:** {sentiment}
 ---
-## 📘 **Резюме**
 {summary}
 ---
-### ✨ **TL;DR**
 {summary[:200]}{'...' if len(summary) > 200 else ''}
-"""
     return output.strip()
-# 🔹 FastAPI backend
-app = FastAPI(title="Eroha Summarizer PRO++", version="1.4")
-app.add_middleware(
-    CORSMiddleware,
-    allow_origins=["*"],
-    allow_methods=["*"],
-    allow_headers=["*"],
-)
-@app.post("/api/summarize")
-async def summarize_api(data: dict):
     text = data.get("text", "")
-    return {"summary": summarize_text(text)}
-# 🔹 Gradio интерфейс
 iface = gr.Interface(
-    fn=summarize_text,
     inputs=gr.Textbox(lines=10, label="Введите текст для анализа и суммаризации"),
     outputs=gr.Markdown(label="Результат"),
-    title="Eroha Summarizer PRO++",
-    description="AI-инструмент для анализа, определения языка, темы и настроения текста (рус/англ).",
 )
 if __name__ == "__main__":

 from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
 from langdetect import detect
+from functools import lru_cache
+import asyncio
+import re
+# ======================================================
+# 🚀 Eroha Summarizer PRO+++ v2.0 (by Yermek68)
+# ======================================================
+# Кэш пайплайнов
+@lru_cache(maxsize=10)
+def get_summarizer(lang: str, long: bool = False):
     if lang == "ru":
+        model = "IlyaGusev/mbart_ru_sum_gazeta"
+    elif lang == "de":
+        model = "ml6team/mbart-large-cc25-cnn-distilled-german"
+    elif lang == "es":
+        model = "mrm8488/bert2bert_shared-spanish-finetuned-summarization"
+    elif lang == "fr":
+        model = "mrm8488/mbart-large-finetuned-opus-fr-en"
     else:
+        model = "facebook/bart-large-cnn" if not long else "pszemraj/led-large-book-summary"
+    return pipeline("summarization", model=model)
+@lru_cache(maxsize=10)
 def get_sentiment_analyzer(lang: str):
     if lang == "ru":
+        model = "cointegrated/rubert-tiny2-emo"
     else:
+        model = "j-hartmann/emotion-english-distilroberta-base"
+    return pipeline("text-classification", model=model, top_k=None)
+# ======================================
+# 🧠 Вспомогательные функции
+# ======================================
+def clean_text(text: str) -> str:
+    text = re.sub(r"[^\x00-\x7Fа-яА-ЯёЁ.,!?;:\-–—«»\"'()\[\] ]", "", text)
+    text = text.replace("▁", " ").replace("<n>", "\n").replace("<s>", "").replace("</s>", "")
+    text = text.replace("Ġ", " ").replace("Â", "").replace("", "").replace("�", "").strip()
+    return re.sub(" +", " ", text)
 def detect_topic(text: str):
     topics = {
+        "Политика": ["правительство", "закон", "президент", "выборы"],
+        "Экономика": ["компания", "рынок", "инвестиции", "бизнес"],
+        "Технологии": ["AI", "робот", "интернет", "технологии"],
+        "Спорт": ["команда", "матч", "игра"],
+        "Наука": ["исследование", "данные", "учёные"],
     }
+    t = text.lower()
+    for topic, keys in topics.items():
+        if any(k in t for k in keys):
             return topic
     return "Общее / неопределённое направление"
+def detect_genre(text: str):
+    t = text.lower()
+    if any(w in t for w in ["заявил", "сообщил", "вчера", "компания", "год"]):
+        return "📰 Новость"
+    if any(w in t for w in ["исследование", "данные", "анализ", "эксперимент"]):
+        return "📊 Аналитика"
+    if any(w in t for w in ["купил", "доволен", "рекомендую", "��е советую"]):
+        return "🗣️ Отзыв"
+    if any(w in t for w in ["коммерческий", "продукт", "цена", "скидка"]):
+        return "📢 Реклама"
+    return "📄 Текст общего типа"
+# =====================================================
+# 🧩 Основная функция суммаризации
+# =====================================================
+async def summarize_text(text: str):
     if not text.strip():
         return "❌ Введите текст для анализа."
     except:
         lang = "en"
+    text = clean_text(text)
+    words = len(text.split())
+    long_doc = words > 800
+    summarizer = get_summarizer(lang, long_doc)
     sentiment_model = get_sentiment_analyzer(lang)
     if words < 50:
+        summary = text
     else:
+        max_len, min_len = (250, 60) if words > 300 else (120, 40)
+        loop = asyncio.get_event_loop()
+        summary_raw = await loop.run_in_executor(None, lambda: summarizer(text, max_length=max_len, min_length=min_len, do_sample=False)[0]["summary_text"])
+        summary = clean_text(summary_raw)
+    # Анализ эмоций
+    loop = asyncio.get_event_loop()
+    emotions = await loop.run_in_executor(None, lambda: sentiment_model(summary))
+    emo_label = emotions[0]["label"]
+    emo_score = emotions[0].get("score", 0)
+    # Маппинг эмоций
+    emo_map = {
+        "joy": "😊 Радость",
+        "sadness": "😢 Грусть",
+        "anger": "😠 Гнев",
+        "fear": "😨 Тревога",
+        "neutral": "😐 Нейтральное",
+        "surprise": "😲 Удивление",
+        "disgust": "🤢 Отвращение"
+    }
+    emotion = emo_map.get(emo_label.lower(), "😐 Нейтральное")
+    # Определение темы и жанра
     topic = detect_topic(text)
+    genre = detect_genre(text)
+    # Цветовое оформление
+    color = "green" if "Радость" in emotion else "red" if "Гнев" in emotion or "Грусть" in emotion else "orange"
+    # Форматированный вывод
     output = f"""
+# 🧠 <span style='color:#0073e6'>Eroha Summarizer PRO+++ v2.0</span>
 _(Автоязык: {'Русский' if lang == 'ru' else 'Английский'})_
 ---
+### 📌 Тема: <b>{topic}</b>
+### 🗂️ Жанр: {genre}
+### 💬 Настроение: <span style='color:{color}'>{emotion}</span> ({emo_score:.2f})
 ---
+## 📘 Резюме:
 {summary}
 ---
+### ✨ TL;DR:
 {summary[:200]}{'...' if len(summary) > 200 else ''}
+---
+*Eroha Intelligence Suite — Multilingual AI summarizer powered by Hugging Face*
+"""
     return output.strip()
+# =====================================================
+# 🌐 FastAPI backend
+# =====================================================
+app = FastAPI(title="Eroha Summarizer PRO+++ v2.0", version="2.0")
+app.add_middleware(CORSMiddleware, allow_origins=["*"], allow_methods=["*"], allow_headers=["*"])
+@app.post("/api/full")
+async def api_full(data: dict):
     text = data.get("text", "")
+    summary = await summarize_text(text)
+    return {"summary": summary}
+@app.post("/api/lite")
+async def api_lite(data: dict):
+    text = data.get("text", "")
+    result = await summarize_text(text)
+    clean_result = re.sub(r"<[^>]+>", "", result)
+    return {"tldr": clean_result[:300]}
+# =====================================================
+# 🎨 Gradio интерфейс
+# =====================================================
+def gradio_summary(text):
+    return asyncio.run(summarize_text(text))
 iface = gr.Interface(
+    fn=gradio_summary,
     inputs=gr.Textbox(lines=10, label="Введите текст для анализа и суммаризации"),
     outputs=gr.Markdown(label="Результат"),
+    title="Eroha Summarizer PRO+++ v2.0",
+    description="AI-инструмент нового поколения для анализа, определения языка, темы, эмоций и настроения текста (рус/англ/нем/исп/фр)."
 )
 if __name__ == "__main__":