Spaces:

mechtnet
/

analyse_text

Sleeping

App Files Files Community

mechtnet commited on Jan 14, 2025

Commit

d00f6e9

verified ·

1 Parent(s): 8501667

Update app.py

Browse files

Files changed (1) hide show

app.py +77 -82

app.py CHANGED Viewed

@@ -1,91 +1,86 @@
 from transformers import pipeline, AutoTokenizer
 import torch
-def test_gpt_simple():
-    try:
-        print("Starting simple GPT test...")
-        # Инициализируем пайплайн для генерации текста
-        print("Initializing text generation pipeline...")
-        generator = pipeline(
-            'text-generation',
-            model='ai-forever/rugpt3small_based_on_gpt2',
-            device=0 if torch.cuda.is_available() else -1
-        )
-        # Загружаем токенизатор
-        tokenizer = AutoTokenizer.from_pretrained('ai-forever/rugpt3small_based_on_gpt2')
-        test_prompt = """Текст:
-[Текст песни "Имя моей тоски"]
-[Куплет 1]
-Она жжёт как удар хлыста
-Вся здесь, но недостижима
-Отраженье в стекле, огонь по ту сторону реки
-И, если хочешь, иди по воде, или стань другим, но
-Он шепчет: "Господи свят, научи меня
-Имени моей тоски"
-[Куплет 2]
-Между мной и тобой каждое моё слово
-О том, как медленен снег
-О том, как небеса высоки
-Господи, если ты не в силах
-Выпустить меня из клетки этой крови
-Научи меня
-Имени моей тоски
-[Куплет 3]
-Ты слишком далеко от меня
-Слишком далеко от меня
-Как воздух от огня, вода от волны, сердце от крови
-И вот я падаю вниз, уже в двух шагах от земли
-Господи, смотри
-Разбей этот текст на эмоциоанальные цитаты. Они могут быть от одной до четырех строк. Каждой цитате подпиши эмоцию:"""
-        print(f"\nUsing prompt:\n{test_prompt}\n")
-        print("Generating response...")
-        # Генерация текста
-        output = generator(
-            test_prompt,
-            max_new_tokens=50,
-            do_sample=True,
-            top_p=0.9,
-            top_k=50,
-            temperature=0.7,
-            num_return_sequences=1,
-            pad_token_id=tokenizer.eos_token_id,
-            repetition_penalty=1.2,
-            no_repeat_ngram_size=2,
-            truncation=True  # Включаем усечение
-        )
-        # Извлекаем сгенерированный текст
-        generated_text = output[0]['generated_text']
-        # Получаем только новую часть текста (после промпта)
-        response = generated_text[len(test_prompt):].strip()
-        print(f"\nGenerated analysis:\n{response}")
-        return True
-    except Exception as e:
-        print(f"Error during test: {str(e)}")
-        print(f"Error type: {type(e)}")
-        import traceback
-        traceback.print_exc()
-        return False
 if __name__ == "__main__":
-    # Проверяем доступность CUDA
-    print(f"CUDA available: {torch.cuda.is_available()}")
-    if torch.cuda.is_available():
-        print(f"CUDA device: {torch.cuda.get_device_name(0)}")
-    # Проверяем версии библиотек
-    import transformers
-    print(f"PyTorch version: {torch.__version__}")
-    print(f"Transformers version: {transformers.__version__}")
-    test_gpt_simple()

+import streamlit as st
 from transformers import pipeline, AutoTokenizer
 import torch
+# Функция для загрузки текста из файла
+def load_text_from_file(uploaded_file):
+    text = uploaded_file.read().decode("utf-8")
+    return text
+# Функция для генерации ответа на основе промта и текста
+def generate_response(prompt, text, model, tokenizer):
+    # Объединяем текст и промт
+    full_prompt = f"{text}\n\n{prompt}"
+    # Генерация текста
+    generator = pipeline(
+        'text-generation',
+        model=model,
+        tokenizer=tokenizer,
+        device=0 if torch.cuda.is_available() else -1
+    )
+    output = generator(
+        full_prompt,
+        max_new_tokens=100,  # Увеличим количество токенов для более длинного ответа
+        do_sample=True,
+        top_p=0.9,
+        top_k=50,
+        temperature=0.7,
+        num_return_sequences=1,
+        pad_token_id=tokenizer.eos_token_id,
+        repetition_penalty=1.2,
+        no_repeat_ngram_size=2,
+        truncation=True
+    )
+    # Извлекаем сгенерированный текст
+    generated_text = output[0]['generated_text']
+    # Получаем только новую часть текста (после промпта)
+    response = generated_text[len(full_prompt):].strip()
+    return response
+# Основная функция
+def main():
+    st.title("Анализ текста с помощью GPT")
+    # Загрузка текстового файла
+    st.sidebar.header("Загрузите текстовый файл")
+    uploaded_file = st.sidebar.file_uploader("Выберите .txt файл", type="txt")
+    if uploaded_file is not None:
+        # Загружаем текст из файла
+        text = load_text_from_file(uploaded_file)
+        st.sidebar.success("Файл успешно загружен!")
+        # Показываем загруженный текст
+        st.subheader("Загруженный текст:")
+        st.text_area("Текст", text, height=300)
+        # Ввод промта
+        st.subheader("Введите промт:")
+        prompt = st.text_area("Промт", height=100)
+        # Кнопка для генерации ответа
+        if st.button("Сгенерировать ответ"):
+            if prompt.strip() == "":
+                st.warning("Пожалуйста, введите промт.")
+            else:
+                # Загружаем модель и токенизатор
+                model_name = "ai-forever/rugpt3small_based_on_gpt2"
+                tokenizer = AutoTokenizer.from_pretrained(model_name)
+                # Генерация ответа
+                with st.spinner("Генерация ответа..."):
+                    response = generate_response(prompt, text, model_name, tokenizer)
+                # Показываем ответ
+                st.subheader("Ответ модели:")
+                st.text_area("Ответ", response, height=300)
+    else:
+        st.sidebar.warning("Пожалуйста, загрузите текстовый файл.")
 if __name__ == "__main__":
+    main()