Spaces:

adiom
/

Canfly-Inna-RAG

Build error

App Files Files Community

adiom commited on Feb 28, 2025

Commit

5f0bb70

1 Parent(s): 7686d31

11

Browse files

Files changed (8) hide show

.gitignore +1 -0
.gradio/certificate.pem +31 -0
.gradio/flagged/dataset1.csv +2 -0
app.py +23 -64
data.json +32 -109
finetune.py +113 -0
test.py +29 -0
train.py +3 -3

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ *.json

.gradio/certificate.pem ADDED Viewed

	@@ -0,0 +1,31 @@

+-----BEGIN CERTIFICATE-----
+MIIFazCCA1OgAwIBAgIRAIIQz7DSQONZRGPgu2OCiwAwDQYJKoZIhvcNAQELBQAw
+TzELMAkGA1UEBhMCVVMxKTAnBgNVBAoTIEludGVybmV0IFNlY3VyaXR5IFJlc2Vh
+cmNoIEdyb3VwMRUwEwYDVQQDEwxJU1JHIFJvb3QgWDEwHhcNMTUwNjA0MTEwNDM4
+WhcNMzUwNjA0MTEwNDM4WjBPMQswCQYDVQQGEwJVUzEpMCcGA1UEChMgSW50ZXJu
+ZXQgU2VjdXJpdHkgUmVzZWFyY2ggR3JvdXAxFTATBgNVBAMTDElTUkcgUm9vdCBY
+MTCCAiIwDQYJKoZIhvcNAQEBBQADggIPADCCAgoCggIBAK3oJHP0FDfzm54rVygc
+h77ct984kIxuPOZXoHj3dcKi/vVqbvYATyjb3miGbESTtrFj/RQSa78f0uoxmyF+
+0TM8ukj13Xnfs7j/EvEhmkvBioZxaUpmZmyPfjxwv60pIgbz5MDmgK7iS4+3mX6U
+A5/TR5d8mUgjU+g4rk8Kb4Mu0UlXjIB0ttov0DiNewNwIRt18jA8+o+u3dpjq+sW
+T8KOEUt+zwvo/7V3LvSye0rgTBIlDHCNAymg4VMk7BPZ7hm/ELNKjD+Jo2FR3qyH
+B5T0Y3HsLuJvW5iB4YlcNHlsdu87kGJ55tukmi8mxdAQ4Q7e2RCOFvu396j3x+UC
+B5iPNgiV5+I3lg02dZ77DnKxHZu8A/lJBdiB3QW0KtZB6awBdpUKD9jf1b0SHzUv
+KBds0pjBqAlkd25HN7rOrFleaJ1/ctaJxQZBKT5ZPt0m9STJEadao0xAH0ahmbWn
+OlFuhjuefXKnEgV4We0+UXgVCwOPjdAvBbI+e0ocS3MFEvzG6uBQE3xDk3SzynTn
+jh8BCNAw1FtxNrQHusEwMFxIt4I7mKZ9YIqioymCzLq9gwQbooMDQaHWBfEbwrbw
+qHyGO0aoSCqI3Haadr8faqU9GY/rOPNk3sgrDQoo//fb4hVC1CLQJ13hef4Y53CI
+rU7m2Ys6xt0nUW7/vGT1M0NPAgMBAAGjQjBAMA4GA1UdDwEB/wQEAwIBBjAPBgNV
+HRMBAf8EBTADAQH/MB0GA1UdDgQWBBR5tFnme7bl5AFzgAiIyBpY9umbbjANBgkq
+hkiG9w0BAQsFAAOCAgEAVR9YqbyyqFDQDLHYGmkgJykIrGF1XIpu+ILlaS/V9lZL
+ubhzEFnTIZd+50xx+7LSYK05qAvqFyFWhfFQDlnrzuBZ6brJFe+GnY+EgPbk6ZGQ
+3BebYhtF8GaV0nxvwuo77x/Py9auJ/GpsMiu/X1+mvoiBOv/2X/qkSsisRcOj/KK
+NFtY2PwByVS5uCbMiogziUwthDyC3+6WVwW6LLv3xLfHTjuCvjHIInNzktHCgKQ5
+ORAzI4JMPJ+GslWYHb4phowim57iaztXOoJwTdwJx4nLCgdNbOhdjsnvzqvHu7Ur
+TkXWStAmzOVyyghqpZXjFaH3pO3JLF+l+/+sKAIuvtd7u+Nxe5AW0wdeRlN8NwdC
+jNPElpzVmbUq4JUagEiuTDkHzsxHpFKVK7q4+63SM1N95R1NbdWhscdCb+ZAJzVc
+oyi3B43njTOQ5yOf+1CceWxG1bQVs5ZufpsMljq4Ui0/1lvh+wjChP4kqKOJ2qxq
+4RgqsahDYVvTH9w7jXbyLeiNdd8XM2w9U/t7y0Ff/9yi0GE44Za4rF2LN9d11TPA
+mRGunUHBcnWEvgJBQl9nJEiU0Zsnvgc/ubhPgXRR4Xq37Z0j4r7g1SgEEzwxA57d
+emyPxgcYxn/eR44/KJ4EBs+lVDR3veyJm+kXQ99b21/+jh5Xos1AnX5iItreGCc=
+-----END CERTIFICATE-----

.gradio/flagged/dataset1.csv ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ query,output,timestamp
2	+ Что Тимур делаем,"['Разрабатываем проекты, которые стремятся освободить разум и дать чувствам новое дыхание.', 'Разрабатываем философские публикации, исследующие субъективный идеализм и солипсизм через примеры, такие как кино.', 'Мечтаем объединить технологии, науку и искусство для изменения мира к лучшему.', 'Создаем комиксы о футуристическом мире с марксистской философией в легкой, доброй форме.', 'Разрабатываем текстовые работы под псевдонимом Тим Ад и рассматриваем возможность издания этих работ в качестве книги.']",2025-02-28 15:46:18.553450

app.py CHANGED Viewed

@@ -1,66 +1,25 @@
-import json
-import faiss
-import torch
-from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
-from sentence_transformers import SentenceTransformer
-from deep_translator import GoogleTranslator  # Для перевода
-# Загружаем TinyLlama
-model_name = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
-tokenizer = AutoTokenizer.from_pretrained(model_name)
-model_name = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
-tokenizer = AutoTokenizer.from_pretrained(model_name)
-# Убираем 4-битную квантизацию и используем float32
-model = AutoModelForCausalLM.from_pretrained(
-    model_name,
-    torch_dtype=torch.float32,  # Используем обычные веса без квантизации
-    device_map="auto"
-)
-# Загружаем Sentence Transformer
-embedder = SentenceTransformer("all-MiniLM-L6-v2")  # Легкий, работает на Free Tier
-# Загружаем базу знаний
-with open("data.json", "r", encoding="utf-8") as f:
-    knowledge_base = json.load(f)
-# Превращаем вопросы в векторы
-instructions = [item["instruction"] for item in knowledge_base]
-responses = [item["response"] for item in knowledge_base]
-instruction_vectors = embedder.encode(instructions)
-# Создаем FAISS индекс
-dimension = instruction_vectors.shape[1]
-index = faiss.IndexFlatL2(dimension)
-index.add(instruction_vectors)
-# Функция поиска по смыслу с переводом
-def search_knowledge_base(query, top_k=1):
-    if not query.isascii():  # Если текст НЕ на английском
-        query_ru = query  # Оставляем как есть
-    else:
-        query_ru = GoogleTranslator(source='en', target='ru').translate(query)  # Переводим на русский
-    query_vector = embedder.encode([query_ru])
-    distances, indices = index.search(query_vector, top_k)
-    response_ru = responses[indices[0][0]] if indices[0][0] < len(responses) else "Ответ не найден."
-    if query.isascii():  # Если изначально вопрос был на английском, переводим обратно
-        response_en = GoogleTranslator(source='ru', target='en').translate(response_ru)
-        return response_en
-    return response_ru
-# Функция чата
-def chat(message):
-    fact = search_knowledge_base(message)
-    message = f"{message}\nИнформация: {fact}"
-    inputs = tokenizer(message, return_tensors="pt").to("cpu")
-    outputs = model.generate(**inputs, max_new_tokens=100)
-    response = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0]
-    return response
-# Gradio UI
 import gradio as gr
-iface = gr.Interface(fn=chat, inputs="text", outputs="text", title="Canfly Tiny-Inna (с переводом)")
 iface.launch()

 import gradio as gr
+from datasets import load_dataset
+from transformers import pipeline
+# Загружаем твой dataset
+dataset = load_dataset("adiom/ai-dataset")
+data = dataset['train']
+# Загружаем модель для вопросов и ответов
+qa_pipeline = pipeline("question-answering", model="deepset/roberta-base-squad2")
+# Функция для обработки запросов
+def answer_question(query):
+    best_answer = ""
+    for item in data:
+        context = item['output']  # Пример: извлекаем ответ из поля 'output'
+        result = qa_pipeline(question=query, context=context)
+        if result["score"] > 0.1:  # Порог уверенности
+            best_answer = result["answer"]
+            break
+    return best_answer
+# Интерфейс Gradio
+iface = gr.Interface(fn=answer_question, inputs="text", outputs="text")
 iface.launch()

data.json CHANGED Viewed

@@ -1,110 +1,33 @@
 [
-    {
-        "instruction": "Что разрабатывает Тимур?",
-        "response": "Тимур разрабатывает множество проектов, включая децентрализованный блокчейн-проект Amalgama с DAO, систему Proof of Contribution и токенами $AMALGAMA, $PDC, $AMT. Также он работает над созданием AI-моделей, чат-ботов, комиксов Aurora Comics, арт-проекта VZM и учебника по механико-логическим процессорам."
-    },
-    {
-        "instruction": "Кто такой Ricoch?",
-        "response": "ИИ-исследователь, психолог, специалист по NMDA"
-    },
-    {
-        "instruction": "Какие проекты у Тимура?",
-        "response": "Среди его проектов — Amalgama (блокчейн-платформа), Canfly (организация, разрабатывающая Amalgama), Ingria (автономный ИИ с гибкими экранами), Discord-бот для Ingria, Telegram-боты, модель социалистической деревни для монографии 'Социализм и ИИ - Симуляция общества', веб-сервисы с использованием DeepSpeech и Express.js, а также благотворительный фонд 'Летать вместе'."
-    },
-    {
-        "instruction": "Чем занимается Тимур?",
-        "response": "Тимур занимается разработкой программного обеспечения, изучением биоинформатики, созданием музыки в стиле dark hip-hop trap под псевдонимом DOGtheGOD, рисованием граффити, управлением кафе, исследованием технологий блокчейна, Web3.0 и смарт-контрактов, а также благотворительностью и созданием интерактивных арт-объектов."
-    },
-    {
-        "instruction": "Какие технологии использует Тимур?",
-        "response": "Тимур использует Node.js, Nuxt.js, NestJS, Docker, WordPress, смарт-контракты, NFT, Web3.0, PyMOL, TensorFlow, ESP32, FastAPI, PostgreSQL, Swift, Assembler, RISC-V, Verilog и другие современные технологии."
-    },
-    {
-        "instruction": "Какие увлечения у Тимура?",
-        "response": "Тимур увлекается музыкой, играми, уходом за растениями, саморазвитием, рисованием граффити, приготовлением пищи (пицца, вок, паста, хумус), китайской чайной церемонией и изучением биоинформатики."
-    },
-    {
-        "instruction": "Какие животные у Тимура?",
-        "response": "У Тимура четыре кота: Глафира, Масёк, Мелкий и Хабиб, а также две собаки породы алабай — Арго (старая) и Гюрза (молодая)."
-    },
-    {
-        "instruction": "Что планирует Тимур?",
-        "response": "Тимур планирует переезд в Санкт-Петербург, создание благотворительного фонда 'Летать вместе', разработку веб-сервисов с авторизацией через MetaMask и WalletConnect, изучение квантового программирования, создание механико-логического процессора (PLP) и написание книги."
-    },
-    {
-        "instruction": "Какие цели у Тимура?",
-        "response": "Тимур стремится объединить технологии, науку и искусство, изменить мир к лучшему, исследовать новые возможности взаимодействия и создавать уникальные проекты. Он также хочет удочерить ребенка и стать хорошим отцом."
-    },
-    {
-        "instruction": "Какие творческие проекты у Тимура?",
-        "response": "Тимур создает музыку под псевдонимом DOGtheGOD, пишет тексты и стихи под псевдонимом Тим Ад, рисует граффити, разрабатывает комиксы Aurora Comics и арт-проект VZM, а также создает милых существ под названием Куленёчки."
-    },
-    {
-        "instruction": "Какие научные интересы у Тимура?",
-        "response": "Тимур изучает биоинформатику, молекулярную биологию, органическую химию, квантовую физику и влияние ИИ на общество. Он также интересуется марксизмом, неомарксизмом и философскими концепциями, такими как субъективный идеализм и солипсизм."
-    },
-    {
-        "instruction": "Какие бизнес-проекты у Тимура?",
-        "response": "Тимур управляет небольшим кафе, продает парфюмерию через бренд 'Perfume by K&M', разрабатывает маркетплейс MART CAT для зоо-бизнеса и создает видеохостинг BRUTALBABY с поддержкой web3.0 и прямых эфиров."
-    },
-    {
-        "instruction": "Какие технологии блокчейна использует Тимур?",
-        "response": "Тимур работает с Polygon, интеграцией WalletConnect/MetaMask, смарт-контрактами, NFT и системой Proof of Contribution. Он также разрабатывает проект Worm для поиска узлов в множестве сетей для обеспечения отказоустойчивости блокчейна Amalgam."
-    },
-    {
-        "instruction": "Какие планы у Тимура на будущее?",
-        "response": "Тимур планирует углубиться в изучение квантового программирования, создать учебник по механико-логическим процессорам, разработать сервис для отслеживания цен криптовалют и продолжить работу над проектами, связанными с AI, блокчейном и благотворительностью."
-    },
-    {
-        "instruction": "Какие личные качества Тимура?",
-        "response": "Тимур — амбициозный, творческий и трудолюбивый человек. Он ценит семейные ценности, поддерживает социальные связи и стремится менять мир к лучшему через свои проекты."
-    },
-    {
-        "instruction": "Что такое проект Canfly?",
-        "response": "Canfly — это некоммерческая организация, основанная Адиомом Тимуром, которая занимается разработкой искусственного интеллекта и блокчейн-платформы Amalgam. Проект фокусируется на создании децентрализованных решений, благотворительности и интеграции передовых технологий."
-    },
-    {
-        "instruction": "Какие цели у проекта Canfly?",
-        "response": "Canfly стремится объединить технологии, науку и искусство для изменения мира к лучшему. Ключевые цели включают разработку блокчейн-платформы Amalgam, создание DAO, поддержку благотворительных инициатив (например, фонда 'Летать вместе'), а также продвижение открытых исследований в области ИИ, биоинформатики и квантовых технологий."
-    },
-    {
-        "instruction": "Какие технологии использует Canfly?",
-        "response": "Canfly использует технологии Web3.0, смарт-контракты, NFT, Polygon, интеграцию WalletConnect/MetaMask, а также разрабатывает AI-модели и голосовые интерфейсы. Для разработки применяются Node.js, Nuxt.js, NestJS, Docker, PostgreSQL и другие инструменты."
-    },
-    {
-        "instruction": "Что такое Canfly DAO?",
-        "response": "Canfly DAO — децентрализованная автономная организация, созданная в рамках проекта. Она управляет процессами на платформе Amalgam, распределяет токены ($PDC, $AMT, $CFT) и координирует вклад участников через систему Proof of Contribution (PoC)."
-    },
-    {
-        "instruction": "Какие токены связаны с Canfly?",
-        "response": "Canfly использует три токена: $AMALGAMA (основной токен платформы), $PDC (вознаграждение за вклад в контент) и $AMT (вознаграждение за предоставление аппаратных ресурсов). Также планируется $CFT для управления DAO."
-    },
-    {
-        "instruction": "Как связаны Canfly и Amalgam?",
-        "response": "Canfly — организация, которая разрабатывает блокчейн-платформу Amalgam. Amalgam представляет собой децентрализованную систему с DAO, уникальной системой Proof of Contribution и интеграцией Web3.0, предназначенную для создания контента через пользовательские группы (NFT) и распределения платежей через смарт-контракты."
-    },
-    {
-        "instruction": "Какие проекты входят в экосистему Canfly?",
-        "response": "В экосистему Canfly входят: Amalgam (блокчейн-платформа), Ingria (автономный ИИ с эмоциональными экранами), фонд 'Летать вместе' (благотворительность), вики-сайт по биоинформатике, учебник по механико-логическим процессорам (PLP) и другие исследовательские и образовательные инициативы."
-    },
-    {
-        "instruction": "Как Canfly поддерживает благотворительность?",
-        "response": "Canfly разрабатывает фонд 'Летать вместе', который поможет людям в сложных жизненных ситуациях, включая детей-сирот. Платформа будет open-source, чтобы любой мог развернуть её на бесплатном хостинге (например, Vercel), обеспечивая безопасность и доступность для активистов."
-    },
-    {
-        "instruction": "Какие планы у Canfly на будущее?",
-        "response": "Canfly планирует развивать Amalgam, интегрировать ИИ-модели (например, Ingria), запустить квантовые исследования, создать виртуальные выставочные пространства и расширить благотворительные программы. Также в планах — издание научных работ и учебников."
-    },
-    {
-        "instruction": "Кто участвует в разработке Canfly?",
-        "response": "Основатель и генеральный директор — Адиом Тимур. В разработке участвуют разработчики, исследователи и энтузиасты блокчейна, ИИ и биоинформатики. Canfly сотрудничает с сообществами в Twitter, GitHub и другими open-source проектами."
-    },
-    {
-        "instruction": "Как Canfly связан с искусственным интеллектом?",
-        "response": "Canfly разрабатывает AI-модели, такие как Ingria (автономный ИИ с эмоциональными экранами), голосовые боты для Telegram и Discord, а также системы анализа данных для блокчейна. Используются технологии DeepSpeech, TensorFlow и Hugging Face."
-    },
-    {
-        "instruction": "Как Canfly использует блокчейн?",
-        "response": "Canfly применяет блокчейн для создания децентрализованных приложений (Amalgam), управления DAO, хранения контента через NFT и обеспечения прозрачности в благотворительных проектах. Система Proof of Contribution стимулирует активность пользователей."
-    }
-]

 [
+    "Компания разрабатывает инновационные решения в области искусственного интеллекта.",
+    "Мы используем технологии, такие как глубокое обучение, нейронные сети и обработка естественного языка.",
+    "Наши проекты охватывают области медицины, финансов, образования и искусства.",
+    "Разрабатываем решения для автоматизации бизнес-процессов с использованием AI и Big Data.",
+    "Проект AI Health анализирует данные о здоровье и предлагает персонализированные рекомендации.",
+    "Мы работаем над созданием систем, которые помогают диагностировать болезни на ранних стадиях.",
+    "Проект AI Finance предоставляет решения для автоматической оценки рисков и прогнозирования финансовых потоков.",
+    "Разрабатываем умные роботы для промышленности, способные работать в сложных условиях.",
+    "Проект AI Art использует генеративные нейросети для создания уникальных произведений искусства.",
+    "Компания работает над созданием AI-решений для автоматизации документооборота.",
+    "Мы разрабатываем роботов, которые могут взаимодействовать с людьми и помогать в обучении.",
+    "Создаем систему для анализа социальных сетей с использованием NLP для выявления трендов и фальшивых новостей.",
+    "Используем методы машинного обучения для анализа больших данных и предсказания будущих событий.",
+    "Разрабатываем системы, которые помогают людям с инвалидностью общаться с окружающим миром.",
+    "Мы разрабатываем интеграции для IoT-устройств и облачные сервисы для хранения и обработки данных.",
+    "Проект AI for Education разрабатывает технологии для автоматического анализа успеваемости студентов.",
+    "Создаем проекты для улучшения системы здравоохранения с помощью AI и интернета вещей.",
+    "Используем AI для создания персонализированных обучающих курсов и тренажеров.",
+    "Работаем над созданием новых систем для эффективного управления городским транспортом.",
+    "Разрабатываем технологии для улучшения безопасности в городской инфраструктуре с использованием нейросетей.",
+    "Компания использует передовые технологии, такие как Blockchain и AI, для создания безопасных платформ.",
+    "Мы разрабатываем системы для обнаружения и предотвращения кибератак с помощью методов машинного обучения.",
+    "Проект AI Robotics разрабатывает роботов, способных выполнять сложные задачи на производстве.",
+    "Мы создаем AI-решения для оптимизации сельского хозяйства и повышения урожайности.",
+    "Используем глубокое обучение для анализа геномных данных и разработки новых методов лечения.",
+    "Разрабатываем нейросетевые модели для прогнозирования рыночных трендов в финансовой сфере.",
+    "Проект AI for Environment помогает отслеживать состояние экосистем и предсказывать экологические катастрофы.",
+    "Компания разрабатывает инструменты для анализа и обработки данных с помощью технологии машинного обучения.",
+    "Мы создаем системы для прогнозирования успеха стартапов с использованием AI и больших данных.",
+    "Проект AI for Law помогает юристам анализировать судебные решения и предсказывать исходы дел.",
+    "Разрабатываем системы для повышения эффективности логистики с помощью машинного обучения и IoT."
+]

finetune.py ADDED Viewed

	@@ -0,0 +1,113 @@

+from transformers import AutoTokenizer, AutoModel
+import torch
+import faiss
+import numpy as np
+import gradio as gr
+# Загружаем токенизатор и модель
+MODEL_NAME = "distilbert-base-multilingual-cased"
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+model = AutoModel.from_pretrained(MODEL_NAME)
+# Тестовая фраза
+text = "Привет, как дела?"
+# Токенизация
+tokens = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
+# Генерация эмбеддингов
+with torch.no_grad():
+    output = model(**tokens)
+# Вывод размера эмбеддингов
+embedding = output.last_hidden_state[:, 0, :]  # Берём CLS-токен
+print("Размер эмбеддинга:", embedding.shape)
+# Размерность эмбеддинга (768, как у DistilBERT)
+D = 768
+# Создаём FAISS-индекс (L2 - евклидово расстояние)
+index = faiss.IndexFlatL2(D)
+# Проверяем, пуст ли индекс
+print("Индекс создан. Количество векторов:", index.ntotal)
+import json
+# Загрузка данных из файла
+with open('data.json', 'r', encoding='utf-8') as f:
+    documents = json.load(f)
+# Проверим данные
+print(documents[:5])  # Печатаем первые 5 элементов
+# Кодируем тексты в эмбеддинги
+doc_embeddings = []
+for doc in documents:
+    tokens = tokenizer(doc, return_tensors="pt", padding=True, truncation=True)
+    with torch.no_grad():
+        embedding = model(**tokens).last_hidden_state[:, 0, :].numpy()  # Берём CLS-токен
+    doc_embeddings.append(embedding)
+# Превращаем список в numpy-массив
+doc_embeddings = np.vstack(doc_embeddings)
+# Добавляем в FAISS
+index.add(doc_embeddings)
+# Проверяем, сколько векторов в базе
+print("Векторов в индексе:", index.ntotal)
+def search_query(query, index, top_k=3):
+    # Токенизация запроса
+    tokens = tokenizer(query, return_tensors="pt", padding=True, truncation=True)
+    # Генерация эмбеддинга для запроса
+    with torch.no_grad():
+        query_embedding = model(**tokens).last_hidden_state[:, 0, :].numpy()
+    # Поиск ближайших векторов
+    D, I = index.search(query_embedding, top_k)
+    return D, I
+# Пример запроса
+query = "веб-сервис"
+# Получаем результаты поиска
+distances, indices = search_query(query, index)
+# Печатаем результаты
+print("Результаты поиска:")
+for dist, idx in zip(distances[0], indices[0]):
+    print(f"Текст: {documents[idx]} | Расстояние: {dist}")
+def search_in_faiss(query: str):
+    # Преобразуем запрос в эмбеддинг
+    tokens = tokenizer(query, return_tensors="pt", padding=True, truncation=True)
+    with torch.no_grad():
+        query_embedding = model(**tokens).last_hidden_state[:, 0, :].numpy()
+    # Находим ближайшие векторы в FAISS
+    distances, indices = index.search(query_embedding, k=5)
+    # Формируем результаты
+    results = [documents[idx] for idx in indices[0]]
+    return results
+iface = gr.Interface(
+    fn=search_in_faiss,  # Функция для поиска в FAISS
+    inputs="text",  # Ввод текста
+    outputs="text",  # Вывод результата (тексты документов)
+    title="Поиск по проектам",
+    description="Введите запрос, и система найдет наиболее подходящие ответы из базы знаний."
+)
+# Запуск интерфейса
+iface.launch(
+    share=True
+)

test.py ADDED Viewed

	@@ -0,0 +1,29 @@

+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+# Путь к сохранённой модели
+model_name = "./results"
+try:
+    # Попытка загрузить модель и токенизатор
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
+except Exception as e:
+    print(f"Ошибка при загрузке модели: {e}")
+    print("Проверьте содержимое папки './results'.")
+    exit()
+# Функция для генерации ответов
+def generate_answer(input_text):
+    inputs = tokenizer(input_text, return_tensors="pt", max_length=128, truncation=True)
+    outputs = model.generate(**inputs, max_length=128)
+    return tokenizer.decode(outputs[0], skip_special_tokens=True)
+# Тестирование модели
+if __name__ == "__main__":
+    while True:
+        question = input("Введите вопрос (или 'exit' для выхода): ")
+        if question.lower() in ["exit", "quit"]:
+            print("Завершение работы.")
+            break
+        answer = generate_answer(question)
+        print(f"Ответ модели: {answer}")

train.py CHANGED Viewed

@@ -17,12 +17,12 @@ model = get_peft_model(model, config)
 # Загружаем данные (пример из data.json)
 train_data = [
-    {"instruction": "Что такое Canfly Inna?", "response": "Canfly Inna — это FastAPI сервер с RAG."},
-    {"instruction": "Как работает FAISS?", "response": "FAISS — это быстрый поиск ближайших соседей."}
 ]
 # Преобразуем в формат для обучения
-train_texts = [f"Q: {d['instruction']}\nA: {d['response']}" for d in train_data]
 train_encodings = tokenizer(train_texts, padding=True, truncation=True, return_tensors="pt")
 # Настройки обучения

 # Загружаем данные (пример из data.json)
 train_data = [
+    {"input": "Что такое Canfly Inna?", "output": "Canfly Inna — это FastAPI сервер с RAG."},
+    {"input": "Как работает FAISS?", "output": "FAISS — это быстрый поиск ближайших соседей."}
 ]
 # Преобразуем в формат для обучения
+train_texts = [f"Q: {d['input']}\nA: {d['output']}" for d in train_data]
 train_encodings = tokenizer(train_texts, padding=True, truncation=True, return_tensors="pt")
 # Настройки обучения