Spaces:

VincentGOURBIN
/

swift-mlx-qwen3-chatbot

Running on Zero

App Files Files Community

VincentGOURBIN commited on Aug 22

Commit

6052529

verified ·

1 Parent(s): 8075e5b

Upload README.md with huggingface_hub

Browse files

Files changed (1) hide show

README.md +104 -5

README.md CHANGED Viewed

@@ -1,12 +1,111 @@
 ---
-title: Swift Mlx Qwen3 Chatbot
-emoji: ⚡
-colorFrom: pink
-colorTo: indigo
 sdk: gradio
 sdk_version: 5.43.1
 app_file: app.py
 pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: Swift MLX documentation research
+emoji: 🔍
+colorFrom: blue
+colorTo: green
 sdk: gradio
 sdk_version: 5.43.1
 app_file: app.py
 pinned: false
+license: mit
+hardware: zerogpu
+short_description: Search in the Swift MLX documentation
+models:
+- Qwen/Qwen3-Embedding-4B
+- Qwen/Qwen3-Reranker-4B
+- Qwen/Qwen3-4B-Instruct-2507
+datasets:
+- VincentGOURBIN/swift-mlx-Qwen3-Embedding-4B
+tags:
+- rag
+- retrieval-augmented-generation
+- qwen3
+- semantic-search
+- question-answering
+- zero-gpu
+- mcp-server
+- faiss
 ---
+# 🔍 LocalRAG - Système RAG Complet avec Qwen3
+Système RAG (Retrieval-Augmented Generation) complet utilisant les modèles Qwen3 de dernière génération avec reranking et génération streamée.
+## ⚡ Fonctionnalités
+### 🧠 **Modèles IA Avancés**
+- **Embeddings**: Qwen3-Embedding-4B (2560 dimensions)
+- **Reranking**: Qwen3-Reranker-4B pour l'affinage des résultats
+- **Génération**: Qwen3-4B-Instruct-2507 avec streaming
+- **Optimisation ZeroGPU**: Support natif avec décorateurs @spaces.GPU
+### 🔍 **Recherche Sémantique Avancée**
+- **Pipeline 2 étapes**: Recherche vectorielle + reranking
+- **Index FAISS**: Recherche haute performance sur de gros volumes
+- **Scores détaillés**: Embedding + reranking pour chaque document
+- **Sélection intelligente**: Top-K adaptatif selon pertinence
+### 💬 **Génération Contextuelle**
+- **Streaming**: Réponse progressive token par token
+- **Contexte enrichi**: Intégration des documents les plus pertinents
+- **Références**: Sources avec scores de pertinence
+- **Qualité**: Réponses basées uniquement sur le contexte fourni
+### 🔌 **Intégration MCP**
+- **Serveur MCP natif**: Fonction `ask_rag_question()` exposée
+- **Paramètres configurables**: Nombre documents, activation reranking
+- **Compatible**: Claude Desktop, VS Code, Cursor IDE
+- **API structurée**: Réponses JSON avec sources et métadonnées
+## 🚀 Utilisation
+### Interface Web
+1. **Posez votre question** dans le chat
+2. **Observez la recherche** en 2 étapes (vectorielle → reranking)
+3. **Lisez la réponse** générée en streaming
+4. **Consultez les sources** avec scores de pertinence
+### Paramètres Avancés
+- **Documents finaux**: Nombre de documents pour la génération (1-10)
+- **Reranking**: Activer/désactiver l'affinage Qwen3
+- **Historique**: Conversations contextuelles
+### Intégration MCP
+Connectez votre client MCP pour un accès programmatique :
+```python
+# Exemple d'utilisation MCP
+result = mcp_client.call_tool(
+    "ask_rag_question",
+    question="Comment implémenter des réseaux de neurones complexes?",
+    num_documents=3,
+    use_reranking=True
+)
+```
+## 🎯 Cas d'Usage Parfaits
+- **Documentation technique**: Recherche dans APIs, guides, tutoriels
+- **Support client**: Réponses basées sur une base de connaissances
+- **Recherche académique**: Analyse de corpus documentaires
+- **Assistance développeur**: Aide contextuelle sur frameworks/librairies
+- **Formation**: Système de questions-réponses intelligent
+## 📊 Performance
+- **Recherche**: ~50ms pour 10K+ documents
+- **Reranking**: ~200ms pour 20 candidats
+- **Génération**: ~2-4s avec streaming
+- **Mémoire**: ~6-8GB optimisé pour ZeroGPU
+## 🔒 Sécurité & Confidentialité
+- **ZeroGPU**: Traitement sécurisé sans stockage persistant
+- **Données temporaires**: Pas de rétention des questions/réponses
+- **Modèles locaux**: Traitement dans l'environnement HF Spaces
+## 📚 Source des Données
+Ce Space utilise des embeddings pré-calculés depuis le dataset :
+**[VincentGOURBIN/swift-mlx-Qwen3-Embedding-4B](https://huggingface.co/datasets/VincentGOURBIN/swift-mlx-Qwen3-Embedding-4B)**
+Commencez à poser vos questions pour découvrir la puissance du RAG avec Qwen3! 🔍✨