Spaces:

hamba-ho
/

Assistant-Web-Educatif

Running

App Files Files Community

hamba-ho commited on Sep 14, 2025

Commit

35b525b

1 Parent(s): 7826da3

Feat: Ajout des sources aux réponses de l'API

Browse files

Files changed (8) hide show

PROCHAINES_ETAPES.md +50 -0
backend/api/routes/documents.py +46 -28
backend/api/routes/questions.py +5 -3
backend/models/question.py +12 -3
backend/services/document_processor.py +28 -19
backend/services/question_handler.py +19 -5
backend/services/vector_store.py +23 -18
requirements.txt +131 -10

PROCHAINES_ETAPES.md ADDED Viewed

	@@ -0,0 +1,50 @@

+# Prochaines Étapes pour l'Assistant Web Éducatif
+Ce document détaille les prochaines étapes de développement pour faire évoluer le projet de son état actuel (backend fonctionnel) vers une application complète, en se basant sur le cahier des charges et la vision du produit.
+---
+### Phase 1 : Consolidation du Backend et de l'API
+L'objectif est de rendre le backend plus robuste et complet.
+1.  **Gestion des Téléversements de Fichiers (Uploads) :**
+    * [cite_start]Modifier l'endpoint `POST /documents` pour accepter un **vrai téléversement de fichier PDF** au lieu d'un simple nom de fichier [cite: 244-247, 305-309].
+    * Sauvegarder le fichier téléversé dans le dossier `data/documents`.
+    * Déclencher automatiquement le processus d'extraction et de vectorisation juste après le téléversement.
+2.  **Affiner le Modèle de Réponse :**
+    * [cite_start]Enrichir la réponse de l'API `/ask` pour inclure les **sources exactes** (nom du document, numéro de page, etc.) qui ont servi de contexte [cite: 269-277].
+    * Cela implique de stocker plus de métadonnées (comme le numéro de page) lors du découpage du texte.
+3.  **Gestion des Utilisateurs :**
+    * [cite_start]Créer des modèles de données et des tables pour les **utilisateurs** (Étudiant, Enseignant, Administrateur) [cite: 1236-1240, 1253-1255].
+    * [cite_start]Mettre en place un système d'**authentification** (par exemple, avec JWT) pour sécuriser les endpoints[cite: 71, 132].
+---
+### Phase 2 : Développement du Frontend
+L'objectif est de créer une interface utilisateur pour interagir avec le backend.
+1.  **Interface de Questions-Réponses :**
+    * [cite_start]Créer une page simple avec un champ de saisie pour poser une question et une zone pour afficher la réponse de l'IA [cite: 258-260, 1142].
+    * Connecter cette interface à l'endpoint `/api/v1/ask`.
+2.  **Interface d'Administration :**
+    * [cite_start]Développer une page sécurisée pour les enseignants et administrateurs[cite: 236].
+    * [cite_start]Créer un formulaire pour le **téléversement des manuels PDF** [cite: 237-242].
+    * Afficher la liste des documents déjà présents dans le système.
+---
+### Phase 3 : Améliorations et Déploiement
+L'objectif est de préparer le projet pour une utilisation réelle.
+1.  **Amélioration de la Pertinence :**
+    * [cite_start]Explorer des **modèles de `sentence-transformers` multilingues** ou plus spécialisés en science pour améliorer la qualité de la recherche sémantique[cite: 80].
+    * [cite_start]Permettre à l'utilisateur de noter la pertinence des réponses pour un apprentissage continu (auto-amélioration)[cite: 20, 1271].
+2.  **Mise en place du Cache :**
+    * [cite_start]Intégrer **Redis** pour mettre en cache les questions fréquentes et accélérer les temps de réponse, comme spécifié dans l'architecture[cite: 25, 62, 1384].
+3.  **Conteneurisation Complète avec Docker Compose :**
+    * [cite_start]Écrire un fichier `docker-compose.yml` pour lancer toute l'application (Backend, PostgreSQL, Redis, Ollama) avec une seule commande, simplifiant ainsi le déploiement [cite: 148-193].

backend/api/routes/documents.py CHANGED Viewed

@@ -1,46 +1,64 @@
-from fastapi import APIRouter, Depends
 from sqlalchemy.orm import Session
 from backend.models.document import Document
 from backend.api.dependencies import get_db
-from backend.services.document_processor import extract_text_from_pdf, split_text_into_chunks
 from backend.services.vector_store import VectorStore
 router = APIRouter()
 @router.post("/documents")
-def create_document(file_name: str, subject: str, level: str, db: Session = Depends(get_db)):
-    new_document = Document(file_name=file_name, subject=subject, level=level)
     db.add(new_document)
     db.commit()
     db.refresh(new_document)
-    return new_document
-@router.get("/documents")
-def get_all_documents(db: Session = Depends(get_db)):
-    documents = db.query(Document).all()
-    return documents
-@router.get("/documents/{doc_id}/process")
-def process_document_text(doc_id: int, db: Session = Depends(get_db)):
-    document = db.query(Document).filter(Document.id == doc_id).first()
-    if not document:
-        return {"error": "Document non trouvé"}
-    file_path = f"data/{document.file_name}"
-    text = extract_text_from_pdf(file_path)
-    chunks = split_text_into_chunks(text)
     try:
         vector_store = VectorStore()
-        vector_store.add_document_chunks(doc_id=doc_id, chunks=chunks)
-        return {
-            "document_id": doc_id,
-            "file_name": document.file_name,
-            "status": "Traitement et vectorisation réussis.",
-            "total_chunks_added": len(chunks)
         }
-    except Exception as e:
-        return {"error": f"Erreur lors de la vectorisation : {e}"}

+from fastapi import APIRouter, Depends, UploadFile, File, Form, HTTPException
 from sqlalchemy.orm import Session
+import aiofiles
+import os
 from backend.models.document import Document
 from backend.api.dependencies import get_db
+# MODIFIÉ: Importe la nouvelle fonction extract_pages_from_pdf
+from backend.services.document_processor import extract_pages_from_pdf, split_text_into_chunks
 from backend.services.vector_store import VectorStore
 router = APIRouter()
+UPLOAD_DIRECTORY = "data/documents"
+os.makedirs(UPLOAD_DIRECTORY, exist_ok=True)
 @router.post("/documents")
+async def create_and_process_document(
+    db: Session = Depends(get_db),
+    subject: str = Form(...),
+    level: str = Form(...),
+    file: UploadFile = File(...)
+):
+    file_path = os.path.join(UPLOAD_DIRECTORY, file.filename)
+    try:
+        async with aiofiles.open(file_path, 'wb') as out_file:
+            content = await file.read()
+            await out_file.write(content)
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=f"Erreur lors de la sauvegarde du fichier : {e}")
+    new_document = Document(file_name=file.filename, subject=subject, level=level)
     db.add(new_document)
     db.commit()
     db.refresh(new_document)
+    try:
+        # MODIFIÉ: Utilise les nouvelles fonctions pour le traitement
+        pages = extract_pages_from_pdf(file_path)
+        chunks = split_text_into_chunks(pages)
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=f"Erreur lors de l'extraction du texte du PDF : {e}")
     try:
         vector_store = VectorStore()
+        vector_store.add_document_chunks(doc_id=new_document.id, chunks=chunks)
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=f"Erreur lors de la vectorisation : {e}")
+    return {
+        "message": "Document téléversé et traité avec succès !",
+        "document_details": {
+            "id": new_document.id,
+            "file_name": new_document.file_name,
+            "subject": new_document.subject,
+            "level": new_document.level,
+            "chunks_added": len(chunks)
         }
+    }
+@router.get("/documents")
+def get_all_documents(db: Session = Depends(get_db)):
+    documents = db.query(Document).all()
+    return documents

backend/api/routes/questions.py CHANGED Viewed

@@ -1,14 +1,16 @@
 from fastapi import APIRouter
-from backend.models.question import QuestionRequest
 from backend.services.question_handler import QuestionHandler
 router = APIRouter()
 handler = QuestionHandler()
-@router.post("/ask")
 def ask_question(request: QuestionRequest):
     """
     Receives a question, finds context, and returns an AI-generated answer.
     """
     answer_data = handler.get_answer(request.question)
-    return answer_data

 from fastapi import APIRouter
+# MODIFIÉ: Import des nouveaux modèles
+from backend.models.question import QuestionRequest, QuestionResponse
 from backend.services.question_handler import QuestionHandler
 router = APIRouter()
 handler = QuestionHandler()
+# MODIFIÉ: Utilisation du response_model pour garantir le format de sortie
+@router.post("/ask", response_model=QuestionResponse)
 def ask_question(request: QuestionRequest):
     """
     Receives a question, finds context, and returns an AI-generated answer.
     """
     answer_data = handler.get_answer(request.question)
+    return answer_data

backend/models/question.py CHANGED Viewed

@@ -1,7 +1,16 @@
 from pydantic import BaseModel, Field
-from typing import Optional
 class QuestionRequest(BaseModel):
     question: str = Field(..., min_length=5, max_length=500)
-    context: Optional[str] = None
-    user_id: Optional[str] = None

 from pydantic import BaseModel, Field
+from typing import Optional, List
 class QuestionRequest(BaseModel):
     question: str = Field(..., min_length=5, max_length=500)
+# NOUVEAU: Modèle pour une source unique
+class Source(BaseModel):
+    document_id: Optional[int]
+    page: Optional[int]
+# NOUVEAU: Modèle pour la réponse complète
+class QuestionResponse(BaseModel):
+    question: str
+    answer: str
+    sources: List[Source]

backend/services/document_processor.py CHANGED Viewed

@@ -1,26 +1,35 @@
 import fitz  # PyMuPDF
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-def extract_text_from_pdf(file_path: str) -> str:
-    # ... (cette fonction ne change pas)
-    try:
-        doc = fitz.open(file_path)
-        text = ""
-        for page in doc:
-            text += page.get_text()
-        return text
-    except Exception as e:
-        print(f"Erreur lors de l'extraction du PDF {file_path}: {e}")
-        return ""
-def split_text_into_chunks(text: str) -> list[str]:
-    """
-    Découpe un long texte en morceaux plus petits.
-    """
     text_splitter = RecursiveCharacterTextSplitter(
-        chunk_size=1000,  # La taille de chaque morceau
-        chunk_overlap=200, # Le nombre de caractères de chevauchement
         length_function=len
     )
-    chunks = text_splitter.split_text(text)
-    return chunks

 import fitz  # PyMuPDF
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+from typing import List, Dict
+def extract_pages_from_pdf(file_path: str) -> List[Dict]:
+    """Extrait le contenu de chaque page et son numéro."""
+    doc = fitz.open(file_path)
+    pages_content = []
+    for page_num, page in enumerate(doc):
+        pages_content.append({
+            "page_number": page_num + 1,
+            "content": page.get_text()
+        })
+    return pages_content
+def split_text_into_chunks(pages: List[Dict]) -> List[Dict]:
+    """Découpe le texte de chaque page en morceaux en conservant les métadonnées."""
     text_splitter = RecursiveCharacterTextSplitter(
+        chunk_size=1000,
+        chunk_overlap=200,
         length_function=len
     )
+    all_chunks = []
+    for page in pages:
+        chunks_on_page = text_splitter.split_text(page["content"])
+        for chunk in chunks_on_page:
+            all_chunks.append({
+                "text": chunk,
+                "metadata": {"page": page["page_number"]}
+            })
+    return all_chunks

backend/services/question_handler.py CHANGED Viewed

@@ -6,14 +6,28 @@ class QuestionHandler:
         self.vector_store = VectorStore()
     def get_answer(self, question: str):
-        # 1. Find relevant context in the vector database
-        context = self.vector_store.find_similar_chunks(question)
-        # 2. Generate an answer using the context and the question
         answer = generate_response(question, context)
         return {
             "question": question,
             "answer": answer,
-            "context": context
-        }

         self.vector_store = VectorStore()
     def get_answer(self, question: str):
+        # 1. Trouver les chunks pertinents avec leurs métadonnées
+        search_results = self.vector_store.find_similar_chunks(question)
+        # Extraire le contexte et les sources
+        context_texts = search_results["documents"][0]
+        sources_metadata = search_results["metadatas"][0]
+        context = "\n---\n".join(context_texts)
+        # 2. Générer une réponse en utilisant le contexte
         answer = generate_response(question, context)
+        # 3. Formater les sources pour la réponse finale
+        sources = []
+        for meta in sources_metadata:
+            sources.append({
+                "document_id": meta.get("document_id"),
+                "page": meta.get("page")
+            })
         return {
             "question": question,
             "answer": answer,
+            "sources": sources
+        }

backend/services/vector_store.py CHANGED Viewed

@@ -1,43 +1,48 @@
 import chromadb
 from sentence_transformers import SentenceTransformer
 class VectorStore:
     def __init__(self):
-        # ... (le début de la classe ne change pas)
         self.client = chromadb.PersistentClient(path="data/chroma_db")
         self.embedding_model = SentenceTransformer('all-MiniLM-L6-v2')
         self.collection = self.client.get_or_create_collection(name="documents")
-    def add_document_chunks(self, doc_id: int, chunks: list[str]):
-        # ... (cette fonction ne change pas)
         if not chunks:
             return
-        embeddings = self.embedding_model.encode(chunks)
-        metadatas = [{"document_id": doc_id, "chunk_index": i} for i, _ in enumerate(chunks)]
         ids = [f"doc_{doc_id}_chunk_{i}" for i, _ in enumerate(chunks)]
         self.collection.add(
             embeddings=embeddings,
             metadatas=metadatas,
-            documents=chunks,
             ids=ids
         )
         print(f"Ajout de {len(chunks)} chunks pour le document {doc_id} à ChromaDB.")
-    # === AJOUTEZ CETTE NOUVELLE FONCTION CI-DESSOUS ===
-    def find_similar_chunks(self, question: str, n_results: int = 3) -> list[str]:
-        """
-        Trouve les morceaux de texte les plus pertinents pour une question donnée.
-        """
-        # Transforme la question en vecteur.
         query_embedding = self.embedding_model.encode(question)
-        # Interroge la collection ChromaDB.
         results = self.collection.query(
             query_embeddings=[query_embedding.tolist()],
-            n_results=n_results
         )
-        # Retourne uniquement le texte des documents trouvés.
-        return results['documents'][0]

 import chromadb
 from sentence_transformers import SentenceTransformer
+from typing import List, Dict
 class VectorStore:
     def __init__(self):
         self.client = chromadb.PersistentClient(path="data/chroma_db")
         self.embedding_model = SentenceTransformer('all-MiniLM-L6-v2')
         self.collection = self.client.get_or_create_collection(name="documents")
+    # MODIFIÉ: La fonction accepte maintenant une liste de dictionnaires
+    def add_document_chunks(self, doc_id: int, chunks: List[Dict]):
         if not chunks:
             return
+        texts = [chunk["text"] for chunk in chunks]
+        embeddings = self.embedding_model.encode(texts)
+        # MODIFIÉ: Les métadonnées incluent maintenant le numéro de page
+        metadatas = []
+        for i, chunk in enumerate(chunks):
+            meta = chunk["metadata"]
+            meta["document_id"] = doc_id
+            meta["chunk_index"] = i
+            metadatas.append(meta)
         ids = [f"doc_{doc_id}_chunk_{i}" for i, _ in enumerate(chunks)]
         self.collection.add(
             embeddings=embeddings,
             metadatas=metadatas,
+            documents=texts,
             ids=ids
         )
         print(f"Ajout de {len(chunks)} chunks pour le document {doc_id} à ChromaDB.")
+    # MODIFIÉ: La fonction retourne maintenant les documents ET leurs métadonnées
+    def find_similar_chunks(self, question: str, n_results: int = 3) -> Dict:
+        """Trouve les chunks pertinents et retourne leur contenu et métadonnées."""
         query_embedding = self.embedding_model.encode(question)
         results = self.collection.query(
             query_embeddings=[query_embedding.tolist()],
+            n_results=n_results,
+            include=["documents", "metadatas"] # On demande explicitement les métadonnées
         )
+        return results

requirements.txt CHANGED Viewed

@@ -1,10 +1,131 @@
-fastapi
-uvicorn[standard]
-pydantic-settings
-SQLAlchemy
-psycopg2-binary
-PyMuPDF
-langchain
-sentence-transformers
-chromadb
-requests

+aiofiles==24.1.0
+annotated-types==0.7.0
+anyio==4.10.0
+attrs==25.3.0
+backoff==2.2.1
+bcrypt==4.3.0
+build==1.3.0
+cachetools==5.5.2
+certifi==2025.8.3
+charset-normalizer==3.4.3
+chromadb==1.0.20
+click==8.2.1
+coloredlogs==15.0.1
+distro==1.9.0
+durationpy==0.10
+fastapi==0.116.1
+filelock==3.19.1
+flatbuffers==25.2.10
+fsspec==2025.7.0
+google-auth==2.40.3
+googleapis-common-protos==1.70.0
+greenlet==3.2.4
+grpcio==1.74.0
+h11==0.16.0
+hf-xet==1.1.8
+httpcore==1.0.9
+httptools==0.6.4
+httpx==0.28.1
+huggingface-hub==0.34.4
+humanfriendly==10.0
+idna==3.10
+importlib_metadata==8.7.0
+importlib_resources==6.5.2
+Jinja2==3.1.6
+joblib==1.5.1
+jsonpatch==1.33
+jsonpointer==3.0.0
+jsonschema==4.25.1
+jsonschema-specifications==2025.4.1
+kubernetes==33.1.0
+langchain==0.3.27
+langchain-core==0.3.74
+langchain-text-splitters==0.3.9
+langsmith==0.4.16
+markdown-it-py==4.0.0
+MarkupSafe==3.0.2
+mdurl==0.1.2
+mmh3==5.2.0
+mpmath==1.3.0
+networkx==3.5
+numpy==2.3.2
+nvidia-cublas-cu12==12.8.4.1
+nvidia-cuda-cupti-cu12==12.8.90
+nvidia-cuda-nvrtc-cu12==12.8.93
+nvidia-cuda-runtime-cu12==12.8.90
+nvidia-cudnn-cu12==9.10.2.21
+nvidia-cufft-cu12==11.3.3.83
+nvidia-cufile-cu12==1.13.1.3
+nvidia-curand-cu12==10.3.9.90
+nvidia-cusolver-cu12==11.7.3.90
+nvidia-cusparse-cu12==12.5.8.93
+nvidia-cusparselt-cu12==0.7.1
+nvidia-nccl-cu12==2.27.3
+nvidia-nvjitlink-cu12==12.8.93
+nvidia-nvtx-cu12==12.8.90
+oauthlib==3.3.1
+onnxruntime==1.22.1
+opentelemetry-api==1.36.0
+opentelemetry-exporter-otlp-proto-common==1.36.0
+opentelemetry-exporter-otlp-proto-grpc==1.36.0
+opentelemetry-proto==1.36.0
+opentelemetry-sdk==1.36.0
+opentelemetry-semantic-conventions==0.57b0
+orjson==3.11.2
+overrides==7.7.0
+packaging==25.0
+pillow==11.3.0
+posthog==5.4.0
+protobuf==6.32.0
+psycopg2-binary==2.9.10
+pyasn1==0.6.1
+pyasn1_modules==0.4.2
+pybase64==1.4.2
+pydantic==2.11.7
+pydantic-settings==2.10.1
+pydantic_core==2.33.2
+Pygments==2.19.2
+PyMuPDF==1.26.3
+PyPika==0.48.9
+pyproject_hooks==1.2.0
+python-dateutil==2.9.0.post0
+python-dotenv==1.1.1
+python-multipart==0.0.20
+PyYAML==6.0.2
+referencing==0.36.2
+regex==2025.7.34
+requests==2.32.5
+requests-oauthlib==2.0.0
+requests-toolbelt==1.0.0
+rich==14.1.0
+rpds-py==0.27.0
+rsa==4.9.1
+safetensors==0.6.2
+scikit-learn==1.7.1
+scipy==1.16.1
+sentence-transformers==5.1.0
+setuptools==80.9.0
+shellingham==1.5.4
+six==1.17.0
+sniffio==1.3.1
+SQLAlchemy==2.0.43
+starlette==0.47.2
+sympy==1.14.0
+tenacity==9.1.2
+threadpoolctl==3.6.0
+tokenizers==0.21.4
+torch==2.8.0
+tqdm==4.67.1
+transformers==4.55.4
+triton==3.4.0
+typer==0.16.1
+typing-inspection==0.4.1
+typing_extensions==4.14.1
+urllib3==2.5.0
+uvicorn==0.35.0
+uvloop==0.21.0
+watchfiles==1.1.0
+websocket-client==1.8.0
+websockets==15.0.1
+zipp==3.23.0
+zstandard==0.24.0