Spaces:

Guillaumedbx
/

AssistantJuridique2

Runtime error

App Files Files Community

Guillaumedbx commited on Jun 30, 2025

Commit

6208436

1 Parent(s): a42113e

Remove unused Python scripts from the project

Browse files

Files changed (7) hide show

archivemails.py +0 -0
codetravail.py +0 -0
downloadModels.py +0 -0
jurisprudence.py +0 -0
setup_vectorstore.py +0 -0
src/utils/jurisprudence.py +0 -92
src/utils/setup_vectorstore.py +0 -0

archivemails.py DELETED Viewed

File without changes

codetravail.py DELETED Viewed

File without changes

downloadModels.py DELETED Viewed

File without changes

jurisprudence.py DELETED Viewed

File without changes

setup_vectorstore.py DELETED Viewed

File without changes

src/utils/jurisprudence.py DELETED Viewed

@@ -1,92 +0,0 @@
-import os
-import time
-from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain_community.vectorstores import Chroma
-from langchain_community.embeddings import HuggingFaceEmbeddings
-# Paramètres
-CHUNK_SIZE = 500
-CHUNK_OVERLAP = 100
-DB_PATH = os.path.abspath("../../db")  # Chemin racine du projet
-EMBEDDING_MODEL = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
-ARCHIVE_DIR = os.path.abspath("./data/archives_mails")
-JURIS_DIR = os.path.abspath("./data/jurisprudence")
-print("[INFO] Chargement des mails depuis :", ARCHIVE_DIR)
-mail_files = [f for f in os.listdir(ARCHIVE_DIR) if os.path.isfile(os.path.join(ARCHIVE_DIR, f))]
-print(f"[INFO] {len(mail_files)} fichiers trouvés.")
-print("[INFO] Chargement des décisions depuis :", JURIS_DIR)
-juris_files = [f for f in os.listdir(JURIS_DIR) if os.path.isfile(os.path.join(JURIS_DIR, f))]
-print(f"[INFO] {len(juris_files)} fichiers trouvés.")
-splitter = RecursiveCharacterTextSplitter(chunk_size=CHUNK_SIZE, chunk_overlap=CHUNK_OVERLAP)
-documents = []
-metadatas = []
-for idx, filename in enumerate(mail_files):
-    file_path = os.path.join(ARCHIVE_DIR, filename)
-    try:
-        with open(file_path, 'r', encoding='utf-8') as f:
-            content = f.read()
-    except Exception as e:
-        print(f"[WARN] Impossible de lire {filename} : {e}")
-        continue
-    if not content.strip():
-        print(f"[WARN] Fichier vide ignoré : {filename}")
-        continue
-    for chunk in splitter.split_text(content):
-        documents.append(chunk)
-        metadatas.append({
-            "source": "archive_mail",
-            "filename": filename
-        })
-print(f"[INFO] {len(documents)} chunks générés à partir des mails.")
-for idx, filename in enumerate(juris_files):
-    file_path = os.path.join(JURIS_DIR, filename)
-    try:
-        with open(file_path, 'r', encoding='utf-8') as f:
-            content = f.read()
-    except Exception as e:
-        print(f"[WARN] Impossible de lire {filename} : {e}")
-        continue
-    if not content.strip():
-        print(f"[WARN] Fichier vide ignoré : {filename}")
-        continue
-    for chunk in splitter.split_text(content):
-        documents.append(chunk)
-        metadatas.append({
-            "source": "jurisprudence",
-            "filename": filename
-        })
-print(f"[INFO] {len(documents)} chunks générés à partir des décisions.")
-print(f"[INFO] Chargement des embeddings ({EMBEDDING_MODEL})...")
-embeddings = HuggingFaceEmbeddings(model_name=EMBEDDING_MODEL)
-# Charger ou créer la base Chroma existante
-if os.path.exists(DB_PATH):
-    print(f"[INFO] Ouverture de la base vectorielle existante : {DB_PATH}")
-    db = Chroma(persist_directory=DB_PATH, embedding_function=embeddings)
-else:
-    print(f"[INFO] Création d'une nouvelle base vectorielle : {DB_PATH}")
-    os.makedirs(DB_PATH, exist_ok=True)
-    db = Chroma(persist_directory=DB_PATH, embedding_function=embeddings)
-# Ajout des nouveaux documents
-print("[INFO] Ajout des nouveaux mails et décisions à la base vectorielle...")
-t0 = time.time()
-db.add_texts(documents, metadatas=metadatas)
-db.persist()
-t1 = time.time()
-print(f"[SUCCESS] {len(documents)} chunks de mails et décisions ajoutés à la base vectorielle en {t1-t0:.1f} secondes.")
-# Affichage du total de documents dans la base
-try:
-    total_docs = db._collection.count()
-    print(f"[INFO] Total de documents dans la base vectorielle après ajout : {total_docs}")
-except Exception as e:
-    print(f"[WARN] Impossible de compter le nombre total de documents : {e}")
-print(f"[INFO] La base vectorielle est prête dans : {DB_PATH}")

src/utils/setup_vectorstore.py DELETED Viewed

File without changes