Spaces:

bziiit
/

RAG_architectures

Running

App Files Files Community

Aidahaouas commited on Feb 24, 2025

Commit

c771603

verified ·

1 Parent(s): f4483cc

Delete pinecone_utils.py

Browse files

Files changed (1) hide show

pinecone_utils.py +0 -59

pinecone_utils.py DELETED Viewed

@@ -1,59 +0,0 @@
-from sentence_transformers import SentenceTransformer
-from config import index
-import zlib
-import base64
-def split_text_into_chunks(text, max_chunk_size=1024):
-    """Divise le texte en morceaux de taille maximale spécifiée."""
-    return [text[i:i+max_chunk_size] for i in range(0, len(text), max_chunk_size)]
-def decompress_text(compressed_text):
-    """Decompress a compressed text string."""
-    decoded = base64.b64decode(compressed_text.encode('ascii'))
-    return zlib.decompress(decoded).decode('utf-8')
-def compress_text(text):
-    """Compresse le texte et le encode en base64."""
-    compressed = zlib.compress(text.encode('utf-8'))
-    return base64.b64encode(compressed).decode('ascii')
-def get_metadata_size(metadata):
-    """Calcule la taille des métadonnées en bytes."""
-    return len(str(metadata).encode('utf-8'))
-def index_pdf(texts):
-    model = SentenceTransformer('intfloat/multilingual-e5-large')
-    vectors = model.encode(texts)
-    for i, (vector, chunk) in enumerate(zip(vectors, texts)):
-        # Diviser le texte en morceaux de 1024 caractères
-        chunks = split_text_into_chunks(chunk, max_chunk_size=1024)
-        for j, small_chunk in enumerate(chunks):
-            # Compresser le morceau
-            compressed_chunk = compress_text(small_chunk)
-            metadata = {"compressed_text": compressed_chunk}
-            # Vérifier la taille des métadonnées
-            metadata_size = get_metadata_size(metadata)
-            if metadata_size > 40960:  # 40 KB
-                print(f"Attention : la taille des métadonnées ({metadata_size} bytes) dépasse la limite de 40960 bytes.")
-                # Réduire davantage la taille du morceau
-                small_chunk = small_chunk[:512]  # Réduire à 512 caractères
-                compressed_chunk = compress_text(small_chunk)
-                metadata = {"compressed_text": compressed_chunk}
-                metadata_size = get_metadata_size(metadata)
-                if metadata_size > 40960:
-                    print("Impossible de réduire suffisamment la taille des métadonnées. Ignorer ce morceau.")
-                    continue
-            # Insérer dans Pinecone
-            index.upsert([(f"vec_{i}_{j}", vector.tolist(), metadata)])
-def retrieve_documents(query):
-    model = SentenceTransformer('intfloat/multilingual-e5-large')
-    query_vector = model.encode([query]).tolist()[0]
-    results = index.query(vector=query_vector, top_k=5, include_metadata=True)
-    relevant_docs = []
-    for match in results.get("matches", []):
-        compressed_text = match["metadata"]["compressed_text"]
-        relevant_docs.append(decompress_text(compressed_text))
-    return relevant_docs