Spaces:

NavyDevilDoc
/

AI_Toolkit

Sleeping

NavyDevilDoc commited on Dec 23, 2025

Commit

1c2fd03

verified ·

1 Parent(s): 5576211

Update src/rag_engine.py

Files changed (1) hide show

src/rag_engine.py CHANGED Viewed

@@ -341,12 +341,16 @@ def rebuild_cache_from_pinecone(username: str, index_name: str) -> Tuple[bool, s
             for vec_id, vec_data in vectors.items():
                 meta = vec_data.metadata or {}
                 source = meta.get('source', 'unknown.txt')
                 text = meta.get('text') or meta.get('page_content') or ''
                 # EXTRACT CHUNK INDEX FROM ID (e.g., "doc.txt_12" -> 12)
                 try:
-                    # Assumes ID format "filename_index"
-                    chunk_index = int(vec_id.rsplit('_', 1)[-1])
                 except ValueError:
                     chunk_index = 0 # Fallback
@@ -361,6 +365,7 @@ def rebuild_cache_from_pinecone(username: str, index_name: str) -> Tuple[bool, s
         count = 0
         for filename, chunks in reconstructed_files.items():
             # SORT BY INDEX (The Fix)
             chunks.sort(key=lambda x: x[0])
             # Join text only

             for vec_id, vec_data in vectors.items():
                 meta = vec_data.metadata or {}
                 source = meta.get('source', 'unknown.txt')
+                # Try to get text from 'text' (langchain default) or 'page_content' (our backup)
                 text = meta.get('text') or meta.get('page_content') or ''
                 # EXTRACT CHUNK INDEX FROM ID (e.g., "doc.txt_12" -> 12)
                 try:
+                    # Assumes ID format "filename_index" from our new ingestion logic
+                    if "_" in vec_id:
+                        chunk_index = int(vec_id.rsplit('_', 1)[-1])
+                    else:
+                        chunk_index = 0
                 except ValueError:
                     chunk_index = 0 # Fallback
         count = 0
         for filename, chunks in reconstructed_files.items():
             # SORT BY INDEX (The Fix)
+            # This ensures Paragraph 1 comes before Paragraph 2
             chunks.sort(key=lambda x: x[0])
             # Join text only