Spaces:

NEXAS
/

docling_rag

Sleeping

NEXAS commited on Mar 2, 2025

Commit

29df71b

verified ·

1 Parent(s): 6e1201a

Update utils/ingestion.py

Files changed (1) hide show

utils/ingestion.py CHANGED Viewed

@@ -96,16 +96,22 @@ class DocumentProcessor:
         ids = []
         for idx, chunk in enumerate(processed_chunks):
-            embedding = self.embed_model.encode(chunk['text'])
-            documents.append(chunk['text'])
             embeddings.append(embedding)
             metadata_list.append({
-                "headings": json.dumps(chunk['headings']),
-                "page": chunk['page_info'],
-                "content_type": chunk['content_type']
             })
             ids.append(str(idx))
         collection.add(
             ids=ids,
             embeddings=embeddings,

         ids = []
         for idx, chunk in enumerate(processed_chunks):
+            text = chunk.get('text', '').strip()
+            if not text:
+                print(f"Skipping empty chunk at index {idx}")
+                continue  # Skip empty chunks
+            embedding = self.embed_model.embed_documents([text])[0]  # ✅ Correct method
+            documents.append(text)
             embeddings.append(embedding)
             metadata_list.append({
+                "headings": json.dumps(chunk.get('headings', [])),
+                "page": chunk.get('page_info', None),
+                "content_type": chunk.get('content_type', None)
             })
             ids.append(str(idx))
         collection.add(
             ids=ids,
             embeddings=embeddings,