Spaces:

Jaita
/

chatbot-fastapi-backend

Sleeping

Jaita commited on Dec 8, 2025

Commit

190e142

verified ·

1 Parent(s): 6cc0940

Update services/kb_creation.py

Files changed (1) hide show

services/kb_creation.py CHANGED Viewed

@@ -76,9 +76,9 @@ def chunk_text(text, max_words=300):
 def ingest_documents(folder_path):
     """Read .docx files, chunk text, generate embeddings, and store in ChromaDB."""
-    print(f"📂 Checking folder: {folder_path}")
     files = [f for f in os.listdir(folder_path) if f.endswith('.docx')]
-    print(f"Found {len(files)} Word files: {files}")
     if not files:
         print("⚠️ No .docx files found. Please check the folder path.")
@@ -89,7 +89,7 @@ def ingest_documents(folder_path):
         text = extract_text_from_docx(file_path)
         chunks = chunk_text(text)
-        print(f"📄 Ingesting {file} with {len(chunks)} chunks")
         for i, chunk in enumerate(chunks):
             embedding = model.encode(chunk).tolist()
@@ -107,7 +107,7 @@ def search_knowledge_base(query, top_k=3):
     """Search ChromaDB using semantic similarity."""
     query_embedding = model.encode(query).tolist()
     results = collection.query(query_embeddings=[query_embedding], n_results=top_k,include=['embeddings','documents', 'metadatas', 'distances'])
-    print("results",results)
     return results
 # Example usage:

 def ingest_documents(folder_path):
     """Read .docx files, chunk text, generate embeddings, and store in ChromaDB."""
+    #print(f"📂 Checking folder: {folder_path}")
     files = [f for f in os.listdir(folder_path) if f.endswith('.docx')]
+    #print(f"Found {len(files)} Word files: {files}")
     if not files:
         print("⚠️ No .docx files found. Please check the folder path.")
         text = extract_text_from_docx(file_path)
         chunks = chunk_text(text)
+        #print(f"📄 Ingesting {file} with {len(chunks)} chunks")
         for i, chunk in enumerate(chunks):
             embedding = model.encode(chunk).tolist()
     """Search ChromaDB using semantic similarity."""
     query_embedding = model.encode(query).tolist()
     results = collection.query(query_embeddings=[query_embedding], n_results=top_k,include=['embeddings','documents', 'metadatas', 'distances'])
+    #print("results",results)
     return results
 # Example usage: