Spaces:

mfirat007
/

erds

Runtime error

mfirat007 commited on Apr 21, 2025

Commit

0d89fd2

verified ·

1 Parent(s): cea1c72

Update preprocess_chunks.py

Files changed (1) hide show

preprocess_chunks.py CHANGED Viewed

@@ -1,40 +1,32 @@
-# preprocess_chunks.py
 import os
-import orjson
 from langchain.text_splitter import CharacterTextSplitter
-# 1) Ayıklanacak JSON dosyanızın yolu
-SRC_JSON = "research_methods_info.json"
-# 2) Oluşturacağınız parça dosyalarının konacağı klasör
-OUT_DIR  = "chunks"
-# Klasörü yaratın (zaten varsa atla)
 os.makedirs(OUT_DIR, exist_ok=True)
-# JSON’u oku
 with open(SRC_JSON, "rb") as f:
-    data = orjson.loads(f.read())       # or json.load(f)
-# Tokenizer/ayırıcıyı oluşturun
 splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
-# Her yöntem kaydını parçalayıp diske yaz
 for idx, rec in enumerate(data.get("methods", [])):
-    # İstediğiniz alanları birleştirin
     parts = [
         f"Name:\n{rec.get('name','')}",
         f"Description:\n{rec.get('description','')}",
-        f"Use when:\n{rec.get('use_when','')}",
-        # … dilediğiniz diğer bloklar …
     ]
     text = "\n\n".join([p for p in parts if p.strip()])
-    # Metni chunk’lara bölün
     chunks = splitter.split_text(text)
-    # Her bir chunk’ı ayrı dosya olarak kaydedin
     for j, chunk in enumerate(chunks):
-        out_path = os.path.join(OUT_DIR, f"{idx:03d}_{j:02d}.txt")
-        with open(out_path, "w", encoding="utf-8") as outf:
             outf.write(chunk)

 import os
+import orjson
 from langchain.text_splitter import CharacterTextSplitter
+from langchain.embeddings import OpenAIEmbeddings
+from langchain.vectorstores import Chroma
+from langchain.document_loaders import TextLoader
+# 1) Chunk’ları oluşturma (mevcut kodunuz)
+SRC_JSON = "research_methods_info.json"
+OUT_DIR  = "chunks"
 os.makedirs(OUT_DIR, exist_ok=True)
 with open(SRC_JSON, "rb") as f:
+    data = orjson.loads(f.read())
 splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
 for idx, rec in enumerate(data.get("methods", [])):
     parts = [
         f"Name:\n{rec.get('name','')}",
         f"Description:\n{rec.get('description','')}",
+        # … diğer bloklar …
     ]
     text = "\n\n".join([p for p in parts if p.strip()])
     chunks = splitter.split_text(text)
     for j, chunk in enumerate(chunks):
+        with open(f"{OUT_DIR}/{idx:03d}_{j:02d}.txt", "w", encoding="utf-8") as outf:
             outf.write(chunk)
+# 2) Embedding’leri oluşturup Chroma’ya kaydetme
+print("⚙️ Generating embeddings and persisting to chromadb/ …")
+docs = TextLoader(OUT_DIR).load()
+db = Chroma.from_documents(docs, OpenAIEmbeddings(), persist_directory="chromadb")
+db.persist()
+print("✅ Done preprocessing and embedding.")