Spaces:

teraverse
/

Dr.Yasuda_streamlit

Sleeping

App Files Files Community

Blue2962 commited on Jul 26, 2025

Commit

1fd68ae

1 Parent(s): b3884c2

a

Browse files

Files changed (7) hide show

.gitattributes +0 -35
.gitignore +2 -1
README.md +0 -12
__pycache__/pinecone_func.cpython-311.pyc +0 -0
index.html +0 -17
upload_knowledge.py +22 -0
utils/chunking.py +11 -0

.gitattributes DELETED Viewed

@@ -1,35 +0,0 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

.gitignore CHANGED Viewed

@@ -1,2 +1,3 @@
 .env
-firebase_key.json

 .env
+firebase_key.json
+docs

README.md DELETED Viewed

@@ -1,12 +0,0 @@
----
-title: Dr.Yasuda Streamlit
-emoji: 🚀
-colorFrom: red
-colorTo: red
-sdk: docker
-app_port: 8501
-tags:
-- streamlit
-pinned: false
-short_description: Streamlit template space
----

__pycache__/pinecone_func.cpython-311.pyc DELETED Viewed

Binary file (2.57 kB)

index.html DELETED Viewed

@@ -1,17 +0,0 @@
-<!DOCTYPE html>
-<html lang="en">
-<head>
-  <meta charset="UTF-8">
-  <title>Dr Yasuda App</title>
-  <style>
-    body { margin: 0; }
-    canvas { display: block; }
-  </style>
-</head>
-<body>
-  <script src="https://cdn.jsdelivr.net/npm/three@0.158.0/build/three.min.js"></script>
-  <script>
-  </script>
-</body>
-</html>

upload_knowledge.py ADDED Viewed

	@@ -0,0 +1,22 @@

+from api.pinecone_func import upsert_texts
+from pathlib import Path
+from utils.chunking import chunk_text
+import uuid
+def load_documents(folder="docs"):
+    texts = []
+    ids = []
+    for file in Path(folder).glob("*.txt"):
+        with open(file, "r", encoding="utf-8") as f:
+            content = f.read()
+            chunks = chunk_text(content)
+            for chunk in chunks:
+                texts.append(chunk)
+                ids.append(str(uuid.uuid4()))
+    return texts, ids
+if __name__ == "__main__":
+    texts, ids = load_documents()
+    print(f"{len(texts)}件の知識チャンクをアップロード中")
+    upsert_texts(texts, ids)
+    print("アップロード完了")

utils/chunking.py ADDED Viewed

	@@ -0,0 +1,11 @@

+def chunk_text(text: str, max_length: int = 1000):
+    chunks = []
+    while len(text) > max_length:
+        split_pos = text.rfind("。", 0, max_length)
+        if split_pos == -1:
+            split_pos = max_length
+        chunks.append(text[:split_pos + 1].strip())
+        text = text[split_pos + 1:]
+    if text:
+        chunks.append(text.strip())
+    return chunks