Spaces:

Rulga
/

status-law-gbot

Running

Rulga commited on Mar 26

Commit

8ef4162

1 Parent(s): 7ac0faf

Add token validation and repository creation for Hugging Face datasets

Files changed (2) hide show

src/knowledge_base/dataset.py CHANGED Viewed

@@ -19,10 +19,24 @@ class DatasetManager:
             dataset_name: Имя датасета на Hugging Face Hub
             token: Токен доступа к Hugging Face Hub (если не задан, берется из ~/.huggingface/token)
         """
-        self.api = HfApi(token=token)
-        self.dataset_name = dataset_name
         self.token = token if token else HfFolder.get_token()
     def init_dataset_structure(self) -> Tuple[bool, str]:
         """
         Инициализация структуры датасета на Hugging Face
@@ -372,4 +386,4 @@ def test_dataset_connection(token: Optional[str] = None) -> Tuple[bool, str]:
 if __name__ == "__main__":
     # Тестируем подключение
     success, message = test_dataset_connection()
-    print(message)

             dataset_name: Имя датасета на Hugging Face Hub
             token: Токен доступа к Hugging Face Hub (если не задан, берется из ~/.huggingface/token)
         """
         self.token = token if token else HfFolder.get_token()
+        if not self.token:
+            raise ValueError("Не найден токен Hugging Face. Установите переменную окружения HUGGINGFACE_TOKEN")
+        self.api = HfApi(token=self.token)
+        self.dataset_name = dataset_name
+        # Проверяем/создаем репозиторий при инициализации
+        try:
+            self.api.repo_info(repo_id=self.dataset_name, repo_type="dataset")
+        except Exception:
+            print(f"Создаем новый репозиторий датасета: {self.dataset_name}")
+            self.api.create_repo(
+                repo_id=self.dataset_name,
+                repo_type="dataset",
+                private=True
+            )
     def init_dataset_structure(self) -> Tuple[bool, str]:
         """
         Инициализация структуры датасета на Hugging Face
 if __name__ == "__main__":
     # Тестируем подключение
     success, message = test_dataset_connection()
+    print(message)

src/knowledge_base/vector_store.py CHANGED Viewed

@@ -5,7 +5,7 @@ from langchain_text_splitters import RecursiveCharacterTextSplitter
 from langchain_community.vectorstores import FAISS
 from langchain_huggingface import HuggingFaceEmbeddings
 from src.knowledge_base.loader import load_documents
-from config.settings import VECTOR_STORE_PATH, EMBEDDING_MODEL
 from config.constants import CHUNK_SIZE, CHUNK_OVERLAP
 def get_embeddings():
@@ -47,9 +47,9 @@ def create_vector_store():
                 os.path.join(VECTOR_STORE_PATH, file)
             )
-        # Загрузка в датасет
         from src.knowledge_base.dataset import DatasetManager
-        dataset = DatasetManager()
         success, message = dataset.upload_vector_store()
         # Очищаем локальные файлы после загрузки

 from langchain_community.vectorstores import FAISS
 from langchain_huggingface import HuggingFaceEmbeddings
 from src.knowledge_base.loader import load_documents
+from config.settings import VECTOR_STORE_PATH, EMBEDDING_MODEL, HF_TOKEN
 from config.constants import CHUNK_SIZE, CHUNK_OVERLAP
 def get_embeddings():
                 os.path.join(VECTOR_STORE_PATH, file)
             )
+        # Загрузка в датасет с явной передачей токена
         from src.knowledge_base.dataset import DatasetManager
+        dataset = DatasetManager(token=HF_TOKEN)
         success, message = dataset.upload_vector_store()
         # Очищаем локальные файлы после загрузки