Spaces:

MrSimple01
/

RAG_AIEXP_1

Sleeping

App Files Files Community

MrSimple07 commited on Oct 20, 2025

Commit

1c69559

1 Parent(s): 83c6d36

Fixed HF_REPO_ID + Added force_download=True + Enhanced status messages

Browse files

Files changed (1) hide show

converters/converter.py +24 -32

converters/converter.py CHANGED Viewed

@@ -26,7 +26,6 @@ def process_uploaded_file(file, file_type):
                 shutil.copy(source_path, file_path)
             else:
                 file_path = source_path
             original_size_bytes = os.path.getsize(file_path)
             original_size_mb = original_size_bytes / (1024 * 1024)
@@ -34,32 +33,13 @@ def process_uploaded_file(file, file_type):
             status_info.append(f"📁 Исходный файл: {filename}")
             status_info.append(f"📦 Размер файла: {original_size_mb:.2f} МБ ({original_size_bytes:,} байт)")
-            # ADDED: Text document handling
-            if file_type == "JSON документ":
-                target_dir = JSON_FILES_DIR
-                upload_file = file_path
-                try:
-                    with open(upload_file, 'r', encoding='utf-8') as f:
-                        json_data = json.load(f)
-                    # Count sections
-                    section_count = len(json_data.get('sections', []))
-                    status_info.append(f"📝 Разделов в документе: {section_count}")
-                    status_info.append(f"📄 ID документа: {json_data.get('document_metadata', {}).get('document_id', 'N/A')}")
-                except Exception as e:
-                    return f"❌ Ошибка чтения JSON: {str(e)}"
-                status_info.append(f"📤 Загружен как: {filename}")
-                status_info.append(f"📂 Целевая директория: {target_dir}")
-            elif file_type == "Таблица":
                 target_dir = TABLE_DATA_DIR
                 if filename.endswith(('.xlsx', '.xls')):
                     json_path = convert_single_excel_to_json(file_path, temp_dir)
                     upload_file = json_path
                     processed_size_bytes = os.path.getsize(json_path)
                     processed_size_mb = processed_size_bytes / (1024 * 1024)
@@ -73,11 +53,9 @@ def process_uploaded_file(file, file_type):
                     status_info.append(f"📝 Всего строк данных: {total_rows:,}")
                     status_info.append(f"💾 Размер после обработки: {processed_size_mb:.2f} МБ")
                     status_info.append(f"📤 Загружен как: {os.path.basename(json_path)}")
-                    status_info.append(f"📂 Целевая директория: {target_dir}")
                 else:
                     upload_file = file_path
                     status_info.append(f"📤 Загружен как: {filename}")
-                    status_info.append(f"📂 Целевая директория: {target_dir}")
             elif file_type == "Изображение (метаданные)":
                 target_dir = IMAGE_DATA_DIR
@@ -85,6 +63,7 @@ def process_uploaded_file(file, file_type):
                     csv_path = convert_single_excel_to_csv(file_path, temp_dir)
                     upload_file = csv_path
                     processed_size_bytes = os.path.getsize(csv_path)
                     processed_size_mb = processed_size_bytes / (1024 * 1024)
@@ -93,7 +72,6 @@ def process_uploaded_file(file, file_type):
                     status_info.append(f"📋 Колонок метаданных: {len(df.columns)}")
                     status_info.append(f"💾 Размер после обработки: {processed_size_mb:.2f} МБ")
                     status_info.append(f"📤 Загружен как: {os.path.basename(csv_path)}")
-                    status_info.append(f"📂 Целевая директория: {target_dir}")
                 else:
                     upload_file = file_path
                     try:
@@ -103,17 +81,32 @@ def process_uploaded_file(file, file_type):
                     except:
                         pass
                     status_info.append(f"📤 Загружен как: {filename}")
-                    status_info.append(f"📂 Целевая директория: {target_dir}")
             # Загружаем на HuggingFace
-            upload_path = f"{target_dir}/{os.path.basename(upload_file)}"
-            log_message(f"Загрузка на HuggingFace: {upload_path}")
-            status_info.append(f"⬆️ Загрузка в репозиторий...")
             api = HfApi()
             api.upload_file(
                 path_or_fileobj=upload_file,
-                path_in_repo=upload_path,
                 repo_id=HF_REPO_ID,
                 token=HF_TOKEN,
                 repo_type="dataset"
@@ -123,7 +116,6 @@ def process_uploaded_file(file, file_type):
             result_message = f"✅ Файл успешно загружен и обработан\n\n"
             result_message += "\n".join(status_info)
-            result_message += f"\n\n✅ Файл добавлен в: {upload_path}"
             result_message += "\n\n⚠️ Нажмите кнопку 'Перезапустить систему' для применения изменений"
             return result_message

                 shutil.copy(source_path, file_path)
             else:
                 file_path = source_path
             original_size_bytes = os.path.getsize(file_path)
             original_size_mb = original_size_bytes / (1024 * 1024)
             status_info.append(f"📁 Исходный файл: {filename}")
             status_info.append(f"📦 Размер файла: {original_size_mb:.2f} МБ ({original_size_bytes:,} байт)")
+            if file_type == "Таблица":
                 target_dir = TABLE_DATA_DIR
                 if filename.endswith(('.xlsx', '.xls')):
                     json_path = convert_single_excel_to_json(file_path, temp_dir)
                     upload_file = json_path
+                    # Get processed file size
                     processed_size_bytes = os.path.getsize(json_path)
                     processed_size_mb = processed_size_bytes / (1024 * 1024)
                     status_info.append(f"📝 Всего строк данных: {total_rows:,}")
                     status_info.append(f"💾 Размер после обработки: {processed_size_mb:.2f} МБ")
                     status_info.append(f"📤 Загружен как: {os.path.basename(json_path)}")
                 else:
                     upload_file = file_path
                     status_info.append(f"📤 Загружен как: {filename}")
             elif file_type == "Изображение (метаданные)":
                 target_dir = IMAGE_DATA_DIR
                     csv_path = convert_single_excel_to_csv(file_path, temp_dir)
                     upload_file = csv_path
+                    # Get processed file size
                     processed_size_bytes = os.path.getsize(csv_path)
                     processed_size_mb = processed_size_bytes / (1024 * 1024)
                     status_info.append(f"📋 Колонок метаданных: {len(df.columns)}")
                     status_info.append(f"💾 Размер после обработки: {processed_size_mb:.2f} МБ")
                     status_info.append(f"📤 Загружен как: {os.path.basename(csv_path)}")
                 else:
                     upload_file = file_path
                     try:
                     except:
                         pass
                     status_info.append(f"📤 Загружен как: {filename}")
+            else:  # JSON документ
+                target_dir = JSON_FILES_DIR
+                upload_file = file_path
+                try:
+                    with open(upload_file, 'r', encoding='utf-8') as f:
+                        json_data = json.load(f)
+                    if isinstance(json_data, list):
+                        status_info.append(f"📝 Документов в JSON: {len(json_data):,}")
+                    elif isinstance(json_data, dict):
+                        status_info.append(f"📝 JSON объект (словарь)")
+                        # Count keys if it's structured data
+                        if 'sheets' in json_data:
+                            status_info.append(f"📊 Таблиц в документе: {len(json_data.get('sheets', []))}")
+                except:
+                    pass
+                status_info.append(f"📤 Загружен как: {filename}")
             # Загружаем на HuggingFace
+            log_message(f"Загрузка на HuggingFace: {target_dir}/{os.path.basename(upload_file)}")
             api = HfApi()
             api.upload_file(
                 path_or_fileobj=upload_file,
+                path_in_repo=f"{target_dir}/{os.path.basename(upload_file)}",
                 repo_id=HF_REPO_ID,
                 token=HF_TOKEN,
                 repo_type="dataset"
             result_message = f"✅ Файл успешно загружен и обработан\n\n"
             result_message += "\n".join(status_info)
             result_message += "\n\n⚠️ Нажмите кнопку 'Перезапустить систему' для применения изменений"
             return result_message