Spaces:

MrSimple01
/

RAG_AIEXP_01

Sleeping

App Files Files Community

MrSimple07 commited on Sep 17, 2025

Commit

931a79f

1 Parent(s): 2df0370

new table document + image document processing functions + added more comprehensive loggings

Browse files

Files changed (1) hide show

documents_prep.py +18 -12

documents_prep.py CHANGED Viewed

@@ -294,7 +294,7 @@ def table_to_document(table_data, document_id=None):
         table_title = table_data.get('table_title', 'Неизвестно')
         section = table_data.get('section', 'Неизвестно')
-        # Создаем заголовочный документ
         header_content = f"Таблица: {table_num}\nНазвание: {table_title}\nДокумент: {doc_id}\nРаздел: {section}\n"
         if 'data' in table_data and isinstance(table_data['data'], list):
@@ -319,7 +319,7 @@ def table_to_document(table_data, document_id=None):
                     )
                     documents.append(doc)
-        # Если нет строк, создаем общий документ
         if not documents:
             doc = Document(
                 text=header_content,
@@ -334,7 +334,7 @@ def table_to_document(table_data, document_id=None):
             )
             documents.append(doc)
-    return documents
 def load_table_data(repo_id, hf_token, table_data_dir):
     log_message("Начинаю загрузку табличных данных")
@@ -369,15 +369,16 @@ def load_table_data(repo_id, hf_token, table_data_dir):
                         if 'sheets' in table_data:
                             for sheet in table_data['sheets']:
                                 sheet['document'] = document_id
-                                doc = table_to_document(sheet, document_id)
-                                table_documents.append(doc)
                         else:
-                            doc = table_to_document(table_data, document_id)
-                            table_documents.append(doc)
                     elif isinstance(table_data, list):
                         for table_json in table_data:
-                            doc = table_to_document(table_json)
-                            table_documents.append(doc)
             except Exception as e:
                 log_message(f"Ошибка обработки файла {file_path}: {str(e)}")
@@ -400,9 +401,12 @@ def load_image_data(repo_id, hf_token, image_data_dir):
             if file.startswith(image_data_dir) and file.endswith('.csv'):
                 image_files.append(file)
         image_documents = []
         for file_path in image_files:
             try:
                 local_path = hf_hub_download(
                     repo_id=repo_id,
                     filename=file_path,
@@ -412,14 +416,15 @@ def load_image_data(repo_id, hf_token, image_data_dir):
                 )
                 df = pd.read_csv(local_path)
                 for _, row in df.iterrows():
-                    # Создаем отдельный документ для каждого изображения
-                    section_value = row.get('Раздел документа', row.get('section', 'Неизвестно'))
                     content = f"Изображение: {row.get('№ Изображения', 'Неизвестно')}\n"
                     content += f"Название: {row.get('Название изображения', 'Неизвестно')}\n"
-                    content += f"Описание: {row.get('Описание изображение', 'Неизвестно')}\n"
                     content += f"Документ: {row.get('Обозначение документа', 'Неизвестно')}\n"
                     content += f"Раздел: {section_value}\n"
                     content += f"Файл: {row.get('Файл изображения', 'Неизвестно')}\n"
@@ -443,6 +448,7 @@ def load_image_data(repo_id, hf_token, image_data_dir):
                 log_message(f"Ошибка обработки файла {file_path}: {str(e)}")
                 continue
         return image_documents
     except Exception as e:

         table_title = table_data.get('table_title', 'Неизвестно')
         section = table_data.get('section', 'Неизвестно')
+        # Создаем заголовочный контент
         header_content = f"Таблица: {table_num}\nНазвание: {table_title}\nДокумент: {doc_id}\nРаздел: {section}\n"
         if 'data' in table_data and isinstance(table_data['data'], list):
                     )
                     documents.append(doc)
+        # Если нет строк, создаем общий документ таблицы
         if not documents:
             doc = Document(
                 text=header_content,
             )
             documents.append(doc)
+    return documents  # Возвращаем список документов
 def load_table_data(repo_id, hf_token, table_data_dir):
     log_message("Начинаю загрузку табличных данных")
                         if 'sheets' in table_data:
                             for sheet in table_data['sheets']:
                                 sheet['document'] = document_id
+                                # table_to_document теперь возвращает список
+                                docs_list = table_to_document(sheet, document_id)
+                                table_documents.extend(docs_list)  # extend вместо append
                         else:
+                            docs_list = table_to_document(table_data, document_id)
+                            table_documents.extend(docs_list)  # extend вместо append
                     elif isinstance(table_data, list):
                         for table_json in table_data:
+                            docs_list = table_to_document(table_json)
+                            table_documents.extend(docs_list)  # extend вместо append
             except Exception as e:
                 log_message(f"Ошибка обработки файла {file_path}: {str(e)}")
             if file.startswith(image_data_dir) and file.endswith('.csv'):
                 image_files.append(file)
+        log_message(f"Найдено {len(image_files)} CSV файлов с изображениями")
         image_documents = []
         for file_path in image_files:
             try:
+                log_message(f"Обрабатываю файл изображений: {file_path}")
                 local_path = hf_hub_download(
                     repo_id=repo_id,
                     filename=file_path,
                 )
                 df = pd.read_csv(local_path)
+                log_message(f"Загружено {len(df)} записей изображений из файла {file_path}")
+                # Обработка с правильными названиями колонок
                 for _, row in df.iterrows():
+                    section_value = row.get('Раздел документа', 'Неизвестно')
                     content = f"Изображение: {row.get('№ Изображения', 'Неизвестно')}\n"
                     content += f"Название: {row.get('Название изображения', 'Неизвестно')}\n"
+                    content += f"Описание: {row.get('Описание изображение', 'Неизвестно')}\n"  # Опечатка в названии колонки
                     content += f"Документ: {row.get('Обозначение документа', 'Неизвестно')}\n"
                     content += f"Раздел: {section_value}\n"
                     content += f"Файл: {row.get('Файл изображения', 'Неизвестно')}\n"
                 log_message(f"Ошибка обработки файла {file_path}: {str(e)}")
                 continue
+        log_message(f"Создано {len(image_documents)} документов из изображений")
         return image_documents
     except Exception as e: