MrSimple07 commited on
Commit
78b9517
·
1 Parent(s): 68ff9c7

new code for showing chunks

Browse files
Files changed (2) hide show
  1. app.py +7 -3
  2. documents_prep.py +4 -4
app.py CHANGED
@@ -51,11 +51,13 @@ def initialize_system(repo_id, hf_token, download_dir, chunks_filename=None,
51
 
52
  all_documents = []
53
  chunks_df = None
 
54
 
55
  if use_json_instead_csv and json_files_dir:
56
  log_message("Используем JSON файлы вместо CSV")
57
- json_documents = load_json_documents(repo_id, hf_token, json_files_dir, download_dir)
58
  all_documents.extend(json_documents)
 
59
  else:
60
  if chunks_filename:
61
  log_message("Загружаем данные из CSV")
@@ -78,11 +80,11 @@ def initialize_system(repo_id, hf_token, download_dir, chunks_filename=None,
78
  query_engine = create_query_engine(vector_index)
79
 
80
  log_message(f"Система успешно инициализирована")
81
- return query_engine, chunks_df, reranker, vector_index
82
 
83
  except Exception as e:
84
  log_message(f"Ошибка инициализации: {str(e)}")
85
- return None, None, None, None
86
 
87
  def switch_model(model_name, vector_index):
88
  from llama_index.core import Settings
@@ -148,6 +150,8 @@ def create_demo_interface(answer_question_func, switch_model_func, current_model
148
  "О чем этот рисунок: ГОСТ Р 50.04.07-2022 Приложение Л. Л.1.5 Рисунок Л.2",
149
  "Л.9 Формула в ГОСТ Р 50.04.07 - 2022 что и о чем там?",
150
  "Какой стандарт устанавливает порядок признания протоколов испытаний продукции в области использования атомной энергии?",
 
 
151
  ],
152
  inputs=question_input
153
  )
 
51
 
52
  all_documents = []
53
  chunks_df = None
54
+ chunk_info = []
55
 
56
  if use_json_instead_csv and json_files_dir:
57
  log_message("Используем JSON файлы вместо CSV")
58
+ json_documents, json_chunk_info = load_json_documents(repo_id, hf_token, json_files_dir, download_dir)
59
  all_documents.extend(json_documents)
60
+ chunk_info.extend(json_chunk_info)
61
  else:
62
  if chunks_filename:
63
  log_message("Загружаем данные из CSV")
 
80
  query_engine = create_query_engine(vector_index)
81
 
82
  log_message(f"Система успешно инициализирована")
83
+ return query_engine, chunks_df, reranker, vector_index, chunk_info
84
 
85
  except Exception as e:
86
  log_message(f"Ошибка инициализации: {str(e)}")
87
+ return None, None, None, None, []
88
 
89
  def switch_model(model_name, vector_index):
90
  from llama_index.core import Settings
 
150
  "О чем этот рисунок: ГОСТ Р 50.04.07-2022 Приложение Л. Л.1.5 Рисунок Л.2",
151
  "Л.9 Формула в ГОСТ Р 50.04.07 - 2022 что и о чем там?",
152
  "Какой стандарт устанавливает порядок признания протоколов испытаний продукции в области использования атомной энергии?",
153
+ "Кто несет ответственность за организацию и проведение признания протоколов испытаний продукции?",
154
+ "В каких случаях могут быть признаны протоколы испытаний, проведенные лабораториями?",
155
  ],
156
  inputs=question_input
157
  )
documents_prep.py CHANGED
@@ -226,13 +226,13 @@ def load_json_documents(repo_id, hf_token, json_files_dir, download_dir):
226
  log_message(f"Всего создано {len(all_documents)} исходных документов")
227
  log_message(f"После chunking получено {len(chunked_documents)} чанков")
228
 
229
- # Return only chunked_documents, not the tuple
230
- return chunked_documents
231
 
232
  except Exception as e:
233
  log_message(f"Ошибка загрузки JSON документов: {str(e)}")
234
- return []
235
-
 
236
  def extract_section_title(section_text):
237
  if not section_text.strip():
238
  return ""
 
226
  log_message(f"Всего создано {len(all_documents)} исходных документов")
227
  log_message(f"После chunking получено {len(chunked_documents)} чанков")
228
 
229
+ return chunked_documents, chunk_info
 
230
 
231
  except Exception as e:
232
  log_message(f"Ошибка загрузки JSON документов: {str(e)}")
233
+ return [], []
234
+
235
+
236
  def extract_section_title(section_text):
237
  if not section_text.strip():
238
  return ""