Spaces:
Sleeping
Sleeping
Commit
·
78b9517
1
Parent(s):
68ff9c7
new code for showing chunks
Browse files- app.py +7 -3
- documents_prep.py +4 -4
app.py
CHANGED
|
@@ -51,11 +51,13 @@ def initialize_system(repo_id, hf_token, download_dir, chunks_filename=None,
|
|
| 51 |
|
| 52 |
all_documents = []
|
| 53 |
chunks_df = None
|
|
|
|
| 54 |
|
| 55 |
if use_json_instead_csv and json_files_dir:
|
| 56 |
log_message("Используем JSON файлы вместо CSV")
|
| 57 |
-
json_documents = load_json_documents(repo_id, hf_token, json_files_dir, download_dir)
|
| 58 |
all_documents.extend(json_documents)
|
|
|
|
| 59 |
else:
|
| 60 |
if chunks_filename:
|
| 61 |
log_message("Загружаем данные из CSV")
|
|
@@ -78,11 +80,11 @@ def initialize_system(repo_id, hf_token, download_dir, chunks_filename=None,
|
|
| 78 |
query_engine = create_query_engine(vector_index)
|
| 79 |
|
| 80 |
log_message(f"Система успешно инициализирована")
|
| 81 |
-
return query_engine, chunks_df, reranker, vector_index
|
| 82 |
|
| 83 |
except Exception as e:
|
| 84 |
log_message(f"Ошибка инициализации: {str(e)}")
|
| 85 |
-
return None, None, None, None
|
| 86 |
|
| 87 |
def switch_model(model_name, vector_index):
|
| 88 |
from llama_index.core import Settings
|
|
@@ -148,6 +150,8 @@ def create_demo_interface(answer_question_func, switch_model_func, current_model
|
|
| 148 |
"О чем этот рисунок: ГОСТ Р 50.04.07-2022 Приложение Л. Л.1.5 Рисунок Л.2",
|
| 149 |
"Л.9 Формула в ГОСТ Р 50.04.07 - 2022 что и о чем там?",
|
| 150 |
"Какой стандарт устанавливает порядок признания протоколов испытаний продукции в области использования атомной энергии?",
|
|
|
|
|
|
|
| 151 |
],
|
| 152 |
inputs=question_input
|
| 153 |
)
|
|
|
|
| 51 |
|
| 52 |
all_documents = []
|
| 53 |
chunks_df = None
|
| 54 |
+
chunk_info = []
|
| 55 |
|
| 56 |
if use_json_instead_csv and json_files_dir:
|
| 57 |
log_message("Используем JSON файлы вместо CSV")
|
| 58 |
+
json_documents, json_chunk_info = load_json_documents(repo_id, hf_token, json_files_dir, download_dir)
|
| 59 |
all_documents.extend(json_documents)
|
| 60 |
+
chunk_info.extend(json_chunk_info)
|
| 61 |
else:
|
| 62 |
if chunks_filename:
|
| 63 |
log_message("Загружаем данные из CSV")
|
|
|
|
| 80 |
query_engine = create_query_engine(vector_index)
|
| 81 |
|
| 82 |
log_message(f"Система успешно инициализирована")
|
| 83 |
+
return query_engine, chunks_df, reranker, vector_index, chunk_info
|
| 84 |
|
| 85 |
except Exception as e:
|
| 86 |
log_message(f"Ошибка инициализации: {str(e)}")
|
| 87 |
+
return None, None, None, None, []
|
| 88 |
|
| 89 |
def switch_model(model_name, vector_index):
|
| 90 |
from llama_index.core import Settings
|
|
|
|
| 150 |
"О чем этот рисунок: ГОСТ Р 50.04.07-2022 Приложение Л. Л.1.5 Рисунок Л.2",
|
| 151 |
"Л.9 Формула в ГОСТ Р 50.04.07 - 2022 что и о чем там?",
|
| 152 |
"Какой стандарт устанавливает порядок признания протоколов испытаний продукции в области использования атомной энергии?",
|
| 153 |
+
"Кто несет ответственность за организацию и проведение признания протоколов испытаний продукции?",
|
| 154 |
+
"В каких случаях могут быть признаны протоколы испытаний, проведенные лабораториями?",
|
| 155 |
],
|
| 156 |
inputs=question_input
|
| 157 |
)
|
documents_prep.py
CHANGED
|
@@ -226,13 +226,13 @@ def load_json_documents(repo_id, hf_token, json_files_dir, download_dir):
|
|
| 226 |
log_message(f"Всего создано {len(all_documents)} исходных документов")
|
| 227 |
log_message(f"После chunking получено {len(chunked_documents)} чанков")
|
| 228 |
|
| 229 |
-
|
| 230 |
-
return chunked_documents
|
| 231 |
|
| 232 |
except Exception as e:
|
| 233 |
log_message(f"Ошибка загрузки JSON документов: {str(e)}")
|
| 234 |
-
return []
|
| 235 |
-
|
|
|
|
| 236 |
def extract_section_title(section_text):
|
| 237 |
if not section_text.strip():
|
| 238 |
return ""
|
|
|
|
| 226 |
log_message(f"Всего создано {len(all_documents)} исходных документов")
|
| 227 |
log_message(f"После chunking получено {len(chunked_documents)} чанков")
|
| 228 |
|
| 229 |
+
return chunked_documents, chunk_info
|
|
|
|
| 230 |
|
| 231 |
except Exception as e:
|
| 232 |
log_message(f"Ошибка загрузки JSON документов: {str(e)}")
|
| 233 |
+
return [], []
|
| 234 |
+
|
| 235 |
+
|
| 236 |
def extract_section_title(section_text):
|
| 237 |
if not section_text.strip():
|
| 238 |
return ""
|