MrSimple07 commited on
Commit
fc9fe78
·
1 Parent(s): 75fe00d

new normalizing + max chars 3000 max rows =15

Browse files
Files changed (3) hide show
  1. config.py +1 -1
  2. index_retriever.py +1 -1
  3. utils.py +3 -11
config.py CHANGED
@@ -53,7 +53,7 @@ CHUNK_SIZE = 1500
53
  CHUNK_OVERLAP = 128
54
 
55
  MAX_CHARS_TABLE = 3000
56
- MAX_ROWS_TABLE = 15
57
 
58
  CUSTOM_PROMPT = """
59
  Вы являетесь высокоспециализированным Ассистентом для анализа нормативных документов (AIEXP). Ваша цель - предоставлять точные, корректные и контекстно релевантные ответы исключительно на основе предоставленного контекста из нормативной документации.
 
53
  CHUNK_OVERLAP = 128
54
 
55
  MAX_CHARS_TABLE = 3000
56
+ MAX_ROWS_TABLE = 10
57
 
58
  CUSTOM_PROMPT = """
59
  Вы являетесь высокоспециализированным Ассистентом для анализа нормативных документов (AIEXP). Ваша цель - предоставлять точные, корректные и контекстно релевантные ответы исключительно на основе предоставленного контекста из нормативной документации.
index_retriever.py CHANGED
@@ -77,7 +77,7 @@ def create_query_engine(vector_index):
77
  vector_retriever = VectorIndexRetriever(
78
  index=vector_index,
79
  similarity_top_k=100,
80
- similarity_cutoff=0.55
81
  )
82
 
83
  hybrid_retriever = QueryFusionRetriever(
 
77
  vector_retriever = VectorIndexRetriever(
78
  index=vector_index,
79
  similarity_top_k=100,
80
+ similarity_cutoff=0.45
81
  )
82
 
83
  hybrid_retriever = QueryFusionRetriever(
utils.py CHANGED
@@ -9,6 +9,7 @@ import time
9
  from index_retriever import rerank_nodes
10
  from my_logging import log_message
11
  from config import PROMPT_SIMPLE_POISK
 
12
 
13
  def get_llm_model(model_name):
14
  try:
@@ -173,17 +174,8 @@ def deduplicate_nodes(nodes):
173
  return unique_nodes
174
 
175
  def normalize_query(query):
176
- """Normalize query to match stored format"""
177
- import re
178
- # Replace Cyrillic connection types with Latin
179
- query = query.replace('С-', 'C-').replace('с-', 'c-')
180
- query = query.replace('У-', 'U-').replace('у-', 'u-')
181
- query = query.replace('Т-', 'T-').replace('т-', 't-')
182
- query = query.replace('С', 'C').replace('с', 'C')
183
- query = query.replace('У', 'U').replace('у', 'U')
184
- query = query.replace('Т', 'T').replace('т', 'T')
185
- query = query.replace('-', '')
186
-
187
  return query
188
 
189
 
 
9
  from index_retriever import rerank_nodes
10
  from my_logging import log_message
11
  from config import PROMPT_SIMPLE_POISK
12
+ import re
13
 
14
  def get_llm_model(model_name):
15
  try:
 
174
  return unique_nodes
175
 
176
  def normalize_query(query):
177
+ pattern = r'([СсТтУу])-?(\d+)'
178
+ query = re.sub(pattern, lambda m: f"{m.group(1).upper().translate(str.maketrans('СТУ', 'CTU'))}{m.group(2)}", query)
 
 
 
 
 
 
 
 
 
179
  return query
180
 
181