Spaces:
Sleeping
Sleeping
Commit
·
fc9fe78
1
Parent(s):
75fe00d
new normalizing + max chars 3000 max rows =15
Browse files- config.py +1 -1
- index_retriever.py +1 -1
- utils.py +3 -11
config.py
CHANGED
|
@@ -53,7 +53,7 @@ CHUNK_SIZE = 1500
|
|
| 53 |
CHUNK_OVERLAP = 128
|
| 54 |
|
| 55 |
MAX_CHARS_TABLE = 3000
|
| 56 |
-
MAX_ROWS_TABLE =
|
| 57 |
|
| 58 |
CUSTOM_PROMPT = """
|
| 59 |
Вы являетесь высокоспециализированным Ассистентом для анализа нормативных документов (AIEXP). Ваша цель - предоставлять точные, корректные и контекстно релевантные ответы исключительно на основе предоставленного контекста из нормативной документации.
|
|
|
|
| 53 |
CHUNK_OVERLAP = 128
|
| 54 |
|
| 55 |
MAX_CHARS_TABLE = 3000
|
| 56 |
+
MAX_ROWS_TABLE = 10
|
| 57 |
|
| 58 |
CUSTOM_PROMPT = """
|
| 59 |
Вы являетесь высокоспециализированным Ассистентом для анализа нормативных документов (AIEXP). Ваша цель - предоставлять точные, корректные и контекстно релевантные ответы исключительно на основе предоставленного контекста из нормативной документации.
|
index_retriever.py
CHANGED
|
@@ -77,7 +77,7 @@ def create_query_engine(vector_index):
|
|
| 77 |
vector_retriever = VectorIndexRetriever(
|
| 78 |
index=vector_index,
|
| 79 |
similarity_top_k=100,
|
| 80 |
-
similarity_cutoff=0.
|
| 81 |
)
|
| 82 |
|
| 83 |
hybrid_retriever = QueryFusionRetriever(
|
|
|
|
| 77 |
vector_retriever = VectorIndexRetriever(
|
| 78 |
index=vector_index,
|
| 79 |
similarity_top_k=100,
|
| 80 |
+
similarity_cutoff=0.45
|
| 81 |
)
|
| 82 |
|
| 83 |
hybrid_retriever = QueryFusionRetriever(
|
utils.py
CHANGED
|
@@ -9,6 +9,7 @@ import time
|
|
| 9 |
from index_retriever import rerank_nodes
|
| 10 |
from my_logging import log_message
|
| 11 |
from config import PROMPT_SIMPLE_POISK
|
|
|
|
| 12 |
|
| 13 |
def get_llm_model(model_name):
|
| 14 |
try:
|
|
@@ -173,17 +174,8 @@ def deduplicate_nodes(nodes):
|
|
| 173 |
return unique_nodes
|
| 174 |
|
| 175 |
def normalize_query(query):
|
| 176 |
-
|
| 177 |
-
|
| 178 |
-
# Replace Cyrillic connection types with Latin
|
| 179 |
-
query = query.replace('С-', 'C-').replace('с-', 'c-')
|
| 180 |
-
query = query.replace('У-', 'U-').replace('у-', 'u-')
|
| 181 |
-
query = query.replace('Т-', 'T-').replace('т-', 't-')
|
| 182 |
-
query = query.replace('С', 'C').replace('с', 'C')
|
| 183 |
-
query = query.replace('У', 'U').replace('у', 'U')
|
| 184 |
-
query = query.replace('Т', 'T').replace('т', 'T')
|
| 185 |
-
query = query.replace('-', '')
|
| 186 |
-
|
| 187 |
return query
|
| 188 |
|
| 189 |
|
|
|
|
| 9 |
from index_retriever import rerank_nodes
|
| 10 |
from my_logging import log_message
|
| 11 |
from config import PROMPT_SIMPLE_POISK
|
| 12 |
+
import re
|
| 13 |
|
| 14 |
def get_llm_model(model_name):
|
| 15 |
try:
|
|
|
|
| 174 |
return unique_nodes
|
| 175 |
|
| 176 |
def normalize_query(query):
|
| 177 |
+
pattern = r'([СсТтУу])-?(\d+)'
|
| 178 |
+
query = re.sub(pattern, lambda m: f"{m.group(1).upper().translate(str.maketrans('СТУ', 'CTU'))}{m.group(2)}", query)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 179 |
return query
|
| 180 |
|
| 181 |
|