Spaces:

MrSimple01
/

RAG_AIEXP_01

Sleeping

MrSimple07 commited on Oct 6, 2025

Commit

79d5a5c

1 Parent(s): f6a9f63

eski holat

Files changed (3) hide show

app.py CHANGED Viewed

@@ -103,6 +103,7 @@ def initialize_system(repo_id, hf_token, download_dir, chunks_filename=None,
         from llama_index.core.text_splitter import TokenTextSplitter
         embed_model = get_embedding_model()
         llm = get_llm_model(DEFAULT_MODEL)
         reranker = get_reranker_model()

         from llama_index.core.text_splitter import TokenTextSplitter
         embed_model = get_embedding_model()
         llm = get_llm_model(DEFAULT_MODEL)
         reranker = get_reranker_model()

index_retriever.py CHANGED Viewed

@@ -12,32 +12,7 @@ def create_vector_index(documents):
     log_message("Строю векторный индекс")
     return VectorStoreIndex.from_documents(documents)
-def deduplicate_nodes(nodes):
-    """Deduplicate retrieved nodes based on unique identifiers"""
-    seen = set()
-    unique_nodes = []
-    for node in nodes:
-        # Create unique identifier from metadata
-        doc_id = node.metadata.get('document_id', '')
-        section_id = node.metadata.get('section_id', '')
-        chunk_id = node.metadata.get('chunk_id', 0)
-        node_type = node.metadata.get('type', 'text')
-        if node_type == 'table':
-            table_num = node.metadata.get('table_number', '')
-            identifier = f"{doc_id}|table|{table_num}|{chunk_id}"
-        elif node_type == 'image':
-            img_num = node.metadata.get('image_number', '')
-            identifier = f"{doc_id}|image|{img_num}"
-        else:
-            identifier = f"{doc_id}|{section_id}|{chunk_id}"
-        if identifier not in seen:
-            seen.add(identifier)
-            unique_nodes.append(node)
-    return unique_nodes
 def create_query_engine(vector_index):
     try:

     log_message("Строю векторный индекс")
     return VectorStoreIndex.from_documents(documents)
 def create_query_engine(vector_index):
     try:

utils.py CHANGED Viewed

@@ -2,6 +2,12 @@ from llama_index.llms.google_genai import GoogleGenAI
 from llama_index.embeddings.huggingface import HuggingFaceEmbedding
 from sentence_transformers import CrossEncoder
 from my_logging import log_message
 def get_llm_model(api_key, model_name="gemini-2.0-flash"):
     return GoogleGenAI(model=model_name, api_key=api_key)

 from llama_index.embeddings.huggingface import HuggingFaceEmbedding
 from sentence_transformers import CrossEncoder
 from my_logging import log_message
+import os
+api_key = os.getenv('GOOGLE_API_KEY')  # or however you're loading it
+if not api_key:
+    raise ValueError("GOOGLE_API_KEY not found in environment")
 def get_llm_model(api_key, model_name="gemini-2.0-flash"):
     return GoogleGenAI(model=model_name, api_key=api_key)