Spaces:

devAby
/

YourHonor

Sleeping

App Files Files Community

Aby commited on Jan 22

Commit

7cfa59a

1 Parent(s): 20f5afd

clean code

Browse files

Files changed (1) hide show

app.py +19 -61

app.py CHANGED Viewed

@@ -27,64 +27,12 @@ Settings.embed_model = HuggingFaceEmbedding(model_name=EMBED_MODEL, device="cpu"
 # phi3 LLm (downloads ~2GB on first use)
 # Model name and its tokenizer name are the same most of the times. check HF for tokenizer name if not found.
-def only_in_case_phi3_model_loading():
-    # Pre-initialize tokenizer to ensure pad_token is set correctly
-    tokenizer = AutoTokenizer.from_pretrained(
-        MODEL_NAME,
-        trust_remote_code=True,
-        padding_side="left"
-    )
-    # Ensure pad_token is set for Phi-3
-    if tokenizer.pad_token is None:
-        tokenizer.pad_token = tokenizer.eos_token
-        tokenizer.pad_token_id = tokenizer.eos_token_id
-    # Create HuggingFaceLLM - try with tokenizer parameter first
-    try:
-        llm = HuggingFaceLLM(
-            model_name=MODEL_NAME,
-            tokenizer_name=MODEL_NAME,
-            context_window=4000,
-            max_new_tokens=512,
-            device_map="cpu",
-            model_kwargs={
-                "trust_remote_code": True,
-                "low_cpu_mem_usage": True,
-                "use_safetensors": True
-            },
-            tokenizer=tokenizer  # Passing tokenizer avoids init error, but may fail later if not properly supported
-        )
-    except (TypeError, ValueError):
-        # If tokenizer parameter not supported, use workaround with __dict__
-        llm = HuggingFaceLLM(
-            model_name=MODEL_NAME,
-            tokenizer_name=MODEL_NAME,
-            context_window=4000,
-            max_new_tokens=512,
-            device_map="cpu",
-            model_kwargs={
-                "trust_remote_code": True,
-                "low_cpu_mem_usage": True,
-                "use_safetensors": True
-            },
-            tokenizer_kwargs={
-                "trust_remote_code": True,
-                "padding_side": "left"
-            }
-        )
-        # Bypass Pydantic's __setattr__ to set internal tokenizer attribute
-        object.__setattr__(llm, '_tokenizer', tokenizer)
-    return llm
-# llm = only_in_case_phi3_model_loading()
-if (1==1):
-    llm = HuggingFaceLLM(
-    model_name=MODEL_NAME,
-    tokenizer_name=MODEL_NAME,
-    context_window=32768,
-    max_new_tokens=512,
-    device_map="cpu")
 qa_prompt = PromptTemplate(
     """<|im_start|>system
@@ -115,6 +63,10 @@ class ConstitutionRAGChatBot:
         self.index = load_index_from_storage(storage_context)
         self.query_engine = self.index.as_query_engine(llm=llm, chat_mode=True, similarity_top_k=TOP_K, response_mode="compact", text_qa_template=qa_prompt, memory=ChatMemoryBuffer.from_defaults(token_limit=MAX_HISTORY_TOKENS))
     def preprocess_query(self, query: str) -> str:
         """ Preprocess user query to improve accuracy. """
@@ -126,11 +78,16 @@ class ConstitutionRAGChatBot:
         """ Callback """
         if not message.strip():
             return "Please, Stick to the questions regarding the Constitutions. Thanks!"
         try:
             clean_query = self.preprocess_query(message)
             # query RAG (auto embed, retrives, generate)
             response = self.query_engine.query(clean_query)
             if "Not Found" in response.response.lower():
                 return "Its my Bad. Might be there is no information on this topic into the constitution of India or Legal language is too hard for me too.. ;)"
@@ -162,5 +119,6 @@ def create_demo():
 if __name__ == "__main__":
     # Local test
     demo = create_demo()
-    #demo.launch(server_name="0.0.0.0", server_port=7860, debug=True)
-    demo.launch(server_name="0.0.0.0", server_port=7860, share=True)

 # phi3 LLm (downloads ~2GB on first use)
 # Model name and its tokenizer name are the same most of the times. check HF for tokenizer name if not found.
+llm = HuggingFaceLLM(
+model_name=MODEL_NAME,
+tokenizer_name=MODEL_NAME,
+context_window=32768,
+max_new_tokens=512,
+device_map="cpu")
 qa_prompt = PromptTemplate(
     """<|im_start|>system
         self.index = load_index_from_storage(storage_context)
         self.query_engine = self.index.as_query_engine(llm=llm, chat_mode=True, similarity_top_k=TOP_K, response_mode="compact", text_qa_template=qa_prompt, memory=ChatMemoryBuffer.from_defaults(token_limit=MAX_HISTORY_TOKENS))
+        # self.chat_engine = self.index.as_chat_engine(
+        #     chat_mode="context",
+        #     query_engine=self.query_engine,     # Injects your custom prompt + settings
+        #     memory=ChatMemoryBuffer.from_defaults(token_limit=MAX_HISTORY_TOKENS))
     def preprocess_query(self, query: str) -> str:
         """ Preprocess user query to improve accuracy. """
         """ Callback """
         if not message.strip():
             return "Please, Stick to the questions regarding the Constitutions. Thanks!"
+        # for user_msg, bot_msg in history[-3:]:  # Last 3 exchanges
+        #     print ('History:\n')
+        #     print(user_msg,"\n", bot_msg)
+        #     print ('Ends..:\n')
         try:
             clean_query = self.preprocess_query(message)
             # query RAG (auto embed, retrives, generate)
             response = self.query_engine.query(clean_query)
+            # response = self.chat_engine.chat(clean_query)
+            # print(f"📜 Retrieved context: {response.get_formatted_sources()}")
             if "Not Found" in response.response.lower():
                 return "Its my Bad. Might be there is no information on this topic into the constitution of India or Legal language is too hard for me too.. ;)"
 if __name__ == "__main__":
     # Local test
     demo = create_demo()
+    # demo.launch(server_name="0.0.0.0", server_port=7860, debug=True)
+    # demo.launch(server_name="0.0.0.0", server_port=7860, share=True)
+    demo.launch()