Spaces:

hanchraizedai
/

semsearch

Paused

App Files Files

hanoch@raized.ai commited on Feb 26, 2025

Commit

b505cc3

1 Parent(s): f4483df

working version

Browse files

Files changed (5) hide show

.streamlit/config.toml +3 -0
app.py +177 -163
googleai.py +8 -8
openai_utils.py +5 -1
semsearch.pyproj +1 -0

.streamlit/config.toml ADDED Viewed

	@@ -0,0 +1,3 @@

+[global]
+exclude = ["env/Lib/site-packages/torch"]
+disableWatchdog = true

app.py CHANGED Viewed

@@ -10,7 +10,7 @@ logger.setLevel(logging.DEBUG)
 import streamlit as st
-from googleai import send_message as google_send_message, init_googleai
 from langchain.chains import RetrievalQA
 from langchain_community.embeddings import OpenAIEmbeddings
@@ -64,6 +64,7 @@ carddict = {
 @st.cache_resource
 def init_models():
     retriever = SentenceTransformer("msmarco-distilbert-base-v4")
     #model_name = "sentence-transformers/all-MiniLM-L6-v2"
     model_name = "sentence-transformers/msmarco-distilbert-base-v4"
@@ -76,6 +77,7 @@ def init_models():
 @st.cache_resource
 def init_openai():
     st.session_state.openai_client = oai.get_client()
     assistants = st.session_state.openai_client.beta.assistants.list(
         order="desc",
@@ -147,6 +149,25 @@ def card(company_id, name, description, score, data_type, region, country, metad
     #print(f" markdown for {company_id}\n{markdown}")
     return markdown
 def run_query(query, report_type, top_k , regions, countries, is_debug, index_namespace, openai_model, default_prompt):
     #Summarize the results
@@ -156,176 +177,161 @@ def run_query(query, report_type, top_k , regions, countries, is_debug, index_na
     # For every company find its uniqueness over the other companies. Use only information from the descriptions.
     # """
     content_container = st.container()  #, col_sidepanel = st.columns([4, 1], gap="small")
-    if report_type == "gemini":
-        try:
-            logger.debug(f"User: {query}")
-            response = google_send_message(query)
-            response = response['output']
-            logger.debug(f"Agent: {response  }")
-            with content_container:
-                with st.chat_message(name = 'User'):
-                    st.write(query)
-                with st.chat_message(name = 'Agent', avatar = assistant_avatar):
-                    st.write(response)
-        except Exception as e:
-            logger.exception(f"Error processing user message", exc_info=e)
-    else:
-        if report_type=="guided":
-            prompt_txt = utils.query_finetune_prompt + """
-            User query: {query}
-            """
-            prompt_template = PromptTemplate(template=prompt_txt, input_variables=["query"])
-            prompt = prompt_template.format(query = query)
-            m_text = oai.call_openai(prompt, engine=openai_model, temp=0, top_p=1.0, max_tokens=20, log_message = False)
-            print(f"Keywords: {m_text}")
-            results = utils.search_index(m_text, top_k, regions, countries, retriever, index_namespace)
-            descriptions = "\n".join([f"Description of company \"{res['name']}\":  {res['data']['Summary']}.\n" for res in results[:20] if 'Summary' in res['data']])
-            ntokens = len(descriptions.split(" "))
-            print(f"Descriptions ({ntokens} tokens):\n {descriptions[:1000]}")
-            prompt_txt = utils.summarization_prompt + """
-            User query: {query}
-            Company descriptions: {descriptions}
-            """
-            prompt_template = PromptTemplate(template=prompt_txt, input_variables=["descriptions", "query"])
-            prompt = prompt_template.format(descriptions = descriptions, query = query)
-            print(f"==============================\nPrompt:\n{prompt}\n==============================\n")
-            m_text = oai.call_openai(prompt, engine=openai_model, temp=0, top_p=1.0)
-            m_text
-        elif report_type=="company_list":  # or st.session_state.new_conversation:
-            results = utils.search_index(query, top_k, regions, countries, retriever, index_namespace)
-            descriptions = "\n".join([f"Description of company \"{res['name']}\":  {res['data']['Summary']}.\n" for res in results[:20] if 'Summary' in res['data']])
-        elif report_type=="assistant":
-            #results = utils.search_index(query, top_k, regions, countries, retriever, index_namespace)
-            #descriptions = "\n".join([f"Description of company \"{res['name']}\":  {res['data']['Summary']}.\n" for res in results[:20] if 'Summary' in res['data']])
-            messages = oai.call_assistant(query, engine=openai_model)
-            st.session_state.messages = messages
-            results = st.session_state.db_search_results
-            if not messages is None:
-                with content_container:
-                    for message in list(messages)[::-1]:
-                        if hasattr(message, 'role'):
-                            # print(f"\n-----\nMessage: {message}\n")
-                            # with st.chat_message(name = message.role):
-                            #     st.write(message.content[0].text.value)
-                            if message.role == "assistant":
-                                 with st.chat_message(name = message.role, avatar = assistant_avatar):
-                                    st.write(message.content[0].text.value)
-                            else:
-                                with st.chat_message(name = message.role):
-                                    st.write(message.content[0].text.value)
-            # st.session_state.messages.append({"role": "user", "content": query})
-            # st.session_state.messages.append({"role": "system", "content": m_text})
-        else:
-            st.session_state.new_conversation = False
-            results = utils.search_index(query, top_k, regions, countries, retriever, index_namespace)
-            descriptions = "\n".join([f"Description of company \"{res['name']}\":  {res['data']['Summary']}.\n" for res in results[:20] if 'Summary' in res['data']])
-            ntokens = len(descriptions.split(" "))
-            print(f"Descriptions ({ntokens} tokens):\n {descriptions[:1000]}")
-            prompt = utils.clustering_prompt if report_type=="clustered" else utils.default_prompt
-            prompt_txt = prompt + """
-            User query: {query}
-            Company descriptions: {descriptions}
-            """
-            prompt_template = PromptTemplate(template=prompt_txt, input_variables=["descriptions", "query"])
-            prompt = prompt_template.format(descriptions = descriptions, query = query)
-            print(f"==============================\nPrompt:\n{prompt[:1000]}\n==============================\n")
-            m_text = oai.call_openai(prompt, engine=openai_model, temp=0, top_p=1.0)
-            m_text
-            st.session_state.messages.append({"role": "user", "content": query})
-            i = m_text.find("-----")
-            i = 0 if i<0 else i
-            st.session_state.messages.append({"role": "system", "content": m_text[:i]})
-        #render_history()
-        # for message in st.session_state.messages:
-        #     with st.chat_message(message["role"]):
-        #         st.markdown(message["content"])
-    #    print(f"History: \n {st.session_state.messages}")
-        sorted_results = sorted(results, key=lambda x: x['score'], reverse=True)
-        names = []
-        # list_html = """
-        # <h2>Companies list</h2>
-        # <div class="container-fluid">
-        #     <div class="row align-items-start" style="padding-bottom:10px;">
-        #          <div  class="col-md-8 col-sm-8">
-        #                 <span>Company</span>
-        #          </div>
-        #          <div  class="col-md-1 col-sm-1">
-        #                 <span>Country</span>
-        #          </div>
-        #          <div  class="col-md-1 col-sm-1">
-        #                 <span>Customer Problem</span>
-        #          </div>
-        #          <div  class="col-md-1 col-sm-1">
-        #                 <span>Business Model</span>
-        #          </div>
-        #          <div  class="col-md-1 col-sm-1">
-        #                 Actions
-        #          </div>
-        #     </div>
-        # """
-        list_html = "<div class='container-fluid'>"
-        locations = set()
-        for r in sorted_results:
-            company_name = r["name"]
-            if company_name in names:
-                continue
-            else:
-                names.append(company_name)
-            description = r["description"]  #.replace(company_name, f"<mark>{company_name}</mark>")
-            if description is None or len(description.strip())<10:
-                continue
-            score = round(r["score"], 4)
-            data_type = r["metadata"]["type"] if "type" in r["metadata"] else ""
-            region = r["metadata"]["region"]
-            country = r["metadata"]["country"]
-            company_id = r["metadata"]["company_id"]
-            locations.add(country)
-            list_html = list_html + card(company_id, company_name, description, score, data_type, region, country, r['data'], is_debug)
-        list_html = list_html + '</div>'
-        pins = country_geo[country_geo['name'].isin(locations)].loc[:, ['latitude', 'longitude']]
-        if len(pins)>0:
-            with st.expander("Map view"):
-                st.map(pins)
-        #st.markdown(list_html, unsafe_allow_html=True)
-        df = pd.DataFrame.from_dict(carddict, orient="columns")
-        if len(df)>0:
-            df.index += 1
-            with content_container:
-                st.dataframe(df,
-                    hide_index=False,
-                    column_config ={
-                        "name": st.column_config.TextColumn("Name"),
-                        "company_id": st.column_config.LinkColumn("Link"),
-                        "description": st.column_config.TextColumn("Description"),
-                        "country": st.column_config.TextColumn("Country", width="small"),
-                        "customer_problem": st.column_config.TextColumn("Customer problem"),
-                        "target_customer": st.column_config.TextColumn(label="Target customer", width="small"),
-                        "business_model": st.column_config.TextColumn(label="Business model")
-                    },
-                    use_container_width=True)
     st.session_state.last_user_query = query
@@ -449,6 +455,8 @@ if utils.check_password():
     tab_advanced = st.sidebar.expander("Settings")
     with tab_advanced:
         #prompt_title = st.selectbox("Report Type", index = 0, options = utils.get_prompts(), on_change=on_prompt_selected, key="advanced_prompts_select", )
         #prompt_title_editable = st.text_input("Title", key="prompt_title_editable")
         report_type = st.selectbox(label="Response Type", options=["gemini", "assistant", "standard", "guided", "company_list", "clustered"], index=0)
@@ -464,10 +472,9 @@ if utils.check_password():
         index_namespace = st.selectbox(label="Data Type", options=["websummarized", "web", "cbli", "all"], index=0)
         liked_companies = st.text_input(label="liked companies", key='liked_companies')
         disliked_companies = st.text_input(label="disliked companies", key='disliked_companies')
-        default_prompt = st.text_area("Default Prompt", value = utils.default_prompt, height=400, key="advanced_default_prompt_content")
         clustering_prompt = st.text_area("Clustering Prompt", value = utils.clustering_prompt, height=400, key="advanced_clustering_prompt_content")
-    if not "assistant_thread" in st.session_state:
         st.session_state.assistant_thread = st.session_state.openai_client.beta.threads.create()
@@ -488,7 +495,14 @@ if utils.check_password():
         st.session_state.index_namespace = index_namespace
         st.session_state.region = region_selectbox
         st.session_state.country = countries_selectbox
-        run_query(query, report_type, top_k, region_selectbox, countries_selectbox, is_debug, index_namespace, openai_model, default_prompt)
     else:
         st.session_state.new_conversation = False

 import streamlit as st
+from googleai import send_message as google_send_message, init_googleai, DEFAULT_INSTRUCTIONS as google_default_instructions
 from langchain.chains import RetrievalQA
 from langchain_community.embeddings import OpenAIEmbeddings
 @st.cache_resource
 def init_models():
+    logger.debug("init_models")
     retriever = SentenceTransformer("msmarco-distilbert-base-v4")
     #model_name = "sentence-transformers/all-MiniLM-L6-v2"
     model_name = "sentence-transformers/msmarco-distilbert-base-v4"
 @st.cache_resource
 def init_openai():
+    logger.debug("init_openai")
     st.session_state.openai_client = oai.get_client()
     assistants = st.session_state.openai_client.beta.assistants.list(
         order="desc",
     #print(f" markdown for {company_id}\n{markdown}")
     return markdown
+def run_googleai(query, prompt):
+    try:
+        logger.debug(f"User: {query}")
+        response = google_send_message(query, prompt)
+        response = response['output']
+        logger.debug(f"Agent: {response  }")
+        content_container = st.container()  #, col_sidepanel = st.columns([4, 1], gap="small")
+        with content_container:
+            with st.chat_message(name = 'User'):
+                st.write(query)
+            with st.chat_message(name = 'Agent', avatar = assistant_avatar):
+                st.write(response)
+        st.session_state.messages.append({"role": "user", "content": query})
+        st.session_state.messages.append({"role": "system", "content": response})
+        render_history()
+    except Exception as e:
+        logger.exception(f"Error processing user message", exc_info=e)
+    st.session_state.last_user_query = query
 def run_query(query, report_type, top_k , regions, countries, is_debug, index_namespace, openai_model, default_prompt):
     #Summarize the results
     # For every company find its uniqueness over the other companies. Use only information from the descriptions.
     # """
     content_container = st.container()  #, col_sidepanel = st.columns([4, 1], gap="small")
+    if report_type=="guided":
+        prompt_txt = utils.query_finetune_prompt + """
+        User query: {query}
+        """
+        prompt_template = PromptTemplate(template=prompt_txt, input_variables=["query"])
+        prompt = prompt_template.format(query = query)
+        m_text = oai.call_openai(prompt, engine=openai_model, temp=0, top_p=1.0, max_tokens=20, log_message = False)
+        print(f"Keywords: {m_text}")
+        results = utils.search_index(m_text, top_k, regions, countries, retriever, index_namespace)
+        descriptions = "\n".join([f"Description of company \"{res['name']}\":  {res['data']['Summary']}.\n" for res in results[:20] if 'Summary' in res['data']])
+        ntokens = len(descriptions.split(" "))
+        print(f"Descriptions ({ntokens} tokens):\n {descriptions[:1000]}")
+        prompt_txt = utils.summarization_prompt + """
+        User query: {query}
+        Company descriptions: {descriptions}
+        """
+        prompt_template = PromptTemplate(template=prompt_txt, input_variables=["descriptions", "query"])
+        prompt = prompt_template.format(descriptions = descriptions, query = query)
+        print(f"==============================\nPrompt:\n{prompt}\n==============================\n")
+        m_text = oai.call_openai(prompt, engine=openai_model, temp=0, top_p=1.0)
+        m_text
+    elif report_type=="company_list":  # or st.session_state.new_conversation:
+        results = utils.search_index(query, top_k, regions, countries, retriever, index_namespace)
+        descriptions = "\n".join([f"Description of company \"{res['name']}\":  {res['data']['Summary']}.\n" for res in results[:20] if 'Summary' in res['data']])
+    elif report_type=="assistant":
+        #results = utils.search_index(query, top_k, regions, countries, retriever, index_namespace)
+        #descriptions = "\n".join([f"Description of company \"{res['name']}\":  {res['data']['Summary']}.\n" for res in results[:20] if 'Summary' in res['data']])
+        messages = oai.call_assistant(query, engine=openai_model)
+        st.session_state.messages = messages
+        results = st.session_state.db_search_results
+        if not messages is None:
+            with content_container:
+                for message in list(messages)[::-1]:
+                    if hasattr(message, 'role'):
+                        # print(f"\n-----\nMessage: {message}\n")
+                        # with st.chat_message(name = message.role):
+                        #     st.write(message.content[0].text.value)
+                        if message.role == "assistant":
+                            with st.chat_message(name = message.role, avatar = assistant_avatar):
+                                st.write(message.content[0].text.value)
+                        else:
+                            with st.chat_message(name = message.role):
+                                st.write(message.content[0].text.value)
+        # st.session_state.messages.append({"role": "user", "content": query})
+        # st.session_state.messages.append({"role": "system", "content": m_text})
+    else:
+        st.session_state.new_conversation = False
+        results = utils.search_index(query, top_k, regions, countries, retriever, index_namespace)
+        descriptions = "\n".join([f"Description of company \"{res['name']}\":  {res['data']['Summary']}.\n" for res in results[:20] if 'Summary' in res['data']])
+        ntokens = len(descriptions.split(" "))
+        print(f"Descriptions ({ntokens} tokens):\n {descriptions[:1000]}")
+        prompt = utils.clustering_prompt if report_type=="clustered" else utils.default_prompt
+        prompt_txt = prompt + """
+        User query: {query}
+        Company descriptions: {descriptions}
+        """
+        prompt_template = PromptTemplate(template=prompt_txt, input_variables=["descriptions", "query"])
+        prompt = prompt_template.format(descriptions = descriptions, query = query)
+        print(f"==============================\nPrompt:\n{prompt[:1000]}\n==============================\n")
+        m_text = oai.call_openai(prompt, engine=openai_model, temp=0, top_p=1.0)
+        m_text
+        st.session_state.messages.append({"role": "user", "content": query})
+        i = m_text.find("-----")
+        i = 0 if i<0 else i
+        st.session_state.messages.append({"role": "system", "content": m_text[:i]})
+    #render_history()
+    # for message in st.session_state.messages:
+    #     with st.chat_message(message["role"]):
+    #         st.markdown(message["content"])
+#    print(f"History: \n {st.session_state.messages}")
+    sorted_results = sorted(results, key=lambda x: x['score'], reverse=True)
+    names = []
+    # list_html = """
+    # <h2>Companies list</h2>
+    # <div class="container-fluid">
+    #     <div class="row align-items-start" style="padding-bottom:10px;">
+    #          <div  class="col-md-8 col-sm-8">
+    #                 <span>Company</span>
+    #          </div>
+    #          <div  class="col-md-1 col-sm-1">
+    #                 <span>Country</span>
+    #          </div>
+    #          <div  class="col-md-1 col-sm-1">
+    #                 <span>Customer Problem</span>
+    #          </div>
+    #          <div  class="col-md-1 col-sm-1">
+    #                 <span>Business Model</span>
+    #          </div>
+    #          <div  class="col-md-1 col-sm-1">
+    #                 Actions
+    #          </div>
+    #     </div>
+    # """
+    list_html = "<div class='container-fluid'>"
+    locations = set()
+    for r in sorted_results:
+        company_name = r["name"]
+        if company_name in names:
+            continue
+        else:
+            names.append(company_name)
+        description = r["description"]  #.replace(company_name, f"<mark>{company_name}</mark>")
+        if description is None or len(description.strip())<10:
+            continue
+        score = round(r["score"], 4)
+        data_type = r["metadata"]["type"] if "type" in r["metadata"] else ""
+        region = r["metadata"]["region"]
+        country = r["metadata"]["country"]
+        company_id = r["metadata"]["company_id"]
+        locations.add(country)
+        list_html = list_html + card(company_id, company_name, description, score, data_type, region, country, r['data'], is_debug)
+    list_html = list_html + '</div>'
+    #pins = country_geo[country_geo['name'].isin(locations)].loc[:, ['latitude', 'longitude']]
+    # if len(pins)>0:
+    #     with st.expander("Map view"):
+    #         st.map(pins)
+    #st.markdown(list_html, unsafe_allow_html=True)
+    df = pd.DataFrame.from_dict(carddict, orient="columns")
+    if len(df)>0:
+        df.index += 1
+        with content_container:
+            st.dataframe(df,
+                hide_index=False,
+                column_config ={
+                    "name": st.column_config.TextColumn("Name"),
+                    "company_id": st.column_config.LinkColumn("Link"),
+                    "description": st.column_config.TextColumn("Description"),
+                    "country": st.column_config.TextColumn("Country", width="small"),
+                    "customer_problem": st.column_config.TextColumn("Customer problem"),
+                    "target_customer": st.column_config.TextColumn(label="Target customer", width="small"),
+                    "business_model": st.column_config.TextColumn(label="Business model")
+                },
+                use_container_width=True)
     st.session_state.last_user_query = query
     tab_advanced = st.sidebar.expander("Settings")
     with tab_advanced:
+        gemini_prompt = st.text_area("Gemini Prompt", value = google_default_instructions, height=400, key="advanced_gemini_prompt_content")
+        default_prompt = st.text_area("Default Prompt", value = utils.default_prompt, height=400, key="advanced_default_prompt_content")
         #prompt_title = st.selectbox("Report Type", index = 0, options = utils.get_prompts(), on_change=on_prompt_selected, key="advanced_prompts_select", )
         #prompt_title_editable = st.text_input("Title", key="prompt_title_editable")
         report_type = st.selectbox(label="Response Type", options=["gemini", "assistant", "standard", "guided", "company_list", "clustered"], index=0)
         index_namespace = st.selectbox(label="Data Type", options=["websummarized", "web", "cbli", "all"], index=0)
         liked_companies = st.text_input(label="liked companies", key='liked_companies')
         disliked_companies = st.text_input(label="disliked companies", key='disliked_companies')
         clustering_prompt = st.text_area("Clustering Prompt", value = utils.clustering_prompt, height=400, key="advanced_clustering_prompt_content")
+    if report_type == "assistant" and not "assistant_thread" in st.session_state:
         st.session_state.assistant_thread = st.session_state.openai_client.beta.threads.create()
         st.session_state.index_namespace = index_namespace
         st.session_state.region = region_selectbox
         st.session_state.country = countries_selectbox
+        if report_type=="gemini":
+            run_googleai(query, gemini_prompt)
+        else:
+            run_query(query, report_type, top_k,
+                  region_selectbox, countries_selectbox, is_debug,
+                  index_namespace, openai_model,
+                  default_prompt,
+                  gemini_prompt)
     else:
         st.session_state.new_conversation = False

googleai.py CHANGED Viewed

@@ -73,7 +73,7 @@ In order to query the database you have a semantic search tool called 'query_pin
 def search_index(query):
     return pc_search(query, top_k=1000, countries=[], regions = [], retriever = st.session_state.retriever)
-def init_googleai(instructions=DEFAULT_INSTRUCTIONS):
     logger.debug("Initiailizing google ai")
     pinecone_tool = Tool(
         name="query_pinecone",
@@ -84,15 +84,14 @@ def init_googleai(instructions=DEFAULT_INSTRUCTIONS):
     )
     llm = ChatGoogleGenerativeAI(
-        # model="gemini-1.5-pro",
-        model="gemini-1.5-flash",
         temperature=0.1,
         google_api_key=GOOGLE_API_KEY
     )
     tools = [pinecone_tool]
-    st.session_state.agent_chain = initialize_agent(
         tools=tools,
         llm=llm,
         agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION,
@@ -101,7 +100,8 @@ def init_googleai(instructions=DEFAULT_INSTRUCTIONS):
     )
-def send_message(user_message:str):
-    if not 'agent_chain' in st.session_state:
-        init_googleai()
-    return st.session_state.agent_chain.invoke(user_message)

 def search_index(query):
     return pc_search(query, top_k=1000, countries=[], regions = [], retriever = st.session_state.retriever)
+def init_googleai(instructions=DEFAULT_INSTRUCTIONS, model = "gemini-1.5-flash"):           # model="gemini-1.5-pro",
     logger.debug("Initiailizing google ai")
     pinecone_tool = Tool(
         name="query_pinecone",
     )
     llm = ChatGoogleGenerativeAI(
+        model=model,
         temperature=0.1,
         google_api_key=GOOGLE_API_KEY
     )
     tools = [pinecone_tool]
+    st.session_state.googleai_agent_chain = initialize_agent(
         tools=tools,
         llm=llm,
         agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION,
     )
+def send_message(user_message:str, prompt):
+    if not 'googleai_agent_chain' in st.session_state or st.session_state.googleai_default_instructions != prompt:
+        st.session_state.googleai_default_instructions = prompt
+        init_googleai(prompt)
+    return st.session_state.googleai_agent_chain.invoke(user_message)

openai_utils.py CHANGED Viewed

@@ -1,3 +1,7 @@
 import json
 import time
 import traceback
@@ -21,7 +25,7 @@ def getListOfCompanies(query, filters = {}):
     return descriptions
 def report_error(txt):
-    print(f"\nEEEEEEEEEEEEE\n{txt}")
 def wait_for_response(thread, run):
     timeout = 60    #timeout in seconds

+import logging
+logger = logging.getLogger(__name__)
+logger.setLevel(logging.DEBUG)
 import json
 import time
 import traceback
     return descriptions
 def report_error(txt):
+    logger.debug(f"\nError: \n{txt}")
 def wait_for_response(thread, run):
     timeout = 60    #timeout in seconds

semsearch.pyproj CHANGED Viewed

@@ -36,6 +36,7 @@
     <Content Include=".gitignore" />
     <Content Include=".streamlit\config.toml" />
     <Content Include=".streamlit\secrets.toml" />
     <Content Include="Dockerfile" />
     <Content Include="README.md" />
     <Content Include="requirements.txt" />

     <Content Include=".gitignore" />
     <Content Include=".streamlit\config.toml" />
     <Content Include=".streamlit\secrets.toml" />
+    <Content Include="cloudrun.yaml" />
     <Content Include="Dockerfile" />
     <Content Include="README.md" />
     <Content Include="requirements.txt" />