Spaces:

RCaz
/

Avatar_bot

Sleeping

clean up the sources to create direct access

#13

by RCaz - opened Jan 20

←

Files changed (1) hide show

app.py CHANGED Viewed

@@ -81,6 +81,27 @@ class RateLimiter:
 print("Rate Limit init.")
 limiter = RateLimiter(max_requests=10, window_minutes=60)
 # setup chatbot
 from langchain_core.messages import HumanMessage, AIMessage, SystemMessage
 from langchain.chat_models import init_chat_model
@@ -176,7 +197,7 @@ def predict(message, history, request: gr.Request):
     try :
         raw_source_lines = [
-        f"{i+1} : {doc.metadata["source"].split("/")[-1]} (page {doc.metadata['page_label']}/{doc.metadata['total_pages']})\n---"
         for i, doc in enumerate(relevant_docs)]
         seen = set()
@@ -188,8 +209,7 @@ def predict(message, history, request: gr.Request):
         source_context = "\nSources:" + "\n".join(unique_source_lines)
     except :
-        source_context = "\nSources:" + "\n".join([
-        f"{doc.metadata["source"]}" for i, doc in enumerate(relevant_docs)])
     messages.append(AIMessage(content=source_context))
     print(gpt_response.content )

 print("Rate Limit init.")
 limiter = RateLimiter(max_requests=10, window_minutes=60)
+# helper func
+def format_source(doc):
+    """
+    format source according to its path
+    handles github api, internet page and uploaded files (pdf)
+    Args:
+        doc: a langchain Document
+    Returns:
+        str : formated_source from langchain Document"""
+    source = doc.metadata["source"]
+    if 'api.github' in source:
+        return source.split("/blob")[0].replace("api.","")
+    elif "https://" in source:
+        return source
+    elif "data" in source:
+        page_label = doc.metadata["pagpage_labele"]
+        total_page = doc.metadata["total_page"]
+        return f"{source.split("/")[-1]} page({page_label/total_page})"
 # setup chatbot
 from langchain_core.messages import HumanMessage, AIMessage, SystemMessage
 from langchain.chat_models import init_chat_model
     try :
         raw_source_lines = [
+        f"{i+1} : {format_source(doc)})\n---"
         for i, doc in enumerate(relevant_docs)]
         seen = set()
         source_context = "\nSources:" + "\n".join(unique_source_lines)
     except :
+        source_context = "Issue extracting source"
     messages.append(AIMessage(content=source_context))
     print(gpt_response.content )