Spaces:

Pixeltable
/

Multi-LLM-RAG-with-Groundtruth-Comparison

Running

App Files Files Community

PierreBrunelle commited on Oct 5, 2024

Commit

fb3b5a9

verified ·

1 Parent(s): 650714a

Update app.py

Browse files

Files changed (1) hide show

app.py +39 -22

app.py CHANGED Viewed

@@ -1,3 +1,15 @@
 import gradio as gr
 import pandas as pd
 import pixeltable as pxt
@@ -12,6 +24,8 @@ import os
 if 'OPENAI_API_KEY' not in os.environ:
     os.environ['OPENAI_API_KEY'] = getpass.getpass('Enter your OpenAI API key:')
 # Ensure a clean slate for the demo
 pxt.drop_dir('rag_demo', force=True)
 pxt.create_dir('rag_demo')
@@ -36,25 +50,25 @@ def create_prompt(top_k_list: list[dict], question: str) -> str:
     {question}'''
 def process_files(ground_truth_file, pdf_files):
     # Process ground truth file
     if ground_truth_file.name.endswith('.csv'):
-        df = pd.read_csv(ground_truth_file.name)
     else:
-        df = pd.read_excel(ground_truth_file.name)
-    queries_t = pxt.create_table('rag_demo.queries', df)
     # Process PDF files
     documents_t = pxt.create_table(
         'rag_demo.documents',
         {'document': pxt.DocumentType()}
     )
     for pdf_file in pdf_files:
         documents_t.insert({'document': pdf_file.name})
-    # Create chunks view
     chunks_t = pxt.create_view(
         'rag_demo.chunks',
         documents_t,
@@ -71,12 +85,12 @@ def process_files(ground_truth_file, pdf_files):
     # Create top_k query
     @chunks_t.query
     def top_k(query_text: str):
-        sim = chunks_t.text.similarity(query_text)
-        return (
-            chunks_t.order_by(sim, asc=False)
-                .select(chunks_t.text, sim=sim)
-                .limit(5)
-        )
     # Add computed columns to queries_t
     queries_t['question_context'] = chunks_t.top_k(queries_t.Question)
@@ -96,6 +110,12 @@ def process_files(ground_truth_file, pdf_files):
         }
     ]
     # Add OpenAI response column
     queries_t['response'] = openai.chat_completions(
         model='gpt-4-0125-preview', messages=messages
@@ -104,10 +124,6 @@ def process_files(ground_truth_file, pdf_files):
     return "Files processed successfully!"
-def query_llm(question):
-    queries_t = pxt.get_table('rag_demo.queries')
-    chunks_t = pxt.get_table('rag_demo.chunks')
     # Perform top-k lookup
     context = chunks_t.top_k(question).collect()
@@ -140,21 +156,22 @@ def query_llm(question):
 # Gradio interface
 with gr.Blocks() as demo:
     gr.Markdown("# RAG Demo App")
     with gr.Row():
-        ground_truth_file = gr.File(label="Upload Ground Truth (CSV or XLSX)")
         pdf_files = gr.File(label="Upload PDF Documents", file_count="multiple")
     process_button = gr.Button("Process Files")
     process_output = gr.Textbox(label="Processing Output")
     question_input = gr.Textbox(label="Enter your question")
     query_button = gr.Button("Query LLM")
     output_dataframe = gr.Dataframe(label="LLM Outputs")
     process_button.click(process_files, inputs=[ground_truth_file, pdf_files], outputs=process_output)
     query_button.click(query_llm, inputs=question_input, outputs=output_dataframe)
 if __name__ == "__main__":
-    demo.launch()

+# -*- coding: utf-8 -*-
+"""LLM Comparison
+Automatically generated by Colab.
+Original file is located at
+    https://colab.research.google.com/drive/156SKaX3DY6jwOhcpwZVM5AiLscOAbNNJ
+"""
+# Commented out IPython magic to ensure Python compatibility.
+# %pip install -qU pixeltable gradio sentence-transformers tiktoken openai openpyxl
 import gradio as gr
 import pandas as pd
 import pixeltable as pxt
 if 'OPENAI_API_KEY' not in os.environ:
     os.environ['OPENAI_API_KEY'] = getpass.getpass('Enter your OpenAI API key:')
+"""Pixeltable Set up"""
 # Ensure a clean slate for the demo
 pxt.drop_dir('rag_demo', force=True)
 pxt.create_dir('rag_demo')
     {question}'''
+"""Gradio Application"""
 def process_files(ground_truth_file, pdf_files):
     # Process ground truth file
     if ground_truth_file.name.endswith('.csv'):
+        queries_t = pxt.io.import_csv(rag_demo.queries, ground_truth_file.name)
     else:
+        queries_t = pxt.io.import_excel(rag_demo.queries, ground_truth_file.name)
     # Process PDF files
     documents_t = pxt.create_table(
         'rag_demo.documents',
         {'document': pxt.DocumentType()}
     )
     for pdf_file in pdf_files:
         documents_t.insert({'document': pdf_file.name})
+     # Create chunks view
     chunks_t = pxt.create_view(
         'rag_demo.chunks',
         documents_t,
     # Create top_k query
     @chunks_t.query
     def top_k(query_text: str):
+      sim = chunks_t.text.similarity(query_text)
+      return (
+          chunks_t.order_by(sim, asc=False)
+              .select(chunks_t.text, sim=sim)
+              .limit(5)
+      )
     # Add computed columns to queries_t
     queries_t['question_context'] = chunks_t.top_k(queries_t.Question)
         }
     ]
+def query_llm(question, ground_truth_file, pdf_files):
+    queries_t = pxt.get_table('rag_demo.queries')
+    chunks_t = pxt.get_table('rag_demo.chunks')
     # Add OpenAI response column
     queries_t['response'] = openai.chat_completions(
         model='gpt-4-0125-preview', messages=messages
     return "Files processed successfully!"
     # Perform top-k lookup
     context = chunks_t.top_k(question).collect()
 # Gradio interface
 with gr.Blocks() as demo:
     gr.Markdown("# RAG Demo App")
     with gr.Row():
+        ground_truth_file = gr.File(label="Upload Ground Truth (CSV or XLSX)", file_count="single")
         pdf_files = gr.File(label="Upload PDF Documents", file_count="multiple")
     process_button = gr.Button("Process Files")
     process_output = gr.Textbox(label="Processing Output")
     question_input = gr.Textbox(label="Enter your question")
     query_button = gr.Button("Query LLM")
     output_dataframe = gr.Dataframe(label="LLM Outputs")
     process_button.click(process_files, inputs=[ground_truth_file, pdf_files], outputs=process_output)
     query_button.click(query_llm, inputs=question_input, outputs=output_dataframe)
 if __name__ == "__main__":
+    demo.launch()