Spaces:

haouarin
/

pdf2text

Runtime error

App Files Files Community

HAOUARI Noureddine commited on Aug 12, 2023

Commit

d0341c5

1 Parent(s): 11fb0d6

better version 02

Browse files

Files changed (1) hide show

app.py +53 -33

app.py CHANGED Viewed

@@ -11,8 +11,6 @@ encoding_anthropic = client.get_tokenizer()
 # Model choice and max tokens input
 model_choice = st.sidebar.selectbox("Choose a Model", ["OpenAI", "Anthropic"])
-max_tokens = st.sidebar.number_input(
-    "Max number of tokens per chunk", min_value=100, value=8000)
 def clean_text_content(text):
@@ -61,30 +59,60 @@ def pdf_to_text(pdf_files_data, file_names):
     return results
-st.title("PDF splitter")
-st.markdown(
-    "Upload PDF files and get their content in text format splitted based on the max tokens.")
-uploaded_files = st.sidebar.file_uploader(
-    "Upload PDF files", type="pdf", accept_multiple_files=True)
-clean_text = st.sidebar.checkbox("Clean text before encoding and splitting?")
-# Check if the text is not already in session_state
 if "text_content" not in st.session_state:
     st.session_state.text_content = ""
-if uploaded_files:
-    pdf_files_data = [io.BytesIO(uploaded_file.read())
-                      for uploaded_file in uploaded_files]
-    file_names = [uploaded_file.name for uploaded_file in uploaded_files]
-    if st.sidebar.button('Convert'):
-        converting_message = st.sidebar.text("Converting PDFs...")
-        converted_text = "\n".join(pdf_to_text(pdf_files_data, file_names))
-        st.session_state.text_content += converted_text
-        converting_message.empty()
     if clean_text:
         st.session_state.text_content = clean_text_content(
@@ -95,16 +123,8 @@ if uploaded_files:
     chunks = [encoding_openAI.decode(chunk_tokens) if model_choice == "OpenAI" else encoding_anthropic.decode(
         chunk_tokens) for chunk_tokens in chunks_generator]
-    # Display each chunk in a separate text area
     for i, chunk in enumerate(chunks, 1):
-        chunk_content = st.text_area(f"Chunk {i} content:", chunk, height=200)
-# Button to compute tokens of the text area content
-if st.button("Compute Tokens"):
-    if model_choice == "OpenAI":
-        num_tokens = len(encoding_openAI.encode(st.session_state.text_content))
-        st.write(f"Total number of tokens (OpenAI): {num_tokens}")
-    else:
-        tokens_count = len(encoding_anthropic.encode(
-            st.session_state.text_content))
-        st.write(f"Total number of tokens (Anthropic): {tokens_count}")

 # Model choice and max tokens input
 model_choice = st.sidebar.selectbox("Choose a Model", ["OpenAI", "Anthropic"])
 def clean_text_content(text):
     return results
+st.title("PDF Utility")
+# Create tabs
+step01 = "Step 01: Upload Files"
+step02 = "Step 02: Edit Knowledge Base"
+step03 = "Step 03: Split text"
+tabs = [step01, step02, step03]
+selected_tab = st.sidebar.radio("Choose a tab", tabs)
 if "text_content" not in st.session_state:
     st.session_state.text_content = ""
+# Define content for each tab
+if selected_tab == step02:
+    st.subheader("Knowledge Base Text Area")
+    st.session_state.text_content = st.text_area(
+        "Knowledge Text Area", st.session_state.text_content, height=400)
+    if st.button("Compute Tokens"):
+        if model_choice == "OpenAI":
+            num_tokens = len(encoding_openAI.encode(
+                st.session_state.text_content))
+            st.write(f"Total number of tokens (OpenAI): {num_tokens}")
+        else:
+            tokens_count = len(encoding_anthropic.encode(
+                st.session_state.text_content))
+            st.write(f"Total number of tokens (Anthropic): {tokens_count}")
+elif selected_tab == step01:
+    st.subheader("Upload PDFs to Append to Knowledge Base")
+    uploaded_files = st.file_uploader(
+        "Upload PDF files", type="pdf", accept_multiple_files=True)
+    if uploaded_files:
+        pdf_files_data = [io.BytesIO(uploaded_file.read())
+                          for uploaded_file in uploaded_files]
+        file_names = [uploaded_file.name for uploaded_file in uploaded_files]
+        if st.button('Convert and add to knowledge database'):
+            converting_message = st.text("Converting PDFs...")
+            converted_text = "\n".join(pdf_to_text(pdf_files_data, file_names))
+            st.session_state.text_content += converted_text
+            converting_message.empty()
+elif selected_tab == step03:
+    st.subheader("Splitting Options")
+    model_choice = st.selectbox(
+        "Choose a Model", ["OpenAI", "Anthropic"], key="model_choice_selectbox")
+    max_tokens = st.number_input(
+        "Max number of tokens per chunk", min_value=100, value=8000, key="max_tokens_input")
+    clean_text = st.checkbox("Clean text before encoding and splitting?")
+    # Add prefix and postfix input options
+    prefix = st.text_area("Prefix for each chunk:", "")
+    postfix = st.text_area("Postfix for each chunk:", "")
     if clean_text:
         st.session_state.text_content = clean_text_content(
     chunks = [encoding_openAI.decode(chunk_tokens) if model_choice == "OpenAI" else encoding_anthropic.decode(
         chunk_tokens) for chunk_tokens in chunks_generator]
     for i, chunk in enumerate(chunks, 1):
+        # Add prefix and postfix to each chunk
+        chunk_with_affixes = f"{prefix}{chunk}{postfix}"
+        chunk_content = st.text_area(
+            f"Chunk {i} content:", chunk_with_affixes, height=200)