Spaces:

evaluatorhub42
/

Prototyp_Chatbot_Kontextanalyse_2

Sleeping

Julia Ostheimer commited on Jul 16, 2025

Commit

36de3fa

1 Parent(s): d0bf374

Show page number of chunks and dismiss author and creation date in source metadata

Files changed (1) hide show

app.py CHANGED Viewed

@@ -85,11 +85,11 @@ def pretty_source_history_md():
     markdown_string = ""
     for idx, record in enumerate(unpretty_history):
         markdown_string += f"## Query {idx+1}: `{record['query']}`\n"
-        for filename, author, creation_date, chunk in zip(record["filename"], record["author"], record["creation_date"], record["source_text_chunk"]):
             # Clean up chunk: remove newlines and trim spaces
             cleaned_chunk = chunk.replace("\n", " ").replace("\r", " ").strip()
-            markdown_string += f"- **Dokument**: {filename}, **Autor(en)**: {author}, **Erstellungsdatum**: {creation_date}\n\n> {cleaned_chunk} \n\n"
         markdown_string += "---\n"
     return markdown_string
@@ -106,8 +106,7 @@ def retrieve(query: str):
     document_metadata_to_display_in_ui.append({
         "query": query,
         "filename": [get_document_filename(doc) for doc in retrieved_docs],
-        "author": [doc.metadata["Author"] for doc in retrieved_docs],
-        "creation_date": [doc.metadata["CreationDate"] for doc in retrieved_docs],
         "source_text_chunk": [doc.page_content for doc in retrieved_docs]
     })

     markdown_string = ""
     for idx, record in enumerate(unpretty_history):
         markdown_string += f"## Query {idx+1}: `{record['query']}`\n"
+        for filename, page, chunk in zip(record["filename"], record["number_of_pages"], record["source_text_chunk"]):
             # Clean up chunk: remove newlines and trim spaces
             cleaned_chunk = chunk.replace("\n", " ").replace("\r", " ").strip()
+            markdown_string += f"- **Dokument**: {filename}, **Seite**: {page}\n\n> {cleaned_chunk} \n\n"
         markdown_string += "---\n"
     return markdown_string
     document_metadata_to_display_in_ui.append({
         "query": query,
         "filename": [get_document_filename(doc) for doc in retrieved_docs],
+        "number_of_pages": [doc.metadata["page"] for doc in retrieved_docs],
         "source_text_chunk": [doc.page_content for doc in retrieved_docs]
     })