AGENT_ANALYSE_RAG_dev

Sleeping

App Files Files Community

Ilyas KHIAT commited on Jul 26, 2024

Commit

bc557f4

1 Parent(s): 62a5ad1

more details content

Browse files

Files changed (3) hide show

app.py +26 -23
utils/audit/audit_doc.py +3 -7
utils/audit/transcript_audio.py +0 -3

app.py CHANGED Viewed

@@ -116,25 +116,28 @@ def main():
     # Streamlit app
     st.title("AUDIT DES DOCUMENTS")
     if "audit" not in st.session_state:
         st.session_state.audit = {}
     if "name_file" not in st.session_state:
         st.session_state.name_file = ""
     # File uploader
-    uploaded_file = st.file_uploader("Télécharger un ou plusieurs des documents")
     if uploaded_file is not None:
         type = classify_file(uploaded_file)
         st.write(f"Type de fichier: {type}")
-        st.write("### Audit de tout le document")
         if type == "pdf":
             display_audit_pdf(uploaded_file)
         elif type == "audio":
             if st.session_state.name_file != uploaded_file.name:
                 st.session_state.name_file = uploaded_file.name
@@ -179,28 +182,28 @@ def main():
             st.code(well_formatted_audit)
-        elif type == "word":
-            if st.session_state.name_file != uploaded_file.name:
-                st.session_state.name_file = uploaded_file.name
-                with st.spinner("Analyse du document..."):
-                    st.session_state.audit = audit_descriptif_word(uploaded_file)
-            audit = st.session_state.audit
-            #global audit
-            audit_simplified = {
-                "Nombre de pages": audit["number_of_paragraphs"],
-                "Nombre d'images": audit["number_of_images"],
-                "Nombre de liens": audit["number_of_links"],
-                "Nombre de tableaux": audit["number_of_tables"],
-                "Nombre de tokens": audit["number_of_tokens"],
-                "Nombre de mots": audit["number_of_words"]
-            }
-            well_formatted_audit = "Contenus audités\n"
-            for key, value in audit_simplified.items():
-                well_formatted_audit += f"- {key}: {value}\n"
-            st.code(well_formatted_audit)
 if __name__ == "__main__":

     # Streamlit app
     st.title("AUDIT DES DOCUMENTS")
+    notice = "Les formats autorisés sont les suivants :\n- **format texte** : txt, word, pdf\n- **format image** : png, jpg\n- **format audio** : wav, MP3"
+    st.markdown(notice)
     if "audit" not in st.session_state:
         st.session_state.audit = {}
     if "name_file" not in st.session_state:
         st.session_state.name_file = ""
     # File uploader
+    uploaded_file = st.file_uploader("Télécharger un ou plusieurs documents")
     if uploaded_file is not None:
         type = classify_file(uploaded_file)
         st.write(f"Type de fichier: {type}")
+        st.write("### Synthèse audit du ou des document(s) téléchargé(s)")
         if type == "pdf":
             display_audit_pdf(uploaded_file)
         elif type == "audio":
             if st.session_state.name_file != uploaded_file.name:
                 st.session_state.name_file = uploaded_file.name
             st.code(well_formatted_audit)
+    elif type == "word":
+        if st.session_state.name_file != uploaded_file.name:
+            st.session_state.name_file = uploaded_file.name
+            with st.spinner("Analyse du document..."):
+                st.session_state.audit = audit_descriptif_word(uploaded_file)
+        audit = st.session_state.audit
+        #global audit
+        audit_simplified = {
+            "Nombre de pages": audit["number_of_paragraphs"],
+            "Nombre d'images": audit["number_of_images"],
+            "Nombre de liens": audit["number_of_links"],
+            "Nombre de tableaux": audit["number_of_tables"],
+            "Nombre de tokens": audit["number_of_tokens"],
+            "Nombre de mots": audit["number_of_words"]
+        }
+        well_formatted_audit = "Contenus audités\n"
+        for key, value in audit_simplified.items():
+            well_formatted_audit += f"- {key}: {value}\n"
+        st.code(well_formatted_audit)
 if __name__ == "__main__":

utils/audit/audit_doc.py CHANGED Viewed

@@ -54,10 +54,12 @@ def evaluate_text_quality(text: str) -> dict:
     global_score_0_5 = global_score * 5
 def extract_keywords(text):
-    rake = Rake(stopwords.words('english'))
     rake.extract_keywords_from_text(text)
     return rake.get_ranked_phrases()
 def count_tokens(input_string: str) -> int:
     tokenizer = tiktoken.get_encoding("cl100k_base")
     tokens = tokenizer.encode(input_string)
@@ -169,12 +171,6 @@ def audit_text(text: str) -> dict:
     return audit_dict
-def count_tokens(text):
-    # Implement a token counting method. Here, we assume tokens are words.
-    return len(text.split())
 def audit_descriptif_word(file) -> dict:
     document = Document(io.BytesIO(file.read()))

     global_score_0_5 = global_score * 5
 def extract_keywords(text):
+    rake = Rake(stopwords.words('french'))
     rake.extract_keywords_from_text(text)
     return rake.get_ranked_phrases()
 def count_tokens(input_string: str) -> int:
     tokenizer = tiktoken.get_encoding("cl100k_base")
     tokens = tokenizer.encode(input_string)
     return audit_dict
 def audit_descriptif_word(file) -> dict:
     document = Document(io.BytesIO(file.read()))

utils/audit/transcript_audio.py CHANGED Viewed

@@ -1,8 +1,5 @@
 from openai import OpenAI
 def transcript_audio_func(audio_file):
     client = OpenAI()
     transcription = client.audio.transcriptions.create(

 from openai import OpenAI
 def transcript_audio_func(audio_file):
     client = OpenAI()
     transcription = client.audio.transcriptions.create(