AA_FinalFCFF

Sleeping

App Files Files Community

ahm14 commited on Feb 17, 2025

Commit

9e0b8b3

verified ·

1 Parent(s): cf0ede7

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -30

app.py CHANGED Viewed

@@ -93,32 +93,19 @@ def extract_frames(text):
     try:
         response = llm.chat([{"role": "system", "content": "Classify the following text into relevant activism frames and assign Major, Significant, or Minor focus."},
                              {"role": "user", "content": text}])
-        return categorize_frame_focus(response["choices"][0]["message"]["content"])
     except Exception as e:
         logging.error(f"Groq API error: {e}")
         return extract_frames_fallback(text)
-# Categorize frame focus: Major, Significant, Minor
-def categorize_frame_focus(frames_text):
-    frame_data = {}
-    frames = frames_text.split(", ")
-    for frame in frames:
-        if "Major" in frame:
-            frame_data[frame] = "Major Focus"
-        elif "Significant" in frame:
-            frame_data[frame] = "Significant Focus"
-        else:
-            frame_data[frame] = "Minor Mention"
-    return frame_data
 # Fallback method for frame extraction
 def extract_frames_fallback(text):
-    detected_frames = {}
     text_lower = text.lower()
     for category, keywords in frame_categories.items():
         if any(word in text_lower for word in keywords):
-            detected_frames[category] = "Minor Mention"
-    return detected_frames
 # Extract captions from DOCX
 def extract_captions_from_docx(docx_file):
@@ -134,14 +121,44 @@ def extract_captions_from_docx(docx_file):
             captions[current_post].append(text)
     return {post: " ".join(lines) for post, lines in captions.items() if lines}
-# Generate DOCX file for download
-def generate_docx(data):
     doc = Document()
-    for post, content in data.items():
-        doc.add_heading(post, level=1)
-        for key, value in content.items():
             doc.add_paragraph(f"{key}: {value}")
-        doc.add_paragraph()  # Add space between posts
     return doc
 # Streamlit app
@@ -198,15 +215,16 @@ if uploaded_excel:
 if output_data:
     st.write(output_data)
-    # Generate DOCX for download
-    doc = generate_docx(output_data)
-    doc_io = io.BytesIO()
-    doc.save(doc_io)
-    doc_io.seek(0)
     st.download_button(
-        label="Download Extracted Data",
-        data=doc_io,
         file_name="extracted_data.docx",
         mime="application/vnd.openxmlformats-officedocument.wordprocessingml.document"
     )

     try:
         response = llm.chat([{"role": "system", "content": "Classify the following text into relevant activism frames and assign Major, Significant, or Minor focus."},
                              {"role": "user", "content": text}])
+        return response["choices"][0]["message"]["content"]
     except Exception as e:
         logging.error(f"Groq API error: {e}")
         return extract_frames_fallback(text)
 # Fallback method for frame extraction
 def extract_frames_fallback(text):
+    detected_frames = set()
     text_lower = text.lower()
     for category, keywords in frame_categories.items():
         if any(word in text_lower for word in keywords):
+            detected_frames.add(category)
+    return list(detected_frames)
 # Extract captions from DOCX
 def extract_captions_from_docx(docx_file):
             captions[current_post].append(text)
     return {post: " ".join(lines) for post, lines in captions.items() if lines}
+# Function to extract metadata from an Excel file
+def extract_metadata_from_excel(excel_file):
+    df = pd.read_excel(excel_file)
+    extracted_data = []
+    for index, row in df.iterrows():
+        post_data = {
+            "Post Number": f"Post {index + 1}",
+            "Date of Post": row.get("Date", "N/A"),
+            "Media Type": row.get("Media Type", "N/A"),
+            "Number of Pictures": row.get("Number of Pictures", 0),
+            "Number of Videos": row.get("Number of Videos", 0),
+            "Number of Audios": row.get("Number of Audios", 0),
+            "Likes": row.get("Likes", 0),
+            "Comments": row.get("Comments", 0),
+        }
+        extracted_data.append(post_data)
+    return extracted_data
+# Merge metadata from Excel with the generated data
+def merge_metadata_with_generated_data(generated_data, excel_metadata):
+    for post_data in excel_metadata:
+        post_number = post_data["Post Number"]
+        if post_number in generated_data:
+            generated_data[post_number].update(post_data)
+        else:
+            generated_data[post_number] = post_data
+    return generated_data
+# Function to create DOCX from extracted data
+def create_docx_from_data(extracted_data):
     doc = Document()
+    for post_number, data in extracted_data.items():
+        doc.add_heading(post_number, level=1)
+        for key, value in data.items():
             doc.add_paragraph(f"{key}: {value}")
+        doc.add_paragraph("\n")  # Add a line break between posts
     return doc
 # Streamlit app
 if output_data:
     st.write(output_data)
+# Create DOCX file for download
+if output_data:
+    doc = create_docx_from_data(output_data)
+    docx_io = io.BytesIO()
+    doc.save(docx_io)
+    docx_io.seek(0)
     st.download_button(
+        label="Download Extracted Data as DOCX",
+        data=docx_io,
         file_name="extracted_data.docx",
         mime="application/vnd.openxmlformats-officedocument.wordprocessingml.document"
     )