Spaces:

jaothan
/

cicd_evaluation_prompt

Build error

App Files Files Community

jaothan commited on Feb 17, 2025

Commit

ab094b5

verified ·

1 Parent(s): f9e4b65

Upload 4 files

Browse files

Files changed (4) hide show

Dockerfile.txt +18 -0
app.py +41 -0
evaluate_prompts.py +42 -0
requirements.txt +5 -0

Dockerfile.txt ADDED Viewed

	@@ -0,0 +1,18 @@

+# Use Python base image
+FROM python:3.8
+# Set working directory
+WORKDIR /app
+# Install dependencies
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+# Copy project files
+COPY . .
+# Run evaluation before deploying
+RUN python evaluate_prompts.py
+# If evaluation passes, launch Streamlit app
+CMD ["streamlit", "run", "app.py", "--server.port=7860", "--server.address=0.0.0.0"]

app.py ADDED Viewed

	@@ -0,0 +1,41 @@

+import streamlit as st
+import json
+import torch
+from transformers import pipeline
+from datasets import load_metric
+# Load evaluation metric
+rouge = load_metric("rouge")
+# Load the summarization model
+summarizer = pipeline("summarization", model="facebook/bart-base")
+st.title("📝 Text Summarization with Hugging Face & Streamlit")
+# User input
+user_input = st.text_area("Enter your text here:", "")
+if st.button("Summarize"):
+    if user_input:
+        # Generate summary
+        summary = summarizer(user_input, max_length=50, min_length=5, do_sample=False)[0]["summary_text"]
+        st.subheader("Generated Summary:")
+        st.write(summary)
+        # Evaluate with a dummy reference summary
+        reference_summary = "Example reference summary for evaluation"
+        score = rouge.compute(predictions=[summary], references=[reference_summary])
+        st.subheader("ROUGE Scores:")
+        st.json(score)
+    else:
+        st.warning("⚠️ Please enter text to summarize!")
+# Display latest evaluation results
+st.subheader("Latest Evaluation Results:")
+try:
+    with open("evaluation_results.json", "r") as f:
+        results = json.load(f)
+    st.json(results)
+except FileNotFoundError:
+    st.write("No evaluation results found.")

evaluate_prompts.py ADDED Viewed

	@@ -0,0 +1,42 @@

+import json
+import torch
+from transformers import pipeline
+from datasets import load_metric
+# Load evaluation metric
+rouge = load_metric("rouge")
+# Load summarization model
+summarizer = pipeline("summarization", model="facebook/bart-base")
+# Example prompts & expected outputs
+test_cases = [
+    {"input": "The Eiffel Tower is a landmark in Paris, built in 1889.", "expected_summary": "The Eiffel Tower was built in 1889 in Paris."},
+    {"input": "AI is changing industries by automating tasks and providing insights.", "expected_summary": "AI is transforming industries with automation."}
+]
+def evaluate():
+    results = []
+    for case in test_cases:
+        model_output = summarizer(case["input"], max_length=50, min_length=5, do_sample=False)[0]["summary_text"]
+        score = rouge.compute(predictions=[model_output], references=[case["expected_summary"]])
+        results.append({"input": case["input"], "generated_summary": model_output, "rouge_score": score})
+    # Save evaluation results
+    with open("evaluation_results.json", "w") as f:
+        json.dump(results, f, indent=4)
+    avg_rouge_l = sum(res["rouge_score"]["rougeL"].mid.fmeasure for res in results) / len(results)
+    if avg_rouge_l >= 0.4:
+        print("✅ Model passed evaluation.")
+        return True
+    else:
+        print("❌ Model failed evaluation. Improve prompts or model.")
+        return False
+if __name__ == "__main__":
+    success = evaluate()
+    if not success:
+        exit(1)  # Prevent deployment if evaluation fails

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+streamlit
+transformers
+torch
+datasets
+json