Spaces:

Marek4321
/

Prompt_Tester

Running

App Files Files Community

Marek4321 commited on Oct 14, 2025

Commit

c7bea8b

verified ·

1 Parent(s): fd5c1e1

Update app.py

Browse files

Files changed (1) hide show

app.py +471 -471

app.py CHANGED Viewed

@@ -1,471 +1,471 @@
-"""
-Prompt A/B Tester - Streamlit Web Application
-Aplikacja do testowania promptów OpenAI GPT z metodologią A/B
-"""
-import streamlit as st
-import time
-from datetime import datetime
-from config import ConfigManager
-from api_handler import APIHandler
-from test_runner import TestRunner
-# Page configuration
-st.set_page_config(
-    page_title="Prompt A/B Tester",
-    page_icon="🔬",
-    layout="wide",
-    initial_sidebar_state="expanded"
-)
-# Initialize session state
-if 'initialized' not in st.session_state:
-    st.session_state.initialized = True
-    st.session_state.responses = []
-    st.session_state.test_running = False
-    st.session_state.logs = []
-    st.session_state.results = None
-    st.session_state.rated_responses = []
-# Initialize components
-config = ConfigManager()
-api_handler = APIHandler(config.get_api_key())
-test_runner = TestRunner(api_handler)
-# Helper functions
-def log_message(message):
-    """Add message to logs"""
-    timestamp = datetime.now().strftime("%H:%M:%S")
-    st.session_state.logs.append(f"[{timestamp}] {message}")
-def clear_logs():
-    """Clear all logs"""
-    st.session_state.logs = []
-def update_progress_callback(current, total):
-    """Progress callback for test runner"""
-    # Progress is handled by st.progress in Streamlit
-    pass
-# Title
-st.title("🔬 Prompt A/B Tester")
-st.markdown("**Testuj i porównuj wydajność dwóch wersji promptów OpenAI GPT**")
-# Sidebar - Configuration
-with st.sidebar:
-    st.header("⚙️ Konfiguracja")
-    # API Key
-    st.subheader("🔑 Klucz API OpenAI")
-    # Check if API key is in secrets (Hugging Face deployment)
-    api_key_from_secrets = None
-    try:
-        if hasattr(st, 'secrets') and 'OPENAI_API_KEY' in st.secrets:
-            api_key_from_secrets = st.secrets['OPENAI_API_KEY']
-            st.success("✅ Klucz API załadowany z Secrets")
-    except:
-        pass
-    if not api_key_from_secrets:
-        api_key_input = st.text_input(
-            "Klucz API",
-            type="password",
-            value=config.get("api_key", ""),
-            help="Wprowadź swój klucz API OpenAI"
-        )
-        if st.button("💾 Zapisz i Waliduj API Key"):
-            if api_key_input:
-                api_handler.set_api_key(api_key_input)
-                config.set_api_key(api_key_input)
-                success, message = api_handler.validate_api_key()
-                if success:
-                    st.success(f"✅ {message}")
-                else:
-                    st.error(f"❌ {message}")
-            else:
-                st.warning("⚠️ Klucz API nie może być pusty")
-    st.divider()
-    # Model and Parameters
-    st.subheader("🤖 Model i Parametry")
-    # Refresh models
-    if st.button("🔄 Odśwież modele"):
-        models = api_handler.get_available_models()
-        st.success(f"Znaleziono {len(models)} modeli")
-    models = api_handler.get_available_models()
-    model = st.selectbox(
-        "Model",
-        options=models,
-        index=models.index(config.get("model", "gpt-4o")) if config.get("model", "gpt-4o") in models else 0
-    )
-    temperature = st.slider(
-        "Temperature",
-        min_value=0.0,
-        max_value=2.0,
-        value=config.get("temperature", 0.1),
-        step=0.1,
-        help="0.0 = deterministyczne, 2.0 = kreatywne"
-    )
-    max_tokens = st.number_input(
-        "Max Tokens",
-        min_value=100,
-        max_value=4000,
-        value=config.get("max_tokens", 2000),
-        step=100
-    )
-    num_responses = st.number_input(
-        "Liczba odpowiedzi (na prompt)",
-        min_value=1,
-        max_value=50,
-        value=config.get("num_responses", 5),
-        step=1,
-        help="Ile odpowiedzi wygenerować dla każdego promptu"
-    )
-    # Save settings
-    if st.button("💾 Zapisz ustawienia"):
-        settings = {
-            "model": model,
-            "temperature": temperature,
-            "max_tokens": max_tokens,
-            "num_responses": num_responses
-        }
-        config.update_settings(settings)
-        st.success("✅ Ustawienia zapisane")
-    # Cost estimation
-    if st.button("💰 Szacuj koszt"):
-        total_responses = num_responses * 2
-        cost = api_handler.estimate_cost(model, total_responses)
-        st.info(f"**Szacunkowy koszt:**\n\n"
-                f"Model: {model}\n\n"
-                f"Odpowiedzi: {total_responses}\n\n"
-                f"Koszt: ${cost:.4f} USD")
-# Main tabs
-tab1, tab2, tab3, tab4 = st.tabs(["🚀 Test", "⭐ Ocenianie", "📊 Wyniki", "📋 Logi"])
-# Tab 1: Test
-with tab1:
-    st.header("🚀 Przeprowadź Test A/B")
-    # Input method selection
-    input_method = st.radio(
-        "Metoda wprowadzania promptów:",
-        options=["📁 Upload plików", "✏️ Wklej tekst"],
-        horizontal=True
-    )
-    prompt_a = None
-    prompt_b = None
-    if input_method == "📁 Upload plików":
-        col1, col2 = st.columns(2)
-        with col1:
-            st.subheader("Prompt A")
-            file_a = st.file_uploader(
-                "Wybierz plik dla Promptu A",
-                type=['md', 'txt'],
-                key="file_a"
-            )
-            if file_a:
-                prompt_a = file_a.read().decode('utf-8')
-                st.success(f"✅ Wczytano {len(prompt_a)} znaków")
-        with col2:
-            st.subheader("Prompt B")
-            file_b = st.file_uploader(
-                "Wybierz plik dla Promptu B",
-                type=['md', 'txt'],
-                key="file_b"
-            )
-            if file_b:
-                prompt_b = file_b.read().decode('utf-8')
-                st.success(f"✅ Wczytano {len(prompt_b)} znaków")
-    else:  # Wklej tekst
-        col1, col2 = st.columns(2)
-        with col1:
-            st.subheader("Prompt A")
-            prompt_a = st.text_area(
-                "Wklej treść Promptu A",
-                height=300,
-                key="text_a"
-            )
-        with col2:
-            st.subheader("Prompt B")
-            prompt_b = st.text_area(
-                "Wklej treść Promptu B",
-                height=300,
-                key="text_b"
-            )
-    # Test controls
-    st.divider()
-    col1, col2, col3 = st.columns([1, 1, 3])
-    with col1:
-        run_button = st.button(
-            "🚀 Uruchom Test",
-            type="primary",
-            disabled=st.session_state.test_running,
-            use_container_width=True
-        )
-    with col2:
-        if st.button("🗑️ Wyczyść", use_container_width=True):
-            st.session_state.responses = []
-            st.session_state.results = None
-            st.session_state.rated_responses = []
-            clear_logs()
-            st.rerun()
-    # Run test
-    if run_button:
-        # Validation
-        if not config.get_api_key():
-            st.error("❌ Najpierw ustaw klucz API w panelu bocznym")
-        elif not prompt_a or not prompt_b:
-            st.error("❌ Oba prompty muszą być wypełnione")
-        else:
-            clear_logs()
-            log_message("🚀 Rozpoczynanie testu A/B")
-            log_message(f"Model: {model}, Temperature: {temperature}, Max tokens: {max_tokens}")
-            log_message(f"Liczba odpowiedzi na prompt: {num_responses}")
-            # Progress tracking
-            progress_bar = st.progress(0)
-            status_text = st.empty()
-            total_iterations = num_responses * 2
-            current = 0
-            st.session_state.test_running = True
-            # Generate responses for Prompt A
-            log_message("🔄 Generowanie odpowiedzi dla PROMPTU A...")
-            for i in range(num_responses):
-                current += 1
-                progress_bar.progress(current / total_iterations)
-                status_text.text(f"Generowanie: {current}/{total_iterations} (A-{i+1})")
-                response = api_handler.generate_response(
-                    prompt_a, model, temperature, max_tokens
-                )
-                st.session_state.responses.append({
-                    'Option': 'A',
-                    'Response_ID': i + 1,
-                    'Response': response,
-                    'Score': None
-                })
-                if response.startswith("ERROR"):
-                    log_message(f"   A-{i+1}/{num_responses}... ❌ {response}")
-                else:
-                    log_message(f"   A-{i+1}/{num_responses}... ✅ ({len(response)} znaków)")
-                time.sleep(0.5)
-            # Generate responses for Prompt B
-            log_message("\n🔄 Generowanie odpowiedzi dla PROMPTU B...")
-            for i in range(num_responses):
-                current += 1
-                progress_bar.progress(current / total_iterations)
-                status_text.text(f"Generowanie: {current}/{total_iterations} (B-{i+1})")
-                response = api_handler.generate_response(
-                    prompt_b, model, temperature, max_tokens
-                )
-                st.session_state.responses.append({
-                    'Option': 'B',
-                    'Response_ID': i + 1,
-                    'Response': response,
-                    'Score': None
-                })
-                if response.startswith("ERROR"):
-                    log_message(f"   B-{i+1}/{num_responses}... ❌ {response}")
-                else:
-                    log_message(f"   B-{i+1}/{num_responses}... ✅ ({len(response)} znaków)")
-                time.sleep(0.5)
-            progress_bar.progress(1.0)
-            status_text.text("✅ Zakończono!")
-            log_message(f"\n✅ GENEROWANIE ZAKOŃCZONE - wygenerowano {len(st.session_state.responses)} odpowiedzi")
-            st.session_state.test_running = False
-            st.success("🎉 Test zakończony! Przejdź do zakładki '⭐ Ocenianie'")
-# Tab 2: Rating
-with tab2:
-    st.header("⭐ Oceń Odpowiedzi")
-    if not st.session_state.responses:
-        st.info("ℹ️ Najpierw uruchom test w zakładce '🚀 Test'")
-    else:
-        st.markdown("**Oceń każdą odpowiedź w skali 1-5:**")
-        st.markdown("1 = Bardzo słaba | 2 = Słaba | 3 = Średnia | 4 = Dobra | 5 = Bardzo dobra")
-        st.divider()
-        # Display responses for rating
-        for idx, resp in enumerate(st.session_state.responses):
-            with st.container():
-                col1, col2 = st.columns([4, 1])
-                with col1:
-                    option_label = f"{resp['Option']}-{resp['Response_ID']}"
-                    st.subheader(f"Option: {option_label}")
-                    st.text_area(
-                        "Odpowiedź:",
-                        value=resp['Response'],
-                        height=150,
-                        key=f"response_display_{idx}",
-                        disabled=True
-                    )
-                with col2:
-                    st.markdown("**Ocena**")
-                    score = st.number_input(
-                        "Ocena (1-5)",
-                        min_value=1,
-                        max_value=5,
-                        value=resp.get('Score', 3),
-                        step=1,
-                        key=f"score_{idx}",
-                        label_visibility="collapsed"
-                    )
-                    st.session_state.responses[idx]['Score'] = score
-                st.divider()
-        # Calculate results button
-        if st.button("📊 Oblicz Wyniki", type="primary", use_container_width=True):
-            st.session_state.rated_responses = st.session_state.responses.copy()
-            st.session_state.results = test_runner.calculate_results(st.session_state.rated_responses)
-            st.success("✅ Wyniki obliczone! Przejdź do zakładki '📊 Wyniki'")
-            st.rerun()
-# Tab 3: Results
-with tab3:
-    st.header("📊 Wyniki Testu A/B")
-    if not st.session_state.results:
-        st.info("ℹ️ Najpierw oceń odpowiedzi i kliknij 'Oblicz Wyniki' w zakładce '⭐ Ocenianie'")
-    else:
-        results = st.session_state.results
-        # Results table
-        st.subheader("Podsumowanie")
-        col1, col2, col3, col4, col5 = st.columns(5)
-        with col1:
-            st.metric("Option", "A")
-        with col2:
-            st.metric("Count", results['A']['count'])
-        with col3:
-            st.metric("Score", f"{results['A']['score']:.2f}")
-        with col4:
-            st.metric("Min", results['A']['min'])
-        with col5:
-            st.metric("Max", results['A']['max'])
-        col1, col2, col3, col4, col5 = st.columns(5)
-        with col1:
-            st.metric("Option", "B")
-        with col2:
-            st.metric("Count", results['B']['count'])
-        with col3:
-            st.metric("Score", f"{results['B']['score']:.2f}")
-        with col4:
-            st.metric("Min", results['B']['min'])
-        with col5:
-            st.metric("Max", results['B']['max'])
-        st.divider()
-        # Winner
-        if results['A']['score'] > results['B']['score']:
-            winner = 'A'
-            diff = results['A']['score'] - results['B']['score']
-            st.success(f"🏆 **ZWYCIĘZCA: Prompt {winner}**\n\nPrzewaga: +{diff:.2f} punktu")
-        elif results['B']['score'] > results['A']['score']:
-            winner = 'B'
-            diff = results['B']['score'] - results['A']['score']
-            st.success(f"🏆 **ZWYCIĘZCA: Prompt {winner}**\n\nPrzewaga: +{diff:.2f} punktu")
-        else:
-            st.info("🤝 **REMIS**\n\nObie opcje uzyskały identyczny wynik")
-        st.divider()
-        # Export to CSV
-        settings = {
-            "model": config.get("model"),
-            "temperature": config.get("temperature"),
-            "max_tokens": config.get("max_tokens"),
-            "num_responses": config.get("num_responses")
-        }
-        csv_buffer = test_runner.export_to_csv(
-            st.session_state.rated_responses,
-            results,
-            settings
-        )
-        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
-        filename = f"prompt_ab_test_{timestamp}.csv"
-        st.download_button(
-            label="💾 Pobierz wyniki (CSV)",
-            data=csv_buffer,
-            file_name=filename,
-            mime="text/csv",
-            use_container_width=True
-        )
-# Tab 4: Logs
-with tab4:
-    st.header("📋 Logi Testów")
-    if st.button("🗑️ Wyczyść logi"):
-        clear_logs()
-        st.rerun()
-    if st.session_state.logs:
-        log_text = "\n".join(st.session_state.logs)
-        st.text_area(
-            "Logi:",
-            value=log_text,
-            height=500,
-            disabled=True,
-            label_visibility="collapsed"
-        )
-    else:
-        st.info("ℹ️ Brak logów do wyświetlenia")
-# Footer
-st.divider()
-st.markdown(
-    """
-    <div style='text-align: center; color: gray; font-size: 0.9em;'>
-    Prompt A/B Tester v2.0 (Streamlit) | Created for Manuscripto - Medical Editorial Assistant
-    </div>
-    """,
-    unsafe_allow_html=True
-)

+"""
+Prompt A/B Tester - Streamlit Web Application
+Aplikacja do testowania promptów OpenAI GPT z metodologią A/B
+"""
+import streamlit as st
+import time
+from datetime import datetime
+from config import ConfigManager
+from api_handler import APIHandler
+from test_runner import TestRunner
+# Page configuration
+st.set_page_config(
+    page_title="Prompt A/B Tester",
+    page_icon="🔬",
+    layout="wide",
+    initial_sidebar_state="expanded"
+)
+# Initialize session state
+if 'initialized' not in st.session_state:
+    st.session_state.initialized = True
+    st.session_state.responses = []
+    st.session_state.test_running = False
+    st.session_state.logs = []
+    st.session_state.results = None
+    st.session_state.rated_responses = []
+# Initialize components
+config = ConfigManager()
+api_handler = APIHandler(config.get_api_key())
+test_runner = TestRunner(api_handler)
+# Helper functions
+def log_message(message):
+    """Add message to logs"""
+    timestamp = datetime.now().strftime("%H:%M:%S")
+    st.session_state.logs.append(f"[{timestamp}] {message}")
+def clear_logs():
+    """Clear all logs"""
+    st.session_state.logs = []
+def update_progress_callback(current, total):
+    """Progress callback for test runner"""
+    # Progress is handled by st.progress in Streamlit
+    pass
+# Title
+st.title("🔬 Prompt A/B Tester")
+st.markdown("**Testuj i porównuj wydajność dwóch wersji promptów OpenAI GPT**")
+# Sidebar - Configuration
+with st.sidebar:
+    st.header("⚙️ Konfiguracja")
+    # API Key
+    st.subheader("🔑 Klucz API OpenAI")
+    # Check if API key is in secrets (Hugging Face deployment)
+    api_key_from_secrets = None
+    try:
+        if hasattr(st, 'secrets') and 'OPENAI_API_KEY' in st.secrets:
+            api_key_from_secrets = st.secrets['OPENAI_API_KEY']
+            st.success("✅ Klucz API załadowany z Secrets")
+    except:
+        pass
+    if not api_key_from_secrets:
+        api_key_input = st.text_input(
+            "Klucz API",
+            type="password",
+            value=config.get("api_key", ""),
+            help="Wprowadź swój klucz API OpenAI"
+        )
+        if st.button("💾 Zapisz i Waliduj API Key"):
+            if api_key_input:
+                api_handler.set_api_key(api_key_input)
+                config.set_api_key(api_key_input)
+                success, message = api_handler.validate_api_key()
+                if success:
+                    st.success(f"✅ {message}")
+                else:
+                    st.error(f"❌ {message}")
+            else:
+                st.warning("⚠️ Klucz API nie może być pusty")
+    st.divider()
+    # Model and Parameters
+    st.subheader("🤖 Model i Parametry")
+    # Refresh models
+    if st.button("🔄 Odśwież modele"):
+        models = api_handler.get_available_models()
+        st.success(f"Znaleziono {len(models)} modeli")
+    models = api_handler.get_available_models()
+    model = st.selectbox(
+        "Model",
+        options=models,
+        index=models.index(config.get("model", "gpt-4o")) if config.get("model", "gpt-4o") in models else 0
+    )
+    temperature = st.slider(
+        "Temperature",
+        min_value=0.0,
+        max_value=2.0,
+        value=config.get("temperature", 0.1),
+        step=0.1,
+        help="0.0 = deterministyczne, 2.0 = kreatywne"
+    )
+    max_tokens = st.number_input(
+        "Max Tokens",
+        min_value=100,
+        max_value=4000,
+        value=config.get("max_tokens", 2000),
+        step=100
+    )
+    num_responses = st.number_input(
+        "Liczba odpowiedzi (na prompt)",
+        min_value=1,
+        max_value=50,
+        value=config.get("num_responses", 5),
+        step=1,
+        help="Ile odpowiedzi wygenerować dla każdego promptu"
+    )
+    # Save settings
+    if st.button("💾 Zapisz ustawienia"):
+        settings = {
+            "model": model,
+            "temperature": temperature,
+            "max_tokens": max_tokens,
+            "num_responses": num_responses
+        }
+        config.update_settings(settings)
+        st.success("✅ Ustawienia zapisane")
+    # Cost estimation
+    if st.button("💰 Szacuj koszt"):
+        total_responses = num_responses * 2
+        cost = api_handler.estimate_cost(model, total_responses)
+        st.info(f"**Szacunkowy koszt:**\n\n"
+                f"Model: {model}\n\n"
+                f"Odpowiedzi: {total_responses}\n\n"
+                f"Koszt: ${cost:.4f} USD")
+# Main tabs
+tab1, tab2, tab3, tab4 = st.tabs(["🚀 Test", "⭐ Ocenianie", "📊 Wyniki", "📋 Logi"])
+# Tab 1: Test
+with tab1:
+    st.header("🚀 Przeprowadź Test A/B")
+    # Input method selection
+    input_method = st.radio(
+        "Metoda wprowadzania promptów:",
+        options=["📁 Upload plików", "✏️ Wklej tekst"],
+        horizontal=True
+    )
+    prompt_a = None
+    prompt_b = None
+    if input_method == "📁 Upload plików":
+        col1, col2 = st.columns(2)
+        with col1:
+            st.subheader("Prompt A")
+            file_a = st.file_uploader(
+                "Wybierz plik dla Promptu A",
+                type=['md', 'txt'],
+                key="file_a"
+            )
+            if file_a:
+                prompt_a = file_a.read().decode('utf-8')
+                st.success(f"✅ Wczytano {len(prompt_a)} znaków")
+        with col2:
+            st.subheader("Prompt B")
+            file_b = st.file_uploader(
+                "Wybierz plik dla Promptu B",
+                type=['md', 'txt'],
+                key="file_b"
+            )
+            if file_b:
+                prompt_b = file_b.read().decode('utf-8')
+                st.success(f"✅ Wczytano {len(prompt_b)} znaków")
+    else:  # Wklej tekst
+        col1, col2 = st.columns(2)
+        with col1:
+            st.subheader("Prompt A")
+            prompt_a = st.text_area(
+                "Wklej treść Promptu A",
+                height=300,
+                key="text_a"
+            )
+        with col2:
+            st.subheader("Prompt B")
+            prompt_b = st.text_area(
+                "Wklej treść Promptu B",
+                height=300,
+                key="text_b"
+            )
+    # Test controls
+    st.divider()
+    col1, col2, col3 = st.columns([1, 1, 3])
+    with col1:
+        run_button = st.button(
+            "🚀 Uruchom Test",
+            type="primary",
+            disabled=st.session_state.test_running,
+            use_container_width=True
+        )
+    with col2:
+        if st.button("🗑️ Wyczyść", use_container_width=True):
+            st.session_state.responses = []
+            st.session_state.results = None
+            st.session_state.rated_responses = []
+            clear_logs()
+            st.rerun()
+    # Run test
+    if run_button:
+        # Validation
+        if not config.get_api_key():
+            st.error("❌ Najpierw ustaw klucz API w panelu bocznym")
+        elif not prompt_a or not prompt_b:
+            st.error("❌ Oba prompty muszą być wypełnione")
+        else:
+            clear_logs()
+            log_message("🚀 Rozpoczynanie testu A/B")
+            log_message(f"Model: {model}, Temperature: {temperature}, Max tokens: {max_tokens}")
+            log_message(f"Liczba odpowiedzi na prompt: {num_responses}")
+            # Progress tracking
+            progress_bar = st.progress(0)
+            status_text = st.empty()
+            total_iterations = num_responses * 2
+            current = 0
+            st.session_state.test_running = True
+            # Generate responses for Prompt A
+            log_message("🔄 Generowanie odpowiedzi dla PROMPTU A...")
+            for i in range(num_responses):
+                current += 1
+                progress_bar.progress(current / total_iterations)
+                status_text.text(f"Generowanie: {current}/{total_iterations} (A-{i+1})")
+                response = api_handler.generate_response(
+                    prompt_a, model, temperature, max_tokens
+                )
+                st.session_state.responses.append({
+                    'Option': 'A',
+                    'Response_ID': i + 1,
+                    'Response': response,
+                    'Score': None
+                })
+                if response.startswith("ERROR"):
+                    log_message(f"   A-{i+1}/{num_responses}... ❌ {response}")
+                else:
+                    log_message(f"   A-{i+1}/{num_responses}... ✅ ({len(response)} znaków)")
+                time.sleep(0.5)
+            # Generate responses for Prompt B
+            log_message("\n🔄 Generowanie odpowiedzi dla PROMPTU B...")
+            for i in range(num_responses):
+                current += 1
+                progress_bar.progress(current / total_iterations)
+                status_text.text(f"Generowanie: {current}/{total_iterations} (B-{i+1})")
+                response = api_handler.generate_response(
+                    prompt_b, model, temperature, max_tokens
+                )
+                st.session_state.responses.append({
+                    'Option': 'B',
+                    'Response_ID': i + 1,
+                    'Response': response,
+                    'Score': None
+                })
+                if response.startswith("ERROR"):
+                    log_message(f"   B-{i+1}/{num_responses}... ❌ {response}")
+                else:
+                    log_message(f"   B-{i+1}/{num_responses}... ✅ ({len(response)} znaków)")
+                time.sleep(0.5)
+            progress_bar.progress(1.0)
+            status_text.text("✅ Zakończono!")
+            log_message(f"\n✅ GENEROWANIE ZAKOŃCZONE - wygenerowano {len(st.session_state.responses)} odpowiedzi")
+            st.session_state.test_running = False
+            st.success("🎉 Test zakończony! Przejdź do zakładki '⭐ Ocenianie'")
+# Tab 2: Rating
+with tab2:
+    st.header("⭐ Oceń Odpowiedzi")
+    if not st.session_state.responses:
+        st.info("ℹ️ Najpierw uruchom test w zakładce '🚀 Test'")
+    else:
+        st.markdown("**Oceń każdą odpowiedź w skali 1-5:**")
+        st.markdown("1 = Bardzo słaba | 2 = Słaba | 3 = Średnia | 4 = Dobra | 5 = Bardzo dobra")
+        st.divider()
+        # Display responses for rating
+        for idx, resp in enumerate(st.session_state.responses):
+            with st.container():
+                col1, col2 = st.columns([4, 1])
+                with col1:
+                    option_label = f"{resp['Option']}-{resp['Response_ID']}"
+                    st.subheader(f"Option: {option_label}")
+                    st.text_area(
+                        "Odpowiedź:",
+                        value=resp['Response'],
+                        height=150,
+                        key=f"response_display_{idx}",
+                        disabled=True
+                    )
+                with col2:
+                    st.markdown("**Ocena**")
+                    score = st.number_input(
+                        "Ocena (1-5)",
+                        min_value=1,
+                        max_value=5,
+                        value=resp.get('Score', 3),
+                        step=1,
+                        key=f"score_{idx}",
+                        label_visibility="collapsed"
+                    )
+                    st.session_state.responses[idx]['Score'] = score
+                st.divider()
+        # Calculate results button
+        if st.button("📊 Oblicz Wyniki", type="primary", use_container_width=True):
+            st.session_state.rated_responses = st.session_state.responses.copy()
+            st.session_state.results = test_runner.calculate_results(st.session_state.rated_responses)
+            st.success("✅ Wyniki obliczone! Przejdź do zakładki '📊 Wyniki'")
+            st.rerun()
+# Tab 3: Results
+with tab3:
+    st.header("📊 Wyniki Testu A/B")
+    if not st.session_state.results:
+        st.info("ℹ️ Najpierw oceń odpowiedzi i kliknij 'Oblicz Wyniki' w zakładce '⭐ Ocenianie'")
+    else:
+        results = st.session_state.results
+        # Results table
+        st.subheader("Podsumowanie")
+        col1, col2, col3, col4, col5 = st.columns(5)
+        with col1:
+            st.metric("Option", "A")
+        with col2:
+            st.metric("Count", results['A']['count'])
+        with col3:
+            st.metric("Score", f"{results['A']['score']:.2f}")
+        with col4:
+            st.metric("Min", results['A']['min'])
+        with col5:
+            st.metric("Max", results['A']['max'])
+        col1, col2, col3, col4, col5 = st.columns(5)
+        with col1:
+            st.metric("Option", "B")
+        with col2:
+            st.metric("Count", results['B']['count'])
+        with col3:
+            st.metric("Score", f"{results['B']['score']:.2f}")
+        with col4:
+            st.metric("Min", results['B']['min'])
+        with col5:
+            st.metric("Max", results['B']['max'])
+        st.divider()
+        # Winner
+        if results['A']['score'] > results['B']['score']:
+            winner = 'A'
+            diff = results['A']['score'] - results['B']['score']
+            st.success(f"🏆 **ZWYCIĘZCA: Prompt {winner}**\n\nPrzewaga: +{diff:.2f} punktu")
+        elif results['B']['score'] > results['A']['score']:
+            winner = 'B'
+            diff = results['B']['score'] - results['A']['score']
+            st.success(f"🏆 **ZWYCIĘZCA: Prompt {winner}**\n\nPrzewaga: +{diff:.2f} punktu")
+        else:
+            st.info("🤝 **REMIS**\n\nObie opcje uzyskały identyczny wynik")
+        st.divider()
+        # Export to CSV
+        settings = {
+            "model": config.get("model"),
+            "temperature": config.get("temperature"),
+            "max_tokens": config.get("max_tokens"),
+            "num_responses": config.get("num_responses")
+        }
+        csv_buffer = test_runner.export_to_csv(
+            st.session_state.rated_responses,
+            results,
+            settings
+        )
+        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
+        filename = f"prompt_ab_test_{timestamp}.csv"
+        st.download_button(
+            label="💾 Pobierz wyniki (CSV)",
+            data=csv_buffer,
+            file_name=filename,
+            mime="text/csv",
+            use_container_width=True
+        )
+# Tab 4: Logs
+with tab4:
+    st.header("📋 Logi Testów")
+    if st.button("🗑️ Wyczyść logi"):
+        clear_logs()
+        st.rerun()
+    if st.session_state.logs:
+        log_text = "\n".join(st.session_state.logs)
+        st.text_area(
+            "Logi:",
+            value=log_text,
+            height=500,
+            disabled=True,
+            label_visibility="collapsed"
+        )
+    else:
+        st.info("ℹ️ Brak logów do wyświetlenia")
+# Footer
+st.divider()
+st.markdown(
+    """
+    <div style='text-align: center; color: gray; font-size: 0.9em;'>
+    Prompt A/B Tester v2.0 (Streamlit) | Created by Heuristica.pl - Marek Staniszewski
+    </div>
+    """,
+    unsafe_allow_html=True
+)