Spaces:

satware
/

Ollama-Test

Sleeping

App Files Files Community

Hwandji commited on Sep 30, 2025

Commit

e0e1626

1 Parent(s): 8186494

adaptation for huggingface.

Browse files

Files changed (1) hide show

app.py +38 -144

app.py CHANGED Viewed

@@ -17,18 +17,7 @@ class HuggingFaceInferenceBenchmark:
             "distilgpt2",                    # 82M - Optimiert
             "microsoft/DialoGPT-medium",     # 345M - Mittlere Größe
             "google/flan-t5-small",          # 80M - Instruction-tuned
-            "google/flan-t5-base",           # 250M - Bessere Performance
         ]
-        # Model-Informationen für bessere Vergleiche
-        self.model_info = {
-            "distilgpt2": {"size": "82M", "type": "GPT-2 optimiert", "speed": "Sehr schnell"},
-            "gpt2": {"size": "124M", "type": "GPT-2 Standard", "speed": "Schnell"},
-            "microsoft/DialoGPT-small": {"size": "117M", "type": "Dialog-optimiert", "speed": "Schnell"},
-            "microsoft/DialoGPT-medium": {"size": "345M", "type": "Dialog-optimiert", "speed": "Mittel"},
-            "google/flan-t5-small": {"size": "80M", "type": "Instruction-tuned", "speed": "Sehr schnell"},
-            "google/flan-t5-base": {"size": "250M", "type": "Instruction-tuned", "speed": "Mittel"},
-        }
     def test_agent_response(self, prompt, model_name, agent_role="General"):
         """HuggingFace Inference API Test"""
@@ -50,11 +39,9 @@ class HuggingFaceInferenceBenchmark:
             response = self.client.text_generation(
                 prompt=final_prompt,
                 model=model_name,
-                max_new_tokens=150,          # Optimiert für Vergleichbarkeit
                 temperature=0.7,
-                top_p=0.9,
-                do_sample=True,
-                return_full_text=False,      # Nur neue Tokens zurückgeben
             )
             end_time = time.time()
@@ -67,26 +54,20 @@ class HuggingFaceInferenceBenchmark:
                 "response": response_text,
                 "time": f"{response_time:.2f}s",
                 "model": model_name,
-                "agent_role": agent_role,
                 "tokens": len(response_text.split()),
-                "status": "✅ Success (HuggingFace Inference API)",
-                "environment": "☁️ HuggingFace Cloud Inference",
-                "model_info": self.model_info.get(model_name, {"size": "Unknown", "type": "Unknown", "speed": "Unknown"})
             }
         except Exception as e:
             end_time = time.time()
-            response_time = end_time - start_time
             return {
-                "status": f"❌ API Error: {str(e)[:60]}...",
-                "time": f"{response_time:.2f}s",
-                "environment": "☁️ HuggingFace Cloud Inference",
-                "error_details": str(e) if len(str(e)) < 200 else str(e)[:200] + "..."
             }
 # Global benchmark instance
-print("☁️ Initializing HuggingFace Inference API Benchmark...")
 benchmark = HuggingFaceInferenceBenchmark()
 def run_cloud_benchmark(prompt, selected_models, agent_role):
@@ -99,7 +80,7 @@ def run_cloud_benchmark(prompt, selected_models, agent_role):
     results = []
     results.append("# ☁️ SAAP Cloud Performance Benchmark")
-    results.append("**Platform:** HuggingFace Inference API | **Environment:** Cloud GPU Cluster")
     results.append(f"**🤖 Agent Role:** {agent_role}")
     results.append(f"**📝 Test Prompt:** {prompt}")
     results.append(f"**🔧 Models:** {', '.join(selected_models)}")
@@ -112,27 +93,18 @@ def run_cloud_benchmark(prompt, selected_models, agent_role):
     for model_name in selected_models:
         result = benchmark.test_agent_response(prompt, model_name, agent_role)
-        model_info = result.get('model_info', {})
-        results.append(f"## ☁️ {model_name.upper()}")
         results.append(f"**Status:** {result.get('status', '❌ Error')}")
         results.append(f"**Response Time:** {result.get('time', 'N/A')}")
-        results.append(f"**Model Size:** {model_info.get('size', 'Unknown')}")
-        results.append(f"**Model Type:** {model_info.get('type', 'Unknown')}")
-        results.append(f"**Expected Speed:** {model_info.get('speed', 'Unknown')}")
-        results.append(f"**Environment:** {result.get('environment', '☁️ HuggingFace')}")
         results.append(f"**Tokens Generated:** {result.get('tokens', 0)}")
         if 'response' in result and result['response']:
-            preview = result['response'][:120].replace('\n', ' ')
             results.append(f"**Response Preview:** {preview}...")
-        if 'error_details' in result:
-            results.append(f"**Debug Info:** {result['error_details']}")
         results.append("---")
-        # Statistics
         if result.get('status', '').startswith('✅'):
             successful_tests += 1
             try:
@@ -147,83 +119,34 @@ def run_cloud_benchmark(prompt, selected_models, agent_role):
         results.append(f"## 📊 Cloud Performance Summary")
         results.append(f"**Average Response Time:** {avg_time:.2f}s")
         results.append(f"**Successful Tests:** {successful_tests}/{len(selected_models)}")
-        results.append(f"**Infrastructure:** ☁️ HuggingFace Inference API (Managed GPU Cluster)")
-        # SAAP Cloud Assessment
-        if avg_time < 2.0:
-            results.append(f"**☁️ Cloud Rating:** 🚀 Exzellent - Übertrifft lokale Hardware deutlich")
-        elif avg_time < 5.0:
-            results.append(f"**☁️ Cloud Rating:** ⚡ Sehr gut - Konkurrenzfähig mit lokaler Hardware")
-        elif avg_time < 10.0:
-            results.append(f"**☁️ Cloud Rating:** ✅ Gut - Ähnlich wie lokale Performance")
-        elif avg_time < 20.0:
-            results.append(f"**☁️ Cloud Rating:** ⚠️ Akzeptabel - Lokale Hardware möglicherweise besser")
-        else:
-            results.append(f"**☁️ Cloud Rating:** 🐌 Langsam - On-Premise deutlich überlegen")
-        # Thesis Integration - Direkter Vergleich mit deinen lokalen Daten
-        results.append(f"\n## 🆚 **SAAP Thesis: Cloud vs. On-Premise Benchmark**")
-        results.append(f"\n### 🏠 **On-Premise (Deine CachyOS Daten):**")
-        results.append(f"- **qwen2:1.5b:** 25.94s (1.5B Parameter)")
-        results.append(f"- **tinyllama:** 17.96s (1B Parameter)")
-        results.append(f"- **Hardware:** Intel i7-5600U, 16GB RAM, keine GPU")
-        results.append(f"- **Kosten:** 0€ pro Request ✅")
-        results.append(f"- **DSGVO:** 100% konform, keine Datenübertragung ✅")
-        results.append(f"- **Verfügbarkeit:** Offline-fähig ✅")
-        results.append(f"- **Kontrolle:** Vollständige Datenkontrolle ✅")
-        results.append(f"\n### ☁️ **Cloud (HuggingFace Inference API):**")
-        results.append(f"- **Average Response Time:** {avg_time:.2f}s")
-        results.append(f"- **Hardware:** GPU-Cluster, optimierte Infrastruktur")
-        results.append(f"- **Kosten:** API-Gebühren pro Request 💰")
-        results.append(f"- **DSGVO:** Abhängig von Anbieter, Datenübertragung ⚠️")
-        results.append(f"- **Verfügbarkeit:** Internetverbindung erforderlich ❌")
-        results.append(f"- **Kontrolle:** Limitierte Kontrolle über Verarbeitung ⚠️")
-        # Dynamisches Fazit basierend auf Performance
-        performance_ratio = avg_time / 21.95  # Average deiner lokalen Tests
-        results.append(f"\n### 🎓 **SAAP Thesis-Fazit:**")
-        if performance_ratio < 0.3:  # Cloud >3x schneller
-            results.append(f"**Performance-Vorteil Cloud:** ☁️ {1/performance_ratio:.1f}x schneller als On-Premise")
-            results.append(f"**Empfehlung:** Cloud für Performance-kritische Anwendungen, On-Premise für Datenschutz")
-        elif performance_ratio < 0.7:  # Cloud schneller
-            results.append(f"**Performance-Vorteil Cloud:** ☁️ {1/performance_ratio:.1f}x schneller als On-Premise")
-            results.append(f"**Empfehlung:** Balanced Approach - je nach Priorität Performance vs. Datenschutz")
-        elif performance_ratio < 1.3:  # Ähnliche Performance
-            results.append(f"**Performance:** Ähnlich (Cloud {performance_ratio:.1f}x vs. On-Premise)")
-            results.append(f"**Empfehlung:** 🏠 On-Premise vorzuziehen - gleiche Performance + besserer Datenschutz + keine Kosten")
-        else:  # On-Premise schneller
-            results.append(f"**Performance-Vorteil On-Premise:** 🏠 {performance_ratio:.1f}x schneller als Cloud")
-            results.append(f"**Empfehlung:** 🏠 On-Premise deutlich überlegen - bessere Performance + Datenschutz + Kosteneffizienz")
-        results.append(f"\n**🎯 SAAP Multi-Agent Platform Strategie:**")
-        results.append(f"- **Entwicklung/Prototyping:** ☁️ Cloud für Flexibilität")
-        results.append(f"- **Produktion (DSGVO-kritisch):** 🏠 On-Premise für Compliance")
-        results.append(f"- **Hybrid-Ansatz:** Kritische Agenten On-Premise, Skalierung Cloud")
-    else:
-        results.append(f"## ❌ Cloud Performance Issues")
-        results.append(f"**Problem:** Keine erfolgreichen Tests")
-        results.append(f"**Mögliche Ursachen:** API-Limits, Model-Verfügbarkeit, Netzwerk")
-        results.append(f"\n**🎓 Thesis-Implikation:** On-Premise bietet höhere Zuverlässigkeit")
     return "\n".join(results)
 # Gradio Interface
 with gr.Blocks(title="SAAP Cloud Benchmark", theme=gr.themes.Soft()) as demo:
     gr.Markdown("# ☁️ SAAP Cloud Performance Benchmark")
-    gr.Markdown("**Master Thesis:** Hanan Wandji Danga | **HuggingFace Inference API** | **Cloud vs. On-Premise Vergleich**")
     with gr.Row():
         with gr.Column(scale=2):
             prompt_input = gr.Textbox(
                 label="SAAP Test Prompt",
-                placeholder="Test-Prompt für Agent Performance-Vergleich...",
                 lines=3,
-                value="Erkläre die Vorteile einer On-Premise Multi-Agent-Plattform gegenüber Cloud-Lösungen."
             )
             agent_role = gr.Dropdown(
@@ -235,7 +158,7 @@ with gr.Blocks(title="SAAP Cloud Benchmark", theme=gr.themes.Soft()) as demo:
         with gr.Column(scale=1):
             model_selection = gr.CheckboxGroup(
                 choices=benchmark.available_models,
-                label="Cloud Models to Benchmark",
                 value=["distilgpt2", "gpt2"]
             )
@@ -244,58 +167,29 @@ with gr.Blocks(title="SAAP Cloud Benchmark", theme=gr.themes.Soft()) as demo:
     # Results
     results_output = gr.Markdown(label="Cloud Benchmark Results")
-    # Event handler
     benchmark_btn.click(
         run_cloud_benchmark,
         inputs=[prompt_input, model_selection, agent_role],
         outputs=results_output
     )
-    # Enhanced System Info
-    with gr.Accordion("🎓 SAAP Thesis: Cloud vs. On-Premise Analyse", open=False):
         gr.Markdown("""
-        ### 📊 Benchmark-Strategie für Master-Thesis
-        #### 🏠 On-Premise Baseline (Ihre CachyOS Daten):
-        - **qwen2:1.5b:** 25.94s | **tinyllama:** 17.96s
-        - **Hardware:** Intel i7-5600U, 16GB RAM, keine GPU
-        - **Durchschnitt:** ~22s für komplexe Multi-Agent Prompts
-        #### ☁️ Cloud Vergleich (Diese App):
-        - **Direkte HuggingFace Inference API Calls**
-        - **GPU-optimierte Inferenz auf professioneller Cloud-Infrastruktur**
-        - **Verschiedene Model-Größen für faire Vergleiche**
-        ### 🎯 Thesis-Relevante Metriken:
-        1. **Performance-Ratio:** Cloud-Zeit vs. On-Premise-Zeit
-        2. **Kosteneffizienz:** 0€ (On-Premise) vs. API-Kosten (Cloud)
-        3. **DSGVO-Compliance:** 100% (On-Premise) vs. Abhängig (Cloud)
-        4. **Verfügbarkeit:** Offline (On-Premise) vs. Online-abhängig (Cloud)
-        5. **Kontrolle:** Vollständig (On-Premise) vs. Limitiert (Cloud)
-        ### 🚀 Für SAAP Multi-Agent Platform:
-        **On-Premise Ideal für:**
-        - 🏥 Krankenhäuser (Patientendaten)
-        - 🏛️ Behörden (Bürgerdaten)
-        - 🏦 Finanzsektor (Transaktionsdaten)
-        - 🏭 Industrie 4.0 (Betriebsgeheimnisse)
-        **Cloud Geeignet für:**
-        - 🔬 Prototyping und Entwicklung
-        - 📈 Variable Workloads
-        - 🌐 Globale Skalierung
-        - ⚡ Performance-kritische Anwendungen
-        ### 📈 Erwartete Thesis-Ergebnisse:
-        - **Cloud:** Möglicherweise 2-10x schneller (GPU-Vorteil)
-        - **On-Premise:** Kosteneffizienter bei hohem Durchsatz
-        - **Hybrid-Ansatz:** Optimale Lösung für SAAP-Platform
-        ---
-        **🔬 Dual-Benchmark Setup:**
-        - **Lokale App:** http://127.0.0.1:7860 (On-Premise Daten sammeln)
-        - **Cloud App:** Diese HuggingFace Space (Cloud-Performance testen)
         """)
 if __name__ == "__main__":

             "distilgpt2",                    # 82M - Optimiert
             "microsoft/DialoGPT-medium",     # 345M - Mittlere Größe
             "google/flan-t5-small",          # 80M - Instruction-tuned
         ]
     def test_agent_response(self, prompt, model_name, agent_role="General"):
         """HuggingFace Inference API Test"""
             response = self.client.text_generation(
                 prompt=final_prompt,
                 model=model_name,
+                max_new_tokens=100,
                 temperature=0.7,
+                return_full_text=False,
             )
             end_time = time.time()
                 "response": response_text,
                 "time": f"{response_time:.2f}s",
                 "model": model_name,
                 "tokens": len(response_text.split()),
+                "status": "✅ Success (HuggingFace Cloud)",
+                "environment": "☁️ HuggingFace Inference API"
             }
         except Exception as e:
             end_time = time.time()
             return {
+                "status": f"❌ API Error: {str(e)[:50]}...",
+                "time": f"{end_time - start_time:.2f}s",
+                "environment": "☁️ HuggingFace Inference API"
             }
 # Global benchmark instance
 benchmark = HuggingFaceInferenceBenchmark()
 def run_cloud_benchmark(prompt, selected_models, agent_role):
     results = []
     results.append("# ☁️ SAAP Cloud Performance Benchmark")
+    results.append("**Platform:** HuggingFace Inference API | **Environment:** Cloud GPU")
     results.append(f"**🤖 Agent Role:** {agent_role}")
     results.append(f"**📝 Test Prompt:** {prompt}")
     results.append(f"**🔧 Models:** {', '.join(selected_models)}")
     for model_name in selected_models:
         result = benchmark.test_agent_response(prompt, model_name, agent_role)
+        results.append(f"## ☁️ {model_name}")
         results.append(f"**Status:** {result.get('status', '❌ Error')}")
         results.append(f"**Response Time:** {result.get('time', 'N/A')}")
+        results.append(f"**Environment:** {result.get('environment', 'Unknown')}")
         results.append(f"**Tokens Generated:** {result.get('tokens', 0)}")
         if 'response' in result and result['response']:
+            preview = result['response'][:100].replace('\n', ' ')
             results.append(f"**Response Preview:** {preview}...")
         results.append("---")
         if result.get('status', '').startswith('✅'):
             successful_tests += 1
             try:
         results.append(f"## 📊 Cloud Performance Summary")
         results.append(f"**Average Response Time:** {avg_time:.2f}s")
         results.append(f"**Successful Tests:** {successful_tests}/{len(selected_models)}")
+        # Vergleich mit deinen lokalen Daten
+        results.append(f"\n## 🆚 On-Premise vs. Cloud Vergleich")
+        results.append(f"**🏠 On-Premise (CachyOS):** 17-25s (deine Baseline)")
+        results.append(f"**☁️ Cloud (HuggingFace):** {avg_time:.2f}s")
+        performance_ratio = avg_time / 21.5  # Deine durchschnittliche lokale Zeit
+        if performance_ratio < 0.5:
+            results.append(f"**🎓 Thesis-Fazit:** ☁️ Cloud deutlich schneller ({1/performance_ratio:.1f}x)")
+        elif performance_ratio < 1.0:
+            results.append(f"**🎓 Thesis-Fazit:** ☁️ Cloud schneller, On-Premise konkurrenzfähig")
+        else:
+            results.append(f"**🎓 Thesis-Fazit:** 🏠 On-Premise überlegen + Datenschutz-Vorteil")
     return "\n".join(results)
 # Gradio Interface
 with gr.Blocks(title="SAAP Cloud Benchmark", theme=gr.themes.Soft()) as demo:
     gr.Markdown("# ☁️ SAAP Cloud Performance Benchmark")
+    gr.Markdown("**HuggingFace Inference API** | **Cloud vs. On-Premise Vergleich**")
     with gr.Row():
         with gr.Column(scale=2):
             prompt_input = gr.Textbox(
                 label="SAAP Test Prompt",
                 lines=3,
+                value="Erkläre die Vorteile einer On-Premise Multi-Agent-Plattform."
             )
             agent_role = gr.Dropdown(
         with gr.Column(scale=1):
             model_selection = gr.CheckboxGroup(
                 choices=benchmark.available_models,
+                label="☁️ Cloud Models",
                 value=["distilgpt2", "gpt2"]
             )
     # Results
     results_output = gr.Markdown(label="Cloud Benchmark Results")
     benchmark_btn.click(
         run_cloud_benchmark,
         inputs=[prompt_input, model_selection, agent_role],
         outputs=results_output
     )
+    with gr.Accordion("🎓 SAAP Thesis: Cloud vs. On-Premise", open=False):
         gr.Markdown("""
+        ### 📊 Benchmark-Strategie
+        **🏠 On-Premise Baseline:**
+        - qwen2:1.5b: 25.94s | tinyllama: 17.96s
+        - Hardware: Intel i7-5600U, 16GB RAM
+        - Kosten: 0€ pro Request ✅
+        - DSGVO: 100% konform ✅
+        **☁️ Cloud Vergleich:**
+        - HuggingFace Inference API
+        - GPU-optimierte Cloud-Infrastruktur
+        - API-Kosten pro Request 💰
+        - Internetabhängig ❌
+        **Lokale App:** http://127.0.0.1:7860
         """)
 if __name__ == "__main__":