Spaces:
Sleeping
Sleeping
| title: SAP KB Artikel Chunker (Bulk) | |
| emoji: 📑 | |
| colorFrom: blue | |
| colorTo: green | |
| sdk: streamlit | |
| sdk_version: 1.31.0 | |
| app_file: app.py | |
| pinned: false | |
| license: mit | |
| # 📑 SAP KB Artikel Chunker (Bulk-Version) | |
| Eine spezialisierte Streamlit-App zur **Bulk-Verarbeitung** von **SAP Knowledge Base Artikeln** in semantische Chunks. | |
| ## 🎯 Hauptfunktionen | |
| ### ✨ Neu: Bulk-Verarbeitung | |
| - **Mehrere PDFs gleichzeitig** hochladen und verarbeiten | |
| - **Separate ZIP-Datei pro PDF** mit allen Chunks | |
| - **Master-ZIP** mit allen einzelnen ZIPs (optional) | |
| - **Automatische Quellen-Zuweisung**: `Note:{Dateiname}` (ohne .pdf) | |
| ### Unterstützte Sektionen | |
| - **📋 METADATA_SUMMARY** - Grundinformationen (Note ID, Component, Version, Release Date) | |
| - **🔍 SYMPTOM_SCENARIO** - Problembeschreibung & Reproduktionsszenario | |
| - **💡 CAUSE_PREREQUISITES** - Ursache des Problems & Voraussetzungen | |
| - **✅ SOLUTION_PATCH** - Lösung, Workaround oder Patch-Information | |
| - **🏷️ AFFECTED_VERSIONS** - Betroffene SAP Business One Versionen & Komponenten | |
| ### Output-Format | |
| Jeder Chunk folgt diesem Format: | |
| ``` | |
| [Note {ID} - {Titel}] - Sektion [{SECTION_TYPE}]: {Inhalt} | |
| ``` | |
| **Beispiel:** | |
| ``` | |
| [Note 3570629 - Resource allocation misalignment...] - Sektion [METADATA_SUMMARY]: This note documents... | |
| ``` | |
| ## 📂 Ausgabe-Struktur | |
| ### Für jedes PDF: | |
| ``` | |
| 3570629_chunks.zip | |
| ├── chunk_1_METADATA_SUMMARY.txt | |
| ├── chunk_2_SYMPTOM_SCENARIO_1.txt | |
| ├── chunk_3_SYMPTOM_SCENARIO_2.txt | |
| ├── chunk_4_CAUSE_PREREQUISITES.txt | |
| ├── chunk_5_SOLUTION_PATCH.txt | |
| └── chunk_6_AFFECTED_VERSIONS.txt | |
| ``` | |
| Jede Textdatei enthält: | |
| ``` | |
| Quelle: Note:3570629 | |
| SAP KB Note: 3570629 | |
| Sektion: METADATA_SUMMARY | |
| [Note 3570629 - ...] - Sektion [METADATA_SUMMARY]: ... | |
| ``` | |
| ## 🚀 Verwendung | |
| 1. **PDFs hochladen** - Ein oder mehrere SAP KB Artikel-PDFs | |
| 2. **Übersicht prüfen** - Liste der hochgeladenen Dateien mit automatischen Quellen | |
| 3. **"Alle Artikel verarbeiten"** klicken | |
| 4. **ZIP-Dateien herunterladen** - Einzeln oder als Master-ZIP | |
| ## 📋 Features | |
| ✅ **Bulk-Verarbeitung** - Mehrere PDFs gleichzeitig | |
| ✅ **Automatische Chunk-Aufteilung** - Max. 1000 Zeichen pro Chunk | |
| ✅ **Separate ZIPs** - Eine ZIP pro PDF | |
| ✅ **Intelligente Quellen** - Automatisch `Note:{Dateiname}` | |
| ✅ **Fehlerbehandlung** - Überspringt fehlerhafte PDFs | |
| ✅ **Progress-Tracking** - Fortschrittsanzeige während Verarbeitung | |
| ✅ **Übersichtstabelle** - Zusammenfassung aller verarbeiteten PDFs | |
| ## 📝 Beispiel-Workflow | |
| ``` | |
| 1. 10 SAP KB Artikel-PDFs hochladen | |
| → 3570629.pdf, 3570630.pdf, ..., 3570638.pdf | |
| 2. Automatische Verarbeitung | |
| → Jede PDF wird einzeln analysiert | |
| → Chunks werden erstellt und aufgeteilt | |
| → 10 separate ZIP-Dateien werden generiert | |
| 3. Download | |
| → Einzeln: 3570629_chunks.zip, 3570630_chunks.zip, ... | |
| → Oder Master-ZIP: sap_kb_all_chunks.zip (enthält alle 10 ZIPs) | |
| ``` | |
| ## 🔄 Changelog v2.0 | |
| - ✨ **NEU:** Bulk-Verarbeitung mehrerer PDFs | |
| - ✨ **NEU:** Separate ZIP pro PDF | |
| - ✨ **NEU:** Master-ZIP Option | |
| - ✨ **NEU:** Automatische Quelle: `Note:{Dateiname}` | |
| - ✅ **Beibehalten:** 1000-Zeichen-Limit pro Chunk | |
| - ✅ **Beibehalten:** 5 semantische Sektionen | |
| ## 📚 Lizenz | |
| MIT License | |
| ## 👨💻 Entwickelt für | |
| SAP Business One Consultants, Support-Teams und Entwickler, die mit mehreren SAP Knowledge Base Artikeln arbeiten. | |