--- title: SAP KB Artikel Chunker (Bulk) emoji: 📑 colorFrom: blue colorTo: green sdk: streamlit sdk_version: 1.31.0 app_file: app.py pinned: false license: mit --- # 📑 SAP KB Artikel Chunker (Bulk-Version) Eine spezialisierte Streamlit-App zur **Bulk-Verarbeitung** von **SAP Knowledge Base Artikeln** in semantische Chunks. ## 🎯 Hauptfunktionen ### ✨ Neu: Bulk-Verarbeitung - **Mehrere PDFs gleichzeitig** hochladen und verarbeiten - **Separate ZIP-Datei pro PDF** mit allen Chunks - **Master-ZIP** mit allen einzelnen ZIPs (optional) - **Automatische Quellen-Zuweisung**: `Note:{Dateiname}` (ohne .pdf) ### Unterstützte Sektionen - **📋 METADATA_SUMMARY** - Grundinformationen (Note ID, Component, Version, Release Date) - **🔍 SYMPTOM_SCENARIO** - Problembeschreibung & Reproduktionsszenario - **💡 CAUSE_PREREQUISITES** - Ursache des Problems & Voraussetzungen - **✅ SOLUTION_PATCH** - Lösung, Workaround oder Patch-Information - **🏷️ AFFECTED_VERSIONS** - Betroffene SAP Business One Versionen & Komponenten ### Output-Format Jeder Chunk folgt diesem Format: ``` [Note {ID} - {Titel}] - Sektion [{SECTION_TYPE}]: {Inhalt} ``` **Beispiel:** ``` [Note 3570629 - Resource allocation misalignment...] - Sektion [METADATA_SUMMARY]: This note documents... ``` ## 📂 Ausgabe-Struktur ### Für jedes PDF: ``` 3570629_chunks.zip ├── chunk_1_METADATA_SUMMARY.txt ├── chunk_2_SYMPTOM_SCENARIO_1.txt ├── chunk_3_SYMPTOM_SCENARIO_2.txt ├── chunk_4_CAUSE_PREREQUISITES.txt ├── chunk_5_SOLUTION_PATCH.txt └── chunk_6_AFFECTED_VERSIONS.txt ``` Jede Textdatei enthält: ``` Quelle: Note:3570629 SAP KB Note: 3570629 Sektion: METADATA_SUMMARY [Note 3570629 - ...] - Sektion [METADATA_SUMMARY]: ... ``` ## 🚀 Verwendung 1. **PDFs hochladen** - Ein oder mehrere SAP KB Artikel-PDFs 2. **Übersicht prüfen** - Liste der hochgeladenen Dateien mit automatischen Quellen 3. **"Alle Artikel verarbeiten"** klicken 4. **ZIP-Dateien herunterladen** - Einzeln oder als Master-ZIP ## 📋 Features ✅ **Bulk-Verarbeitung** - Mehrere PDFs gleichzeitig ✅ **Automatische Chunk-Aufteilung** - Max. 1000 Zeichen pro Chunk ✅ **Separate ZIPs** - Eine ZIP pro PDF ✅ **Intelligente Quellen** - Automatisch `Note:{Dateiname}` ✅ **Fehlerbehandlung** - Überspringt fehlerhafte PDFs ✅ **Progress-Tracking** - Fortschrittsanzeige während Verarbeitung ✅ **Übersichtstabelle** - Zusammenfassung aller verarbeiteten PDFs ## 📝 Beispiel-Workflow ``` 1. 10 SAP KB Artikel-PDFs hochladen → 3570629.pdf, 3570630.pdf, ..., 3570638.pdf 2. Automatische Verarbeitung → Jede PDF wird einzeln analysiert → Chunks werden erstellt und aufgeteilt → 10 separate ZIP-Dateien werden generiert 3. Download → Einzeln: 3570629_chunks.zip, 3570630_chunks.zip, ... → Oder Master-ZIP: sap_kb_all_chunks.zip (enthält alle 10 ZIPs) ``` ## 🔄 Changelog v2.0 - ✨ **NEU:** Bulk-Verarbeitung mehrerer PDFs - ✨ **NEU:** Separate ZIP pro PDF - ✨ **NEU:** Master-ZIP Option - ✨ **NEU:** Automatische Quelle: `Note:{Dateiname}` - ✅ **Beibehalten:** 1000-Zeichen-Limit pro Chunk - ✅ **Beibehalten:** 5 semantische Sektionen ## 📚 Lizenz MIT License ## 👨‍💻 Entwickelt für SAP Business One Consultants, Support-Teams und Entwickler, die mit mehreren SAP Knowledge Base Artikeln arbeiten.