beermen commited on
Commit
00255d1
·
verified ·
1 Parent(s): 4060a6b

Upload README.md

Browse files
Files changed (1) hide show
  1. README.md +116 -0
README.md ADDED
@@ -0,0 +1,116 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ title: SAP KB Artikel Chunker (Bulk)
3
+ emoji: 📑
4
+ colorFrom: blue
5
+ colorTo: green
6
+ sdk: streamlit
7
+ sdk_version: 1.31.0
8
+ app_file: app.py
9
+ pinned: false
10
+ license: mit
11
+ ---
12
+
13
+ # 📑 SAP KB Artikel Chunker (Bulk-Version)
14
+
15
+ Eine spezialisierte Streamlit-App zur **Bulk-Verarbeitung** von **SAP Knowledge Base Artikeln** in semantische Chunks.
16
+
17
+ ## 🎯 Hauptfunktionen
18
+
19
+ ### ✨ Neu: Bulk-Verarbeitung
20
+ - **Mehrere PDFs gleichzeitig** hochladen und verarbeiten
21
+ - **Separate ZIP-Datei pro PDF** mit allen Chunks
22
+ - **Master-ZIP** mit allen einzelnen ZIPs (optional)
23
+ - **Automatische Quellen-Zuweisung**: `Note:{Dateiname}` (ohne .pdf)
24
+
25
+ ### Unterstützte Sektionen
26
+
27
+ - **📋 METADATA_SUMMARY** - Grundinformationen (Note ID, Component, Version, Release Date)
28
+ - **🔍 SYMPTOM_SCENARIO** - Problembeschreibung & Reproduktionsszenario
29
+ - **💡 CAUSE_PREREQUISITES** - Ursache des Problems & Voraussetzungen
30
+ - **✅ SOLUTION_PATCH** - Lösung, Workaround oder Patch-Information
31
+ - **🏷️ AFFECTED_VERSIONS** - Betroffene SAP Business One Versionen & Komponenten
32
+
33
+ ### Output-Format
34
+
35
+ Jeder Chunk folgt diesem Format:
36
+
37
+ ```
38
+ [Note {ID} - {Titel}] - Sektion [{SECTION_TYPE}]: {Inhalt}
39
+ ```
40
+
41
+ **Beispiel:**
42
+ ```
43
+ [Note 3570629 - Resource allocation misalignment...] - Sektion [METADATA_SUMMARY]: This note documents...
44
+ ```
45
+
46
+ ## 📂 Ausgabe-Struktur
47
+
48
+ ### Für jedes PDF:
49
+ ```
50
+ 3570629_chunks.zip
51
+ ├── chunk_1_METADATA_SUMMARY.txt
52
+ ├── chunk_2_SYMPTOM_SCENARIO_1.txt
53
+ ├── chunk_3_SYMPTOM_SCENARIO_2.txt
54
+ ├── chunk_4_CAUSE_PREREQUISITES.txt
55
+ ├── chunk_5_SOLUTION_PATCH.txt
56
+ └── chunk_6_AFFECTED_VERSIONS.txt
57
+ ```
58
+
59
+ Jede Textdatei enthält:
60
+ ```
61
+ Quelle: Note:3570629
62
+ SAP KB Note: 3570629
63
+ Sektion: METADATA_SUMMARY
64
+
65
+ [Note 3570629 - ...] - Sektion [METADATA_SUMMARY]: ...
66
+ ```
67
+
68
+ ## 🚀 Verwendung
69
+
70
+ 1. **PDFs hochladen** - Ein oder mehrere SAP KB Artikel-PDFs
71
+ 2. **Übersicht prüfen** - Liste der hochgeladenen Dateien mit automatischen Quellen
72
+ 3. **"Alle Artikel verarbeiten"** klicken
73
+ 4. **ZIP-Dateien herunterladen** - Einzeln oder als Master-ZIP
74
+
75
+ ## 📋 Features
76
+
77
+ ✅ **Bulk-Verarbeitung** - Mehrere PDFs gleichzeitig
78
+ ✅ **Automatische Chunk-Aufteilung** - Max. 1000 Zeichen pro Chunk
79
+ ✅ **Separate ZIPs** - Eine ZIP pro PDF
80
+ ✅ **Intelligente Quellen** - Automatisch `Note:{Dateiname}`
81
+ ✅ **Fehlerbehandlung** - Überspringt fehlerhafte PDFs
82
+ ✅ **Progress-Tracking** - Fortschrittsanzeige während Verarbeitung
83
+ ✅ **Übersichtstabelle** - Zusammenfassung aller verarbeiteten PDFs
84
+
85
+ ## 📝 Beispiel-Workflow
86
+
87
+ ```
88
+ 1. 10 SAP KB Artikel-PDFs hochladen
89
+ → 3570629.pdf, 3570630.pdf, ..., 3570638.pdf
90
+
91
+ 2. Automatische Verarbeitung
92
+ → Jede PDF wird einzeln analysiert
93
+ → Chunks werden erstellt und aufgeteilt
94
+ → 10 separate ZIP-Dateien werden generiert
95
+
96
+ 3. Download
97
+ → Einzeln: 3570629_chunks.zip, 3570630_chunks.zip, ...
98
+ → Oder Master-ZIP: sap_kb_all_chunks.zip (enthält alle 10 ZIPs)
99
+ ```
100
+
101
+ ## 🔄 Changelog v2.0
102
+
103
+ - ✨ **NEU:** Bulk-Verarbeitung mehrerer PDFs
104
+ - ✨ **NEU:** Separate ZIP pro PDF
105
+ - ✨ **NEU:** Master-ZIP Option
106
+ - ✨ **NEU:** Automatische Quelle: `Note:{Dateiname}`
107
+ - ✅ **Beibehalten:** 1000-Zeichen-Limit pro Chunk
108
+ - ✅ **Beibehalten:** 5 semantische Sektionen
109
+
110
+ ## 📚 Lizenz
111
+
112
+ MIT License
113
+
114
+ ## 👨‍💻 Entwickelt für
115
+
116
+ SAP Business One Consultants, Support-Teams und Entwickler, die mit mehreren SAP Knowledge Base Artikeln arbeiten.