Spaces:
Paused
Paused
Update app.py
Browse files
app.py
CHANGED
|
@@ -303,52 +303,78 @@ with gr.Blocks(css=custom_css, title="Daten Strukturieren und Analysieren") as d
|
|
| 303 |
<h1>Daten Strukturieren und Analysieren</h1>
|
| 304 |
<p style="font-size: 1.1rem; margin-top: -10px;">Dies ist eine Demoversion für die Extrahierung und Visualisierung von Daten</p>
|
| 305 |
</div>
|
| 306 |
-
<
|
| 307 |
|
| 308 |
-
<
|
|
|
|
|
|
|
|
|
|
|
|
|
| 309 |
|
| 310 |
-
<
|
| 311 |
-
|
| 312 |
-
|
| 313 |
-
|
| 314 |
-
|
| 315 |
-
|
| 316 |
-
|
| 317 |
-
|
| 318 |
-
|
| 319 |
-
|
| 320 |
-
|
| 321 |
-
|
| 322 |
-
<
|
| 323 |
-
|
| 324 |
-
|
| 325 |
-
|
| 326 |
-
|
| 327 |
-
|
| 328 |
-
|
| 329 |
-
|
| 330 |
-
|
| 331 |
-
</
|
| 332 |
-
|
| 333 |
-
<
|
| 334 |
-
|
| 335 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 336 |
|
| 337 |
-
<
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 338 |
### Template:
|
| 339 |
{"earthquake location": "", "dateline location": ""}
|
| 340 |
### Text:
|
| 341 |
Neues Erdbeben in Japan. Aus Tokio wird berichtet, daß in Yokohama bei einem Erdbeben sechs Personen getötet...
|
| 342 |
<|output|></code></pre>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 343 |
|
| 344 |
-
<
|
|
|
|
|
|
|
| 345 |
|
| 346 |
-
<
|
| 347 |
-
<li><strong>Tokenisierung</strong>: Der Text wird in bearbeitbare Einheiten zerlegt.</li>
|
| 348 |
-
<li><strong>Kontextuelle Analyse</strong>: Der Transformer-Mechanismus ermöglicht die Analyse von Beziehungen zwischen allen Textteilen gleichzeitig.</li>
|
| 349 |
-
<li><strong>Selektive Aufmerksamkeit</strong>: Das Modell fokussiert sich auf Textpassagen, die Antworten auf die impliziten Fragen enthalten könnten.</li>
|
| 350 |
-
<li><strong>Generierung</strong>: Die erkannten Informationen werden in das vorgegebene Template eingefügt.</li>
|
| 351 |
-
</ol>
|
| 352 |
""")
|
| 353 |
|
| 354 |
with gr.Tabs() as tabs:
|
|
|
|
| 303 |
<h1>Daten Strukturieren und Analysieren</h1>
|
| 304 |
<p style="font-size: 1.1rem; margin-top: -10px;">Dies ist eine Demoversion für die Extrahierung und Visualisierung von Daten</p>
|
| 305 |
</div>
|
| 306 |
+
<div style="font-family: 'Source Sans Pro', sans-serif; max-width: 800px; margin: 0 auto; color: #333; line-height: 1.6;">
|
| 307 |
|
| 308 |
+
<p style="font-size: 1.2rem; margin-bottom: 1.5rem; color: #2c3e50; font-weight: 400;">
|
| 309 |
+
In dieser Unterrichtseinheit befassen wir uns mit einer Methode zur Strukturierung unstrukturierter historischer Texte.
|
| 310 |
+
Im Kern verbindet unsere Anwendung die systematische Strukturierung von Daten mit einem spezialisierten Sprachmodell,
|
| 311 |
+
das auf der Question-Answering-Methode basiert.
|
| 312 |
+
</p>
|
| 313 |
|
| 314 |
+
<div style="background: #f8f9fa; padding: 1.5rem; border-radius: 8px; margin-bottom: 2rem; border-left: 4px solid #3498db;">
|
| 315 |
+
<h3 style="margin-top: 0; color: #2c3e50; border-bottom: 1px solid #eee; padding-bottom: 0.5rem;">
|
| 316 |
+
Methodik: Vom unstrukturierten Text zur strukturierten Information
|
| 317 |
+
</h3>
|
| 318 |
+
|
| 319 |
+
<p style="margin-bottom: 1.5rem;">
|
| 320 |
+
Die grundlegende Herausforderung bei der Arbeit mit historischen Quellen ist, dass relevante Informationen in langen
|
| 321 |
+
Fließtexten eingebettet sind und manuell mühsam extrahiert werden müssen. Unser Ansatz automatisiert diesen Prozess.
|
| 322 |
+
</p>
|
| 323 |
+
|
| 324 |
+
<h4 style="color: #2980b9; margin-top: 1.5rem;">Wie funktioniert die Informationsextraktion?</h4>
|
| 325 |
+
|
| 326 |
+
<ol style="padding-left: 1.5rem;">
|
| 327 |
+
<li style="margin-bottom: 1rem;">
|
| 328 |
+
<strong style="color: #2c3e50;">Template-Definition</strong>: Sie definieren ein JSON-Template mit den Informationstypen, die Sie extrahieren möchten:
|
| 329 |
+
<pre style="background: #f5f5f5; padding: 1rem; border-radius: 4px; overflow-x: auto; margin: 0.5rem 0 1rem;"><code>{"earthquake location": "", "dateline location": ""}</code></pre>
|
| 330 |
+
</li>
|
| 331 |
+
|
| 332 |
+
<li style="margin-bottom: 1rem;">
|
| 333 |
+
<strong style="color: #2c3e50;">Question-Answering-Methode</strong>: Das Sprachmodell interpretiert jedes leere Feld als implizite Frage:
|
| 334 |
+
<ul style="margin-top: 0.5rem; padding-left: 1.5rem;">
|
| 335 |
+
<li><code style="background: #f0f0f0; padding: 0.2rem 0.4rem; border-radius: 3px;">"earthquake location": ""</code> → "Wo ist das Erdbeben passiert?"</li>
|
| 336 |
+
<li><code style="background: #f0f0f0; padding: 0.2rem 0.4rem; border-radius: 3px;">"dateline location": ""</code> → "Von wo wird berichtet?"</li>
|
| 337 |
+
</ul>
|
| 338 |
+
</li>
|
| 339 |
+
|
| 340 |
+
<li style="margin-bottom: 1rem;">
|
| 341 |
+
<strong style="color: #2c3e50;">Sprachmodell-Verarbeitung</strong>: Das NuExtract-1.5 Modell (ein Sequence-to-Sequence Transformer) analysiert den Text vollständig und identifiziert die relevanten Informationen für jedes Template-Feld.
|
| 342 |
+
</li>
|
| 343 |
+
|
| 344 |
+
<li style="margin-bottom: 1rem;">
|
| 345 |
+
<strong style="color: #2c3e50;">Strukturierte Ausgabe</strong>: Das Modell füllt das Template mit den extrahierten Informationen:
|
| 346 |
+
<pre style="background: #f5f5f5; padding: 1rem; border-radius: 4px; overflow-x: auto; margin: 0.5rem 0 1rem;"><code>{"earthquake location": "Japan, Yokohama", "dateline location": "Tokio"}</code></pre>
|
| 347 |
+
</li>
|
| 348 |
+
</ol>
|
| 349 |
+
</div>
|
| 350 |
|
| 351 |
+
<div style="background: #f8f9fa; padding: 1.5rem; border-radius: 8px; border-left: 4px solid #9b59b6;">
|
| 352 |
+
<h4 style="color: #2980b9; margin-top: 0;">Technische Funktionsweise des Sprachmodells</h4>
|
| 353 |
+
|
| 354 |
+
<p>Das Modell verarbeitet den Input in diesem Format:</p>
|
| 355 |
+
|
| 356 |
+
<pre style="background: #f5f5f5; padding: 1rem; border-radius: 4px; overflow-x: auto;"><code><|input|>
|
| 357 |
### Template:
|
| 358 |
{"earthquake location": "", "dateline location": ""}
|
| 359 |
### Text:
|
| 360 |
Neues Erdbeben in Japan. Aus Tokio wird berichtet, daß in Yokohama bei einem Erdbeben sechs Personen getötet...
|
| 361 |
<|output|></code></pre>
|
| 362 |
+
|
| 363 |
+
<p style="margin-top: 1.5rem;">Intern erfolgt die Verarbeitung in mehreren Schritten:</p>
|
| 364 |
+
|
| 365 |
+
<ol style="padding-left: 1.5rem;">
|
| 366 |
+
<li style="margin-bottom: 0.5rem;"><strong style="color: #2c3e50;">Tokenisierung</strong>: Der Text wird in bearbeitbare Einheiten zerlegt.</li>
|
| 367 |
+
<li style="margin-bottom: 0.5rem;"><strong style="color: #2c3e50;">Kontextuelle Analyse</strong>: Der Transformer-Mechanismus ermöglicht die Analyse von Beziehungen zwischen allen Textteilen gleichzeitig.</li>
|
| 368 |
+
<li style="margin-bottom: 0.5rem;"><strong style="color: #2c3e50;">Selektive Aufmerksamkeit</strong>: Das Modell fokussiert sich auf Textpassagen, die Antworten auf die impliziten Fragen enthalten könnten.</li>
|
| 369 |
+
<li style="margin-bottom: 0.5rem;"><strong style="color: #2c3e50;">Generierung</strong>: Die erkannten Informationen werden in das vorgegebene Template eingefügt.</li>
|
| 370 |
+
</ol>
|
| 371 |
+
</div>
|
| 372 |
|
| 373 |
+
<div style="margin-top: 2rem; padding: 1rem; background: #e8f4fd; border-radius: 8px; text-align: center; font-size: 0.9rem;">
|
| 374 |
+
<p style="margin: 0;">Diese Methode ermöglicht die effiziente Extraktion historischer Daten aus unstrukturierten Quellen.</p>
|
| 375 |
+
</div>
|
| 376 |
|
| 377 |
+
</div>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 378 |
""")
|
| 379 |
|
| 380 |
with gr.Tabs() as tabs:
|