Spaces:

UWV
/

leesplank-noot

Sleeping

yhavinga Claude commited on Nov 19, 2025

Commit

014cf4a

0 Parent(s):

Initial Leesplank Noot demo implementation

- Gradio interface for Dutch text simplification
- Support for three models: Granite-3.3-2b, Llama-3.2-3b, EuroLLM-1.7b
- Lazy model loading with caching for efficient memory usage
- Performance metrics display (tokens/sec, timing)
- Bilingual Dutch/English interface
- 4 example texts for quick testing
- Optimized for HuggingFace Spaces deployment

🤖 Generated with Claude Code

Co-Authored-By: Claude <noreply@anthropic.com>

Files changed (4) hide show

.gitignore +54 -0
README.md +55 -0
app.py +235 -0
requirements.txt +5 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,54 @@

+# Python
+__pycache__/
+*.py[cod]
+*$py.class
+*.so
+.Python
+env/
+venv/
+ENV/
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+MANIFEST
+# PyCharm
+.idea/
+# VSCode
+.vscode/
+# Jupyter
+.ipynb_checkpoints
+# macOS
+.DS_Store
+# Model cache
+*.pt
+*.bin
+*.safetensors
+models/
+# Gradio
+flagged/
+gradio_cached_examples/
+# Environment variables
+.env
+.env.local
+# Logs
+*.log

README.md ADDED Viewed

	@@ -0,0 +1,55 @@

+---
+title: Leesplank Noot - Dutch Text Simplification Demo
+emoji: 📝
+colorFrom: blue
+colorTo: green
+sdk: gradio
+sdk_version: 4.44.0
+app_file: app.py
+pinned: false
+models:
+  - UWV/leesplank-noot-granite-3.3-2b
+  - UWV/leesplank-noot-llama-3.2-3b
+  - UWV/leesplank-noot-eurollm-1.7b
+---
+# Leesplank Noot - Dutch Text Simplification Demo
+Interactive demo for Dutch text simplification models that convert complex text to B1 reading level.
+## Models
+This demo showcases three fine-tuned models:
+| Model | SARI Score | Speed (tokens/s) | Parameters |
+|-------|------------|------------------|------------|
+| **Granite-3.3-2b** | 67.80 ±0.22 | 9.53 | 2B |
+| **Llama-3.2-3b** | 67.50 ±0.50 | 15.91 | 3B |
+| **EuroLLM-1.7b** | 66.44 ±0.32 | 27.50 | 1.7B |
+## Features
+- **Model Selection**: Choose between three specialized models
+- **Real-time Simplification**: Instant text simplification
+- **Example Texts**: Pre-loaded Dutch examples
+- **Performance Metrics**: Token count and generation speed
+- **Bilingual Interface**: Dutch and English instructions
+## Usage
+1. Select a model from the dropdown
+2. Enter Dutch text to simplify
+3. Click "Vereenvoudig / Simplify"
+4. View the simplified result
+## About
+These models were developed by UWV to make government communication more accessible to citizens with reading difficulties. They are trained on 1.89M Dutch Wikipedia simplifications and achieve B1-level output.
+## License
+Apache 2.0
+## Contact
+Maintainer: UWV Innovatie Hub - innovatie@uwv.nl

app.py ADDED Viewed

	@@ -0,0 +1,235 @@

+import gradio as gr
+import torch
+from transformers import pipeline
+import time
+from typing import Dict, Optional
+# Model configurations
+MODELS = {
+    "Granite-3.3-2b (Highest Quality)": "UWV/leesplank-noot-granite-3.3-2b",
+    "Llama-3.2-3b (Balanced)": "UWV/leesplank-noot-llama-3.2-3b",
+    "EuroLLM-1.7b (Fastest)": "UWV/leesplank-noot-eurollm-1.7b"
+}
+# System prompt for Llama and Granite models
+SYSTEM_PROMPT = """Je bent een AI-assistent die Nederlandse teksten vereenvoudigt naar een helder, toegankelijk niveau voor iedereen, vergelijkbaar met de heldere taal die het Jeugdjournaal gebruikt. Behoud de betekenis en belangrijke informatie, maar gebruik eenvoudigere woorden en kortere zinnen. Schrijf niet kinderlijk, maar wel toegankelijk."""
+# Example texts
+EXAMPLES = [
+    "Een pekdruppelexperiment is een langetermijnexperiment dat het vloeien van een stuk pek meet over vele jaren. Pek is een verzamelnaam voor een aantal vloeistoffen met een zeer hoge viscositeit, zoals teer en bitumen, die er bij kamertemperatuur uitzien als een vaste stof, maar in feite zeer dik vloeibaar zijn en uiteindelijk druppels vormen.",
+    "De kwantummechanica is een natuurkundige theorie die het gedrag beschrijft van materie en energie op de schaal van atomen en subatomaire deeltjes. In tegenstelling tot de klassieke mechanica, waar objecten een bepaalde positie en snelheid hebben, beschrijft de kwantummechanica deeltjes met waarschijnlijkheidsgolven.",
+    "Fotosynthese is het biologische proces waarbij planten, algen en sommige bacteriën lichtenergie omzetten in chemische energie. Dit gebeurt in de chloroplasten, waar chlorofyl zonlicht absorbeert en gebruikt om koolstofdioxide en water om te zetten in glucose en zuurstof.",
+    "Een algoritme is een eindige reeks goed gedefinieerde instructies om een bepaald probleem op te lossen of een berekening uit te voeren. In de informatica worden algoritmes gebruikt als specificaties voor het uitvoeren van berekeningen, gegevensverwerking, geautomatiseerd redeneren en andere taken."
+]
+# Global model cache
+MODEL_CACHE: Dict[str, Optional[pipeline]] = {}
+current_model_name = None
+def clear_gpu_memory():
+    """Clear GPU memory when switching models"""
+    if torch.cuda.is_available():
+        torch.cuda.empty_cache()
+    import gc
+    gc.collect()
+def load_model(model_display_name: str):
+    """Load model with caching to avoid reloading"""
+    global current_model_name
+    model_path = MODELS[model_display_name]
+    # If model already cached, return it
+    if model_path in MODEL_CACHE and MODEL_CACHE[model_path] is not None:
+        current_model_name = model_path
+        return MODEL_CACHE[model_path]
+    # Clear previous model if different
+    if current_model_name and current_model_name != model_path:
+        if current_model_name in MODEL_CACHE:
+            del MODEL_CACHE[current_model_name]
+            MODEL_CACHE[current_model_name] = None
+        clear_gpu_memory()
+    # Load new model
+    try:
+        model = pipeline(
+            "text-generation",
+            model=model_path,
+            torch_dtype="auto",
+            device_map="auto"
+        )
+        MODEL_CACHE[model_path] = model
+        current_model_name = model_path
+        return model
+    except Exception as e:
+        raise gr.Error(f"Failed to load model: {str(e)}")
+def simplify_text(text: str, model_name: str, show_metrics: bool = True):
+    """Simplify Dutch text using selected model"""
+    if not text.strip():
+        return "Voer tekst in om te vereenvoudigen / Enter text to simplify", ""
+    # Load model
+    status = f"Model laden / Loading model: {model_name}..."
+    yield status, ""
+    model = load_model(model_name)
+    model_path = MODELS[model_name]
+    # Format prompt based on model
+    if "eurollm" in model_path.lower():
+        # EuroLLM performs better without system prompt
+        messages = [{
+            "role": "user",
+            "content": f"Vereenvoudig: {text}"
+        }]
+    else:
+        # Llama and Granite use system prompt
+        messages = [
+            {"role": "system", "content": SYSTEM_PROMPT},
+            {"role": "user", "content": f"Vereenvoudig: {text}"}
+        ]
+    # Generate with timing
+    status = "Tekst vereenvoudigen / Simplifying text..."
+    yield status, ""
+    start_time = time.time()
+    try:
+        output = model(
+            messages,
+            max_new_tokens=256,
+            return_full_text=False,
+            do_sample=False,  # Greedy decoding for consistency
+            pad_token_id=model.tokenizer.eos_token_id,
+            eos_token_id=model.tokenizer.eos_token_id
+        )
+        generation_time = time.time() - start_time
+        simplified = output[0]["generated_text"].strip()
+        # Calculate metrics
+        if show_metrics:
+            input_tokens = len(model.tokenizer.encode(text))
+            output_tokens = len(model.tokenizer.encode(simplified))
+            tokens_per_sec = output_tokens / generation_time if generation_time > 0 else 0
+            metrics = f"""
+**Prestaties / Performance:**
+- Model: {model_name}
+- Invoer tokens / Input tokens: {input_tokens}
+- Uitvoer tokens / Output tokens: {output_tokens}
+- Tijd / Time: {generation_time:.2f}s
+- Snelheid / Speed: {tokens_per_sec:.2f} tokens/s
+"""
+        else:
+            metrics = ""
+        return simplified, metrics
+    except Exception as e:
+        raise gr.Error(f"Fout bij vereenvoudigen / Error simplifying: {str(e)}")
+def create_interface():
+    """Create Gradio interface"""
+    with gr.Blocks(title="Leesplank Noot - Dutch Text Simplification") as demo:
+        gr.Markdown("""
+        # 📝 Leesplank Noot - Nederlandse Tekstvereenvoudiging / Dutch Text Simplification
+        Vereenvoudig Nederlandse teksten naar B1-niveau voor betere toegankelijkheid.
+        *Simplify Dutch texts to B1 level for better accessibility.*
+        ---
+        """)
+        with gr.Row():
+            with gr.Column(scale=1):
+                model_dropdown = gr.Dropdown(
+                    choices=list(MODELS.keys()),
+                    value="Granite-3.3-2b (Highest Quality)",
+                    label="Kies model / Choose model",
+                    info="Selecteer het model voor vereenvoudiging / Select simplification model"
+                )
+                show_metrics = gr.Checkbox(
+                    value=True,
+                    label="Toon prestaties / Show performance metrics"
+                )
+        with gr.Row():
+            with gr.Column(scale=1):
+                input_text = gr.Textbox(
+                    label="Originele tekst / Original text",
+                    placeholder="Voer hier de te vereenvoudigen tekst in...\nEnter text to simplify here...",
+                    lines=10
+                )
+                simplify_btn = gr.Button(
+                    "🔄 Vereenvoudig / Simplify",
+                    variant="primary",
+                    scale=1
+                )
+            with gr.Column(scale=1):
+                output_text = gr.Textbox(
+                    label="Vereenvoudigde tekst / Simplified text",
+                    lines=10,
+                    interactive=False
+                )
+                metrics_display = gr.Markdown(
+                    label="Metrics",
+                    visible=True
+                )
+        with gr.Row():
+            gr.Examples(
+                examples=EXAMPLES,
+                inputs=input_text,
+                label="Voorbeelden / Examples"
+            )
+        with gr.Accordion("ℹ️ Over deze demo / About this demo", open=False):
+            gr.Markdown("""
+            Deze demo toont drie Nederlandse tekstvereenvoudigingsmodellen ontwikkeld door UWV:
+            - **Granite-3.3-2b**: Hoogste kwaliteit (SARI 67.80)
+            - **Llama-3.2-3b**: Gebalanceerde prestaties
+            - **EuroLLM-1.7b**: Snelste model (27.5 tokens/s)
+            Alle modellen zijn getraind op 1.89M Nederlandse Wikipedia-vereenvoudigingen en produceren tekst op B1-niveau.
+            *This demo showcases three Dutch text simplification models developed by UWV, trained on 1.89M Dutch Wikipedia simplifications to produce B1-level text.*
+            **Contact**: innovatie@uwv.nl
+            """)
+        # Event handlers
+        simplify_btn.click(
+            fn=simplify_text,
+            inputs=[input_text, model_dropdown, show_metrics],
+            outputs=[output_text, metrics_display]
+        )
+        # Also trigger on Enter in input field
+        input_text.submit(
+            fn=simplify_text,
+            inputs=[input_text, model_dropdown, show_metrics],
+            outputs=[output_text, metrics_display]
+        )
+    return demo
+# Initialize and launch
+if __name__ == "__main__":
+    demo = create_interface()
+    demo.queue(max_size=10)
+    demo.launch(
+        server_name="0.0.0.0",
+        server_port=7860,
+        share=False
+    )

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+gradio==4.44.0
+transformers==4.45.0
+torch==2.1.0
+accelerate==0.25.0
+sentencepiece==0.2.0