Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

BENCHMARKS.md +202 -0
README.md +7 -0
app.py +265 -0
requirements.txt +5 -0
src/__pycache__/analyzer.cpython-313.pyc +0 -0
src/__pycache__/splitter.cpython-313.pyc +0 -0
src/splitter.py +5 -2

BENCHMARKS.md ADDED Viewed

	@@ -0,0 +1,202 @@

+# Tokenizer Comparison: Panini vs SOTA Models
+**Comprehensive benchmark of Panini Tokenizer against state-of-the-art multilingual and Indic tokenizers on complex Sanskrit philosophical compounds.**
+---
+## Summary Table
+### Complex Philosophical Compounds
+| # | Input | Panini | Sanskrit-BERT | MuRIL | Ansh-256k | Qwen2 |
+|---|-------|:------:|:-------------:|:-----:|:---------:|:-----:|
+| 1 | `nirapekzajYAnasAkzAtkArasAmarthyam` | **6** | 14 | 18 | 15 | 25 |
+| 2 | `tadekaniScitArthavyavasthApanam` | **6** | 8 | 13 | 12 | 18 |
+| 3 | `svaprakASatvaparaprakASavyavacCedaH` | **7** | 12 | 15 | 16 | 22 |
+| 4 | `sarvathAsaMbandhAbhAvopapAdanam` | **7** | 8 | 15 | 14 | 21 |
+| 5 | `paryAlocanIyamAnapramANasApekzatA` | **6** | 12 | 17 | 16 | 21 |
+| 6 | `upalabhyamAnAbhAvapratiyogitvam` | **7** | 6 | 14 | 14 | 20 |
+| 7 | `svAtantryAbhAvasamucchinnakartRtvanirAsaH` | **8** | 14 | 19 | 17 | 25 |
+| 8 | `anyonyahetukabhAvAnavasTAprasaNgaH` | **9** | 10 | 16 | 14 | 24 |
+| 9 | `parasparApekzApratiyogitvanirUpaNam` | **8** | 11 | 16 | 14 | 21 |
+| 10 | `svAtmaparAtmavivekAvadhAraNam` | **8** | 11 | 16 | 12 | 21 |
+### Simple Sentences (Extreme Compression)
+| # | Input | Panini | Sanskrit-BERT | MuRIL | Ansh-256k | Qwen2 |
+|---|-------|:------:|:-------------:|:-----:|:---------:|:-----:|
+| 11 | `rAmo gacCati` | **2** | 5 | 7 | 6 | 8 |
+| 12 | `dharme kzetre kurukzetre` (Gita 1.1) | **3** | 8 | 9 | 11 | 15 |
+**Average tokens (compounds):** Panini: **7.2** | Sanskrit-BERT: 10.6 | MuRIL: 15.9 | Ansh-256k: 14.4 | Qwen2: 21.8
+---
+## Detailed Breakdowns
+### 1. Independent-knowledge-direct-realization-capacity
+**Input:** `nirapekzajYAnasAkzAtkArasAmarthyam`
+| Tokenizer | Count | Tokens |
+|-----------|:-----:|--------|
+| **Panini** | **6** | `▁nirapekza` \| `jYAna` \| `sAkzAtkAra` \| `sAman` \| `arthy` \| `am` |
+| Sanskrit-BERT | 14 | `nirape` \| `##k` \| `##z` \| `##a` \| `##jya` \| `##nas` \| `##a` \| `##k` \| `##z` \| `##at` \| `##kara` \| `##sama` \| `##rt` \| `##hyam` |
+| MuRIL | 18 | `ni` \| `##rape` \| `##k` \| `##za` \| `##j` \| `##YA` \| `##nas` \| `##A` \| `##k` \| `##z` \| `##A` \| `##t` \| `##k` \| `##A` \| `##ras` \| ... |
+| Ansh-256k | 15 | `nir` \| `apek` \| `zaj` \| `Y` \| `An` \| `as` \| `Ak` \| `z` \| `At` \| `k` \| `Ar` \| `as` \| `Amar` \| `th` \| `yam` |
+| Qwen2 | 25 | `▁n` \| `ir` \| `ap` \| `ek` \| `z` \| `a` \| `j` \| `Y` \| `A` \| `n` \| `as` \| `A` \| `k` \| `z` \| `A` \| ... |
+---
+### 2. That-single-determined-meaning-establishment
+**Input:** `tadekaniScitArthavyavasthApanam`
+| Tokenizer | Count | Tokens |
+|-----------|:-----:|--------|
+| **Panini** | **6** | `▁tad` \| `eka` \| `niScitArtha` \| `vyavasthA` \| `pan` \| `am` |
+| Sanskrit-BERT | 8 | `tade` \| `##kan` \| `##is` \| `##cita` \| `##rtha` \| `##vyava` \| `##stha` \| `##panam` |
+| MuRIL | 13 | `ta` \| `##de` \| `##kani` \| `##S` \| `##cit` \| `##A` \| `##rtha` \| `##vya` \| `##vas` \| `##th` \| `##A` \| `##pana` \| `##m` |
+| Ansh-256k | 12 | `tad` \| `ek` \| `ani` \| `Sc` \| `it` \| `Ar` \| `th` \| `avy` \| `avas` \| `th` \| `Apan` \| `am` |
+| Qwen2 | 18 | `▁tad` \| `ek` \| `ani` \| `S` \| `c` \| `it` \| `A` \| `r` \| `th` \| `av` \| `y` \| `av` \| `ast` \| `h` \| `A` \| ... |
+---
+### 3. Self-luminosity-other-luminosity-exclusion
+**Input:** `svaprakASatvaparaprakASavyavacCedaH`
+| Tokenizer | Count | Tokens |
+|-----------|:-----:|--------|
+| **Panini** | **7** | `▁svaprakASatva` \| `para` \| `prakAS` \| `avy` \| `ava` \| `cCed` \| `aH` |
+| Sanskrit-BERT | 12 | `svap` \| `##raka` \| `##sat` \| `##vap` \| `##ar` \| `##ap` \| `##raka` \| `##sa` \| `##vyava` \| `##cc` \| `##eda` \| `##h` |
+| MuRIL | 15 | `sv` \| `##ap` \| `##rak` \| `##AS` \| `##atva` \| `##para` \| `##pra` \| `##k` \| `##AS` \| `##avya` \| `##va` \| `##c` \| `##C` \| `##eda` \| `##H` |
+| Ansh-256k | 16 | `sv` \| `ap` \| `rak` \| `AS` \| `at` \| `v` \| `apar` \| `ap` \| `rak` \| `AS` \| `avy` \| `av` \| `ac` \| `C` \| `eda` \| `H` |
+| Qwen2 | 22 | `▁s` \| `v` \| `ap` \| `ra` \| `k` \| `AS` \| `at` \| `v` \| `ap` \| `ara` \| `p` \| `ra` \| `k` \| `AS` \| `av` \| ... |
+---
+### 4. Complete-relation-absence-demonstration
+**Input:** `sarvathAsaMbandhAbhAvopapAdanam`
+| Tokenizer | Count | Tokens |
+|-----------|:-----:|--------|
+| **Panini** | **7** | `▁sarvathA` \| `saMbandhA` \| `bhA` \| `vopa` \| `Apan` \| `dan` \| `am` |
+| Sanskrit-BERT | 8 | `sarvatha` \| `##sam` \| `##bandha` \| `##bha` \| `##vo` \| `##pa` \| `##pada` \| `##nam` |
+| MuRIL | 15 | `sarvat` \| `##h` \| `##As` \| `##a` \| `##M` \| `##bandh` \| `##A` \| `##bh` \| `##A` \| `##vo` \| `##pa` \| `##p` \| `##A` \| `##dana` \| `##m` |
+| Ansh-256k | 14 | `sar` \| `v` \| `ath` \| `Asa` \| `M` \| `band` \| `h` \| `Abh` \| `Av` \| `op` \| `ap` \| `A` \| `dan` \| `am` |
+| Qwen2 | 21 | `▁s` \| `ar` \| `v` \| `ath` \| `A` \| `s` \| `a` \| `M` \| `band` \| `h` \| `A` \| `b` \| `h` \| `A` \| `v` \| ... |
+---
+### 5. Being-considered-evidence-dependence
+**Input:** `paryAlocanIyamAnapramANasApekzatA`
+| Tokenizer | Count | Tokens |
+|-----------|:-----:|--------|
+| **Panini** | **6** | `▁paryAloc` \| `anI` \| `yam` \| `Ana` \| `pramANa` \| `sApekza` |
+| Sanskrit-BERT | 12 | `parya` \| `##lo` \| `##can` \| `##iya` \| `##mana` \| `##pram` \| `##an` \| `##asa` \| `##pe` \| `##k` \| `##z` \| `##ata` |
+| MuRIL | 17 | `par` \| `##y` \| `##A` \| `##loc` \| `##an` \| `##I` \| `##yam` \| `##A` \| `##nap` \| `##ram` \| `##AN` \| `##as` \| `##A` \| `##pe` \| `##k` \| ... |
+| Ansh-256k | 16 | `par` \| `y` \| `A` \| `loc` \| `an` \| `I` \| `yam` \| `An` \| `ap` \| `ram` \| `AN` \| `as` \| `A` \| `pek` \| `zat` \| `A` |
+| Qwen2 | 21 | `▁p` \| `ary` \| `A` \| `lo` \| `c` \| `an` \| `I` \| `y` \| `am` \| `A` \| `nap` \| `ram` \| `A` \| `N` \| `as` \| ... |
+---
+### 6. Perceived-absence-counter-entity-ness
+**Input:** `upalabhyamAnAbhAvapratiyogitvam`
+| Tokenizer | Count | Tokens |
+|-----------|:-----:|--------|
+| **Panini** | **7** | `▁upalabhyamAnA` \| `bhA` \| `vapra` \| `Ati` \| `yog` \| `itv` \| `am` |
+| Sanskrit-BERT | 6 | `upalabhya` \| `##mana` \| `##bhava` \| `##prati` \| `##yogi` \| `##tvam` |
+| MuRIL | 14 | `upa` \| `##labh` \| `##yam` \| `##A` \| `##n` \| `##A` \| `##bh` \| `##A` \| `##va` \| `##pra` \| `##tiy` \| `##og` \| `##it` \| `##vam` |
+| Ansh-256k | 14 | `up` \| `al` \| `ab` \| `hy` \| `am` \| `An` \| `Abh` \| `Av` \| `ap` \| `rat` \| `iy` \| `og` \| `it` \| `vam` |
+| Qwen2 | 20 | `▁up` \| `al` \| `ab` \| `hy` \| `am` \| `A` \| `n` \| `A` \| `b` \| `h` \| `A` \| `v` \| `ap` \| `rat` \| `i` \| ... |
+---
+### 7. Freedom-absence-eliminated-agency-negation
+**Input:** `svAtantryAbhAvasamucchinnakartRtvanirAsaH`
+| Tokenizer | Count | Tokens |
+|-----------|:-----:|--------|
+| **Panini** | **8** | `▁svAtantryA` \| `bhA` \| `vas` \| `amu` \| `cchinna` \| `kar` \| `tRtvanirAs` \| `aH` |
+| Sanskrit-BERT | 14 | `svatant` \| `##rya` \| `##bhava` \| `##sam` \| `##uc` \| `##c` \| `##hin` \| `##naka` \| `##rt` \| `##rt` \| `##van` \| `##ira` \| `##sa` \| `##h` |
+| MuRIL | 19 | `sv` \| `##A` \| `##tantr` \| `##y` \| `##A` \| `##bh` \| `##A` \| `##vas` \| `##amu` \| `##cc` \| `##hin` \| `##nak` \| `##art` \| `##R` \| `##tva` \| ... |
+| Ansh-256k | 17 | `sv` \| `At` \| `antry` \| `Abh` \| `A` \| `vas` \| `am` \| `uc` \| `chin` \| `nak` \| `art` \| `R` \| `t` \| `van` \| `ir` \| `As` \| `aH` |
+| Qwen2 | 25 | `▁s` \| `v` \| `A` \| `t` \| `ant` \| `ry` \| `A` \| `b` \| `h` \| `A` \| `vas` \| `am` \| `uc` \| `ch` \| `inn` \| ... |
+---
+### 8. Mutual-causality-infinite-regress-consequence
+**Input:** `anyonyahetukabhAvAnavasTAprasaNgaH`
+| Tokenizer | Count | Tokens |
+|-----------|:-----:|--------|
+| **Panini** | **9** | `▁anyonya` \| `hetu` \| `kab` \| `hAv` \| `Anava` \| `sTA` \| `prasan` \| `aNg` \| `aH` |
+| Sanskrit-BERT | 10 | `anyonya` \| `##hetu` \| `##ka` \| `##bhavan` \| `##a` \| `##vasta` \| `##prasa` \| `##n` \| `##ga` \| `##h` |
+| MuRIL | 16 | `any` \| `##ony` \| `##ahe` \| `##tuk` \| `##abh` \| `##A` \| `##v` \| `##A` \| `##nav` \| `##as` \| `##TA` \| `##pra` \| `##sa` \| `##N` \| `##ga` \| `##H` |
+| Ansh-256k | 14 | `anyon` \| `ya` \| `het` \| `uk` \| `abh` \| `Av` \| `An` \| `avas` \| `T` \| `Apr` \| `asa` \| `N` \| `ga` \| `H` |
+| Qwen2 | 24 | `▁any` \| `ony` \| `a` \| `he` \| `t` \| `u` \| `k` \| `ab` \| `h` \| `A` \| `v` \| `A` \| `n` \| `av` \| `as` \| ... |
+---
+### 9. Mutual-dependence-counter-entity-determination
+**Input:** `parasparApekzApratiyogitvanirUpaNam`
+| Tokenizer | Count | Tokens |
+|-----------|:-----:|--------|
+| **Panini** | **8** | `▁paraspa` \| `rAp` \| `ekz` \| `Aprati` \| `yogitva` \| `nir` \| `UpaN` \| `am` |
+| Sanskrit-BERT | 11 | `paraspara` \| `##pe` \| `##k` \| `##z` \| `##ap` \| `##rati` \| `##yogi` \| `##tva` \| `##nir` \| `##upa` \| `##nam` |
+| MuRIL | 16 | `paraspar` \| `##A` \| `##pe` \| `##k` \| `##z` \| `##A` \| `##pra` \| `##tiy` \| `##og` \| `##it` \| `##vani` \| `##r` \| `##U` \| `##pa` \| `##N` \| `##am` |
+| Ansh-256k | 14 | `paras` \| `par` \| `A` \| `pek` \| `z` \| `Apr` \| `at` \| `iy` \| `og` \| `it` \| `van` \| `ir` \| `Upa` \| `Nam` |
+| Qwen2 | 21 | `▁par` \| `as` \| `par` \| `A` \| `p` \| `ek` \| `z` \| `A` \| `p` \| `rat` \| `i` \| `y` \| `og` \| `it` \| `van` \| ... |
+---
+### 10. Self-other-self-discrimination-determination
+**Input:** `svAtmaparAtmavivekAvadhAraNam`
+| Tokenizer | Count | Tokens |
+|-----------|:-----:|--------|
+| **Panini** | **8** | `▁svAtma` \| `parAt` \| `mav` \| `ive` \| `kAva` \| `dhA` \| `raN` \| `am` |
+| Sanskrit-BERT | 11 | `svat` \| `##ma` \| `##para` \| `##t` \| `##ma` \| `##vi` \| `##ve` \| `##ka` \| `##vad` \| `##haran` \| `##am` |
+| MuRIL | 16 | `sv` \| `##A` \| `##tma` \| `##par` \| `##A` \| `##tma` \| `##vi` \| `##ve` \| `##k` \| `##A` \| `##vad` \| `##h` \| `##A` \| `##ra` \| `##N` \| `##am` |
+| Ansh-256k | 12 | `sv` \| `At` \| `map` \| `ar` \| `At` \| `mav` \| `ive` \| `k` \| `Av` \| `adh` \| `Ara` \| `Nam` |
+| Qwen2 | 21 | `▁s` \| `v` \| `A` \| `t` \| `m` \| `ap` \| `ar` \| `A` \| `t` \| `ma` \| `v` \| `ive` \| `k` \| `A` \| `v` \| ... |
+---
+### 11. Simple Sentence: "Rama goes"
+**Input:** `rAmo gacCati`
+| Tokenizer | Count | Tokens |
+|-----------|:-----:|--------|
+| **Panini** | **2** | `▁rAmo` \| `▁gacCati` |
+| Sanskrit-BERT | 5 | `ram` \| `##o` \| `ga` \| `##cca` \| `##ti` |
+| MuRIL | 7 | `r` \| `##A` \| `##mo` \| `ga` \| `##c` \| `##C` \| `##ati` |
+| Ansh-256k | 6 | `r` \| `Amo` \| `g` \| `ac` \| `C` \| `ati` |
+| Qwen2 | 8 | `▁r` \| `A` \| `mo` \| `▁g` \| `ac` \| `C` \| `at` \| `i` |
+---
+### 12. Gita 1.1 Opening
+**Input:** `dharme kzetre kurukzetre`
+| Tokenizer | Count | Tokens |
+|-----------|:-----:|--------|
+| **Panini** | **3** | `▁dharme` \| `▁kzetre` \| `▁kurukzetre` |
+| Sanskrit-BERT | 8 | `dharme` \| `k` \| `##ze` \| `##tre` \| `kuru` \| `##k` \| `##ze` \| `##tre` |
+| MuRIL | 9 | `dharm` \| `##e` \| `k` \| `##ze` \| `##tre` \| `ku` \| `##ruk` \| `##ze` \| `##tre` |
+| Ansh-256k | 11 | `dhar` \| `me` \| `k` \| `z` \| `et` \| `re` \| `kur` \| `uk` \| `z` \| `et` \| `re` |
+| Qwen2 | 15 | `▁d` \| `h` \| `ar` \| `me` \| `▁k` \| `z` \| `et` \| `re` \| `▁k` \| `ur` \| `u` \| `k` \| `z` \| `et` \| `re` |
+---
+## Key Observations
+1. **Panini preserves semantic units** — Compare `nirapekza` (single token) vs `nirape##k##z##a` (4 noise fragments)
+2. **2-4x compression ratio** — Average 7.2 tokens vs 21.8 for Qwen2
+3. **No arbitrary byte-level splits** — No `##k`, `##z`, `##ab` noise
+4. **Grammatically-aligned boundaries** — Tokens match stems, endings, and compounds
+---
+*Generated for ArthaLabs/panini-tokenizer*

README.md CHANGED Viewed

@@ -1,4 +1,11 @@
 ---
 language: sa
 license: apache-2.0
 tags:

 ---
+title: Panini Tokenizer
+emoji: 🔤
+colorFrom: indigo
+colorTo: purple
+sdk: gradio
+sdk_version: 4.0.0
+app_file: app.py
 language: sa
 license: apache-2.0
 tags:

app.py ADDED Viewed

	@@ -0,0 +1,265 @@

+"""
+Panini Tokenizer - Interactive Demo
+HuggingFace Space for comparing Panini Tokenizer against SOTA models.
+ArthaLabs 2025
+"""
+import gradio as gr
+from transformers import AutoTokenizer
+import sys
+import os
+# Get the base directory (where app.py is located)
+BASE_DIR = os.path.dirname(os.path.abspath(__file__))
+SRC_DIR = os.path.join(BASE_DIR, "src")
+# Add src to path for Panini Tokenizer
+sys.path.insert(0, SRC_DIR)
+# Set the STEMS_FILE path BEFORE importing analyzer
+# This patches the module-level variable
+import json
+STEMS_PATH = os.path.join(BASE_DIR, "stems.json")
+# Try to import Panini Tokenizer components
+PANINI_AVAILABLE = False
+PANINI_SPLITTER = None
+try:
+    # Patch the analyzer module's STEMS_FILE path
+    import analyzer
+    analyzer.STEMS_FILE = STEMS_PATH
+    analyzer._STEM_CACHE_LOADED = False  # Force reload with correct path
+    from splitter import SamasaSplitter
+    PANINI_SPLITTER = SamasaSplitter()
+    PANINI_AVAILABLE = True
+    print(f"✅ Panini Tokenizer loaded successfully")
+except Exception as e:
+    print(f"❌ Panini Tokenizer not available: {e}")
+    import traceback
+    traceback.print_exc()
+# Load comparison tokenizers
+TOKENIZERS = {}
+def load_tokenizers():
+    """Load all tokenizers for comparison."""
+    global TOKENIZERS
+    # Sanskrit-BERT (Buddhist Sanskrit)
+    try:
+        TOKENIZERS["Sanskrit-BERT"] = AutoTokenizer.from_pretrained(
+            "Matej/bert-base-buddhist-sanskrit", trust_remote_code=True
+        )
+        print("✅ Sanskrit-BERT loaded")
+    except Exception as e:
+        print(f"Sanskrit-BERT failed: {e}")
+    # MuRIL (Google)
+    try:
+        TOKENIZERS["MuRIL (Google)"] = AutoTokenizer.from_pretrained(
+            "google/muril-base-cased", trust_remote_code=True
+        )
+        print("✅ MuRIL loaded")
+    except Exception as e:
+        print(f"MuRIL failed: {e}")
+    # Ansh-256k (22 Indic Languages)
+    try:
+        TOKENIZERS["Ansh-256k (Indic)"] = AutoTokenizer.from_pretrained(
+            "LingoIITGN/Ansh-256k", trust_remote_code=True
+        )
+        print("✅ Ansh-256k loaded")
+    except Exception as e:
+        print(f"Ansh-256k failed: {e}")
+    # Sanskrit-Qwen2 Tokenizer
+    try:
+        TOKENIZERS["Sanskrit-Qwen2"] = AutoTokenizer.from_pretrained(
+            "diabolic6045/Sanskrit-English-qwen2-tokenizer", trust_remote_code=True
+        )
+        print("✅ Sanskrit-Qwen2 loaded")
+    except Exception as e:
+        print(f"Sanskrit-Qwen2 failed: {e}")
+# Initialize tokenizers
+load_tokenizers()
+def tokenize_with_panini(text: str) -> list:
+    """Tokenize using Panini Tokenizer."""
+    if not PANINI_AVAILABLE or PANINI_SPLITTER is None:
+        return ["[Panini not available]"]
+    try:
+        tokens = []
+        words = text.split()
+        for i, word in enumerate(words):
+            prefix = "▁" if i == 0 else ""
+            split_result = PANINI_SPLITTER.split(word)
+            if split_result.is_compound and len(split_result.components) > 1:
+                for j, comp in enumerate(split_result.components):
+                    if j == 0:
+                        tokens.append(prefix + comp)
+                    else:
+                        tokens.append(comp)
+            else:
+                tokens.append(prefix + word)
+        return tokens
+    except Exception as e:
+        return [f"[Error: {e}]"]
+def tokenize_text(text: str):
+    """Tokenize text with all tokenizers and return comparison."""
+    if not text.strip():
+        return "Please enter some Sanskrit text (SLP1 transliteration)"
+    results = []
+    # Panini Tokenizer
+    panini_tokens = tokenize_with_panini(text)
+    results.append({
+        "name": "🏆 Panini (Ours)",
+        "count": len(panini_tokens),
+        "tokens": panini_tokens,
+        "is_panini": True
+    })
+    # Other tokenizers
+    for name, tok in TOKENIZERS.items():
+        try:
+            tokens = tok.tokenize(text)
+            results.append({
+                "name": name,
+                "count": len(tokens),
+                "tokens": tokens,
+                "is_panini": False
+            })
+        except Exception as e:
+            results.append({
+                "name": name,
+                "count": "Error",
+                "tokens": [str(e)[:30]],
+                "is_panini": False
+            })
+    # Build card-style output (handles overflow better)
+    md = "## 📊 Tokenization Results\n\n"
+    # Summary bar
+    panini_count = results[0]['count'] if isinstance(results[0]['count'], int) else 0
+    other_counts = [r['count'] for r in results[1:] if isinstance(r['count'], int)]
+    if other_counts and panini_count > 0:
+        avg_other = sum(other_counts) / len(other_counts)
+        compression = avg_other / panini_count
+        md += f"**Compression:** Panini uses **{compression:.1f}x fewer tokens** than average\n\n"
+    md += "---\n\n"
+    # Each tokenizer as a card
+    for r in results:
+        if r['is_panini']:
+            md += f"### {r['name']} — **{r['count']} tokens**\n"
+        else:
+            md += f"### {r['name']} — {r['count']} tokens\n"
+        # Truncate tokens display to ~60 chars
+        tokens_str = " | ".join(r['tokens'][:10])
+        if len(tokens_str) > 80:
+            tokens_str = tokens_str[:80] + "..."
+        elif len(r['tokens']) > 10:
+            tokens_str += " ..."
+        md += f"```\n{tokens_str}\n```\n\n"
+    return md
+def get_examples():
+    """Return example inputs."""
+    return [
+        ["nirapekzajYAnasAkzAtkArasAmarthyam"],
+        ["tadekaniScitArthavyavasthApanam"],
+        ["svaprakASatvaparaprakASavyavacCedaH"],
+        ["rAmo gacCati"],
+        ["dharme kzetre kurukzetre"],
+        ["parasparApekzApratiyogitvanirUpaNam"],
+    ]
+# Build Gradio Interface
+with gr.Blocks(
+    title="Panini Tokenizer - ArthaLabs",
+    theme=gr.themes.Soft(),
+    css="""
+    .container { max-width: 900px; margin: auto; }
+    .title { text-align: center; }
+    """
+) as demo:
+    gr.Markdown(
+        """
+        # 🔤 Panini Tokenizer
+        ### Grammar-First Sanskrit Tokenization by ArthaLabs
+        Compare our morphology-based tokenizer against state-of-the-art multilingual models.
+        **Input Format:** SLP1 transliteration (e.g., `rAmo gacCati` not `रामो गच्छति`)
+        """
+    )
+    with gr.Row():
+        with gr.Column(scale=3):
+            text_input = gr.Textbox(
+                label="Sanskrit Text (SLP1)",
+                placeholder="Enter Sanskrit text in SLP1 transliteration...",
+                lines=2,
+                value="nirapekzajYAnasAkzAtkArasAmarthyam"
+            )
+        with gr.Column(scale=1):
+            submit_btn = gr.Button("🔍 Tokenize", variant="primary", size="lg")
+    output = gr.Markdown(label="Results")
+    gr.Examples(
+        examples=get_examples(),
+        inputs=text_input,
+        label="Example Inputs (click to try)"
+    )
+    submit_btn.click(
+        fn=tokenize_text,
+        inputs=text_input,
+        outputs=output
+    )
+    text_input.submit(
+        fn=tokenize_text,
+        inputs=text_input,
+        outputs=output
+    )
+    gr.Markdown(
+        """
+        ---
+        ### About
+        **Panini Tokenizer** uses recursive morphological analysis based on Pāṇinian grammar rules,
+        not statistical BPE. This results in:
+        - ✅ **2-4x fewer tokens** for complex compounds
+        - ✅ **Semantically meaningful** token boundaries
+        - ✅ **No arbitrary byte-level splits** like `##k`, `##z`, `##ab`
+        [📖 Model Card](https://huggingface.co/ArthaLabs/panini-tokenizer) |
+        [📊 Full Benchmarks](https://huggingface.co/ArthaLabs/panini-tokenizer/blob/main/BENCHMARKS.md)
+        ---
+        *© 2025 ArthaLabs - Apache 2.0 License*
+        """
+    )
+if __name__ == "__main__":
+    demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+gradio>=4.0.0
+transformers>=4.30.0
+torch
+sentencepiece
+protobuf

src/__pycache__/analyzer.cpython-313.pyc ADDED Viewed

Binary file (13.3 kB). View file

src/__pycache__/splitter.cpython-313.pyc ADDED Viewed

Binary file (26 kB). View file

src/splitter.py CHANGED Viewed

@@ -6,8 +6,11 @@ Detects and splits Sanskrit compound words at their boundaries.
 from typing import List, Tuple, Optional
 from dataclasses import dataclass
-# Import analyzer for Kosha access
-from .analyzer import VidyutAnalyzer, MorphParse
 @dataclass

 from typing import List, Tuple, Optional
 from dataclasses import dataclass
+# Import analyzer for Kosha access (use absolute import for standalone execution)
+try:
+    from .analyzer import VidyutAnalyzer, MorphParse
+except ImportError:
+    from analyzer import VidyutAnalyzer, MorphParse
 @dataclass