Upload 3 files

Browse files

Files changed (3) hide show

test_fo/hindi_english_tokenization_results.json +102 -0
test_fo/result.json +250 -0
test_fo/test2.txt +0 -0

test_fo/hindi_english_tokenization_results.json ADDED Viewed

	@@ -0,0 +1,102 @@

+{
+    "Hindi": [
+        {
+            "original_text": "नमस्ते, मैं भारत से हूँ। दिल्ली बहुत बड़ा शहर है।",
+            "token_ids_count": 14,
+            "token_strings_count": 14,
+            "decoded_text": "नमस्ते, मैं भारत से हूँ। दिल्ली बहुत बड़ा शहर है।",
+            "text_match": true,
+            "token_id_stats": {
+                "min": 12,
+                "max": 22166,
+                "mean": 4712.857142857143
+            }
+        },
+        {
+            "original_text": "हिंदी भाषा बहुत सुंदर है।",
+            "token_ids_count": 7,
+            "token_strings_count": 7,
+            "decoded_text": "हिंदी भाषा बहुत सुंदर है।",
+            "text_match": true,
+            "token_id_stats": {
+                "min": 304,
+                "max": 46067,
+                "mean": 9137.285714285714
+            }
+        },
+        {
+            "original_text": "मुझे किताबें पढ़ना पसंद है।",
+            "token_ids_count": 7,
+            "token_strings_count": 7,
+            "decoded_text": "मुझे किताबें पढ़ना पसंद है।",
+            "text_match": true,
+            "token_id_stats": {
+                "min": 325,
+                "max": 50205,
+                "mean": 18701.571428571428
+            }
+        },
+        {
+            "original_text": "यह एक उदाहरण वाक्य है।",
+            "token_ids_count": 6,
+            "token_strings_count": 6,
+            "decoded_text": "यह एक उदाहरण वाक्य है।",
+            "text_match": true,
+            "token_id_stats": {
+                "min": 331,
+                "max": 64341,
+                "mean": 15892.833333333334
+            }
+        }
+    ],
+    "English": [
+        {
+            "original_text": "Hello, I am from India. Delhi is a big city.",
+            "token_ids_count": 13,
+            "token_strings_count": 13,
+            "decoded_text": "Hello, I am from India. Delhi is a big city.",
+            "text_match": true,
+            "token_id_stats": {
+                "min": 12,
+                "max": 22355,
+                "mean": 3848.3076923076924
+            }
+        },
+        {
+            "original_text": "The English language is widely spoken.",
+            "token_ids_count": 7,
+            "token_strings_count": 7,
+            "decoded_text": "The English language is widely spoken.",
+            "text_match": true,
+            "token_id_stats": {
+                "min": 14,
+                "max": 28525,
+                "mean": 8552.714285714286
+            }
+        },
+        {
+            "original_text": "I enjoy reading books.",
+            "token_ids_count": 5,
+            "token_strings_count": 5,
+            "decoded_text": "I enjoy reading books.",
+            "text_match": true,
+            "token_id_stats": {
+                "min": 14,
+                "max": 6621,
+                "mean": 3323.8
+            }
+        },
+        {
+            "original_text": "This is an example sentence.",
+            "token_ids_count": 6,
+            "token_strings_count": 6,
+            "decoded_text": "This is an example sentence.",
+            "text_match": true,
+            "token_id_stats": {
+                "min": 14,
+                "max": 12418,
+                "mean": 3230.8333333333335
+            }
+        }
+    ]
+}

test_fo/result.json ADDED Viewed

	@@ -0,0 +1,250 @@

+{
+    "coverage": {},
+    "complexity": {},
+    "language_analysis": {},
+    "edge_cases": {
+        "hindi": {
+            "script_test": {
+                "tokens": [
+                    "à¤¨à¤®",
+                    "à¤¸à¥įà¤¤à¥ĩ",
+                    ",",
+                    "Ġà¤®à¥Īà¤Ĥ",
+                    "Ġà¤Ńà¤¾à¤°à¤¤",
+                    "Ġà¤¸à¥ĩ",
+                    "Ġà¤¹à¥Ĥà¤ģ",
+                    "à¥¤",
+                    "Ġà¤¦à¤¿à¤²à¥įà¤²à¥Ģ",
+                    "Ġà¤¬à¤¹à¥ģà¤¤",
+                    "Ġà¤¬à¤¡à¤¼à¤¾",
+                    "Ġà¤¶à¤¹à¤°",
+                    "Ġà¤¹à¥Ī",
+                    "à¥¤"
+                ],
+                "token_count": 14,
+                "unique_tokens": 13
+            },
+            "unicode_test": {
+                "tokens": [
+                    "à¤¹à¤¿à¤¨à¥įà¤¦",
+                    "à¥Ģ",
+                    "Ġ",
+                    "à¥§",
+                    "à¥¨",
+                    "à¥©",
+                    "à¥ª",
+                    "à¥«",
+                    "à¥¬",
+                    "à¥Ń",
+                    "à¥®",
+                    "à¥¯",
+                    "Ġvow",
+                    "els",
+                    ":",
+                    "Ġà¤ħ",
+                    "Ġà¤Ĩ",
+                    "Ġà¤ĩ",
+                    "Ġà¤Ī",
+                    "Ġà¤ī",
+                    "Ġà¤Ĭ"
+                ],
+                "token_count": 21,
+                "unique_tokens": 21
+            },
+            "special_chars": {
+                "tokens": [
+                    "à¤¹à¤¿à¤¨à¥įà¤¦",
+                    "à¥Ģ",
+                    "!",
+                    "Ġ@",
+                    "Ġ#",
+                    "Ġ$",
+                    "Ġ%",
+                    "Ġ^",
+                    "Ġ&",
+                    "Ġ*",
+                    "Ġ(",
+                    "Ġ)",
+                    "Ġ_",
+                    "Ġ+",
+                    "Ġ=",
+                    "Ġ[",
+                    "Ġ]",
+                    "Ġ{",
+                    "Ġ}"
+                ],
+                "token_count": 19,
+                "unique_tokens": 19
+            }
+        },
+        "english": {
+            "script_test": {
+                "tokens": [
+                    "Hello",
+                    ",",
+                    "ĠI",
+                    "Ġam",
+                    "Ġfrom",
+                    "Ġthe",
+                    "ĠUnited",
+                    "ĠStates",
+                    ".",
+                    "ĠNew",
+                    "ĠYork",
+                    "Ġis",
+                    "Ġa",
+                    "Ġbeautiful",
+                    "Ġcity",
+                    "."
+                ],
+                "token_count": 16,
+                "unique_tokens": 15
+            },
+            "unicode_test": {
+                "tokens": [
+                    "English",
+                    "Ġ",
+                    "012",
+                    "345",
+                    "678",
+                    "9",
+                    "Ġvow",
+                    "els",
+                    ":",
+                    "Ġa",
+                    "Ġe",
+                    "Ġi",
+                    "Ġo",
+                    "Ġu"
+                ],
+                "token_count": 14,
+                "unique_tokens": 14
+            },
+            "special_chars": {
+                "tokens": [
+                    "English",
+                    "!",
+                    "Ġ@",
+                    "Ġ#",
+                    "Ġ$",
+                    "Ġ%",
+                    "Ġ^",
+                    "Ġ&",
+                    "Ġ*",
+                    "Ġ(",
+                    "Ġ)",
+                    "Ġ_",
+                    "Ġ+",
+                    "Ġ=",
+                    "Ġ[",
+                    "Ġ]",
+                    "Ġ{",
+                    "Ġ}"
+                ],
+                "token_count": 18,
+                "unique_tokens": 18
+            }
+        }
+    },
+    "unicode_coverage": {
+        "hindi": {
+            "original_text": "हिन्दी १२३४५६७८९ vowels: अ आ इ ई उ ऊ",
+            "tokens": [
+                "à¤¹à¤¿à¤¨à¥įà¤¦",
+                "à¥Ģ",
+                "Ġ",
+                "à¥§",
+                "à¥¨",
+                "à¥©",
+                "à¥ª",
+                "à¥«",
+                "à¥¬",
+                "à¥Ń",
+                "à¥®",
+                "à¥¯",
+                "Ġvow",
+                "els",
+                ":",
+                "Ġà¤ħ",
+                "Ġà¤Ĩ",
+                "Ġà¤ĩ",
+                "Ġà¤��",
+                "Ġà¤ī",
+                "Ġà¤Ĭ"
+            ],
+            "token_count": 21,
+            "unique_tokens": 21,
+            "coverage_ratio": 1.0
+        },
+        "english": {
+            "original_text": "English 0123456789 vowels: a e i o u",
+            "tokens": [
+                "English",
+                "Ġ",
+                "012",
+                "345",
+                "678",
+                "9",
+                "Ġvow",
+                "els",
+                ":",
+                "Ġa",
+                "Ġe",
+                "Ġi",
+                "Ġo",
+                "Ġu"
+            ],
+            "token_count": 14,
+            "unique_tokens": 14,
+            "coverage_ratio": 1.0
+        }
+    },
+    "script_complexity": {
+        "hindi": {
+            "original_text_length": 49,
+            "tokens": [
+                "à¤¨à¤®",
+                "à¤¸à¥įà¤¤à¥ĩ",
+                ",",
+                "Ġà¤®à¥Īà¤Ĥ",
+                "Ġà¤Ńà¤¾à¤°à¤¤",
+                "Ġà¤¸à¥ĩ",
+                "Ġà¤¹à¥Ĥà¤ģ",
+                "à¥¤",
+                "Ġà¤¦à¤¿à¤²à¥įà¤²à¥Ģ",
+                "Ġà¤¬à¤¹à¥ģà¤¤",
+                "Ġà¤¬à¤¡à¤¼à¤¾",
+                "Ġà¤¶à¤¹à¤°",
+                "Ġà¤¹à¥Ī",
+                "à¥¤"
+            ],
+            "token_count": 14,
+            "avg_token_length": 9.071428571428571,
+            "token_diversity": 0.9285714285714286
+        },
+        "english": {
+            "original_text_length": 65,
+            "tokens": [
+                "Hello",
+                ",",
+                "ĠI",
+                "Ġam",
+                "Ġfrom",
+                "Ġthe",
+                "ĠUnited",
+                "ĠStates",
+                ".",
+                "ĠNew",
+                "ĠYork",
+                "Ġis",
+                "Ġa",
+                "Ġbeautiful",
+                "Ġcity",
+                "."
+            ],
+            "token_count": 16,
+            "avg_token_length": 4.0625,
+            "token_diversity": 0.9375
+        }
+    }
+}

test_fo/test2.txt ADDED Viewed

The diff for this file is too large to render. See raw diff