| [ | |
| { | |
| "text": "నమస్కారం", | |
| "tokens": [ | |
| "[CLS]", | |
| "నమ", | |
| "##స్కారం", | |
| "[SEP]" | |
| ], | |
| "ids": [ | |
| 1, | |
| 4970, | |
| 20090, | |
| 2 | |
| ], | |
| "compression_ratio": 2.0 | |
| }, | |
| { | |
| "text": "తెలుగు భాష చాలా అందమైనది", | |
| "tokens": [ | |
| "[CLS]", | |
| "తెలుగు", | |
| "భాష", | |
| "చాలా", | |
| "అందమైన", | |
| "##ది", | |
| "[SEP]" | |
| ], | |
| "ids": [ | |
| 1, | |
| 1182, | |
| 1317, | |
| 1017, | |
| 7802, | |
| 265, | |
| 2 | |
| ], | |
| "compression_ratio": 3.4285714285714284 | |
| }, | |
| { | |
| "text": "భారతదేశం నా దేశం", | |
| "tokens": [ | |
| "[CLS]", | |
| "భారతదేశం", | |
| "నా", | |
| "దేశం", | |
| "[SEP]" | |
| ], | |
| "ids": [ | |
| 1, | |
| 2617, | |
| 447, | |
| 3029, | |
| 2 | |
| ], | |
| "compression_ratio": 3.2 | |
| }, | |
| { | |
| "text": "తెలుగు సాహిత్యం చాలా సమృద్ధిగా ఉంది", | |
| "tokens": [ | |
| "[CLS]", | |
| "తెలుగు", | |
| "సాహిత్యం", | |
| "చాలా", | |
| "సమృద్ధిగా", | |
| "ఉంది", | |
| "[SEP]" | |
| ], | |
| "ids": [ | |
| 1, | |
| 1182, | |
| 4357, | |
| 1017, | |
| 14475, | |
| 783, | |
| 2 | |
| ], | |
| "compression_ratio": 5.0 | |
| }, | |
| { | |
| "text": "నేను తెలుగు భాషను ప్రేమిస్తున్నాను", | |
| "tokens": [ | |
| "[CLS]", | |
| "నేను", | |
| "తెలుగు", | |
| "భాషను", | |
| "ప్రేమి", | |
| "##స్తున్నాను", | |
| "[SEP]" | |
| ], | |
| "ids": [ | |
| 1, | |
| 1929, | |
| 1182, | |
| 11472, | |
| 7466, | |
| 27949, | |
| 2 | |
| ], | |
| "compression_ratio": 4.857142857142857 | |
| }, | |
| { | |
| "text": "తెలుగు భాష దక్షిణ భారతదేశంలోని ద్రావిడ భాషా కుటుంబానికి చెందిన భాష", | |
| "tokens": [ | |
| "[CLS]", | |
| "తెలుగు", | |
| "భాష", | |
| "దక్షిణ", | |
| "భారతదేశంలోని", | |
| "ద్రావిడ", | |
| "భాషా", | |
| "కుటుంబానికి", | |
| "చెందిన", | |
| "భాష", | |
| "[SEP]" | |
| ], | |
| "ids": [ | |
| 1, | |
| 1182, | |
| 1317, | |
| 1619, | |
| 2821, | |
| 9963, | |
| 3168, | |
| 5282, | |
| 704, | |
| 1317, | |
| 2 | |
| ], | |
| "compression_ratio": 6.0 | |
| }, | |
| { | |
| "text": "భారతదేశంలో తెలుగు మాట్లాడే ప్రజల సంఖ్య సుమారు 8 కోట్లు", | |
| "tokens": [ | |
| "[CLS]", | |
| "భారతదేశంలో", | |
| "తెలుగు", | |
| "మాట్లాడే", | |
| "ప్రజల", | |
| "సంఖ్య", | |
| "సుమారు", | |
| "[UNK]", | |
| "కోట్లు", | |
| "[SEP]" | |
| ], | |
| "ids": [ | |
| 1, | |
| 2305, | |
| 1182, | |
| 5302, | |
| 2498, | |
| 375, | |
| 2207, | |
| 0, | |
| 8404, | |
| 2 | |
| ], | |
| "compression_ratio": 5.4 | |
| }, | |
| { | |
| "text": "తెలుగు భాష యొక్క చరిత్ర చాలా ప్రాచీనమైనది. ఈ భాష క్రీ.పూ. 1000 సంవత్సరాల నాటి ప్రాచీన తెలుగు లిపి నుండి వికసించింది. తెలుగు భాష యొక్క మొదటి శాసనం క్రీ.శ. 575 నాటిది.", | |
| "tokens": [ | |
| "[CLS]", | |
| "తెలుగు", | |
| "భాష", | |
| "యొక్క", | |
| "చరిత్ర", | |
| "చాలా", | |
| "ప్రాచీన", | |
| "##మైనది.", | |
| "ఈ", | |
| "భాష", | |
| "క్రీ.పూ.", | |
| "[UNK]", | |
| "సంవత్సరాల", | |
| "నాటి", | |
| "ప్రాచీన", | |
| "తెలుగు", | |
| "లిపి", | |
| "నుండి", | |
| "వికసించింది.", | |
| "తెలుగు", | |
| "భాష", | |
| "యొక్క", | |
| "మొదటి", | |
| "శాసనం", | |
| "క్రీ.శ.", | |
| "[UNK]", | |
| "నాటిది.", | |
| "[SEP]" | |
| ], | |
| "ids": [ | |
| 1, | |
| 1182, | |
| 1317, | |
| 867, | |
| 1270, | |
| 1017, | |
| 3745, | |
| 4384, | |
| 16, | |
| 1317, | |
| 8068, | |
| 0, | |
| 1524, | |
| 3164, | |
| 3745, | |
| 1182, | |
| 14101, | |
| 198, | |
| 43698, | |
| 1182, | |
| 1317, | |
| 867, | |
| 932, | |
| 10531, | |
| 38147, | |
| 0, | |
| 23708, | |
| 2 | |
| ], | |
| "compression_ratio": 5.892857142857143 | |
| } | |
| ] |