| --- |
| license: mit |
| datasets: |
| - CohereForAI/aya_collection_language_split |
| metrics: |
| - f1 |
| - recall |
| - precision |
| language: |
| - te |
| - kn |
| - gu |
| - mr |
| - ml |
| - bn |
| - pa |
| - ta |
| library_name: transformers |
| tags: |
| - onnx |
| --- |
| This is based on [Kredor's work](https://huggingface.co/kredor/punctuate-all). But the languages are: Telugu, Tamil, Malayalam, Kannada, Gujarathi, Panjabi, Marathi and Bengali. |
|
|
| ----- report ----- |
|
|
| precision recall f1-score support |
| |
| 0 0.99 0.99 0.99 18156530 |
| . 0.95 0.95 0.95 987478 |
| , 0.82 0.79 0.80 1064002 |
| ? 0.97 0.96 0.97 316902 |
| - 0.94 0.86 0.90 226991 |
| : 0.94 0.96 0.95 262314 |
| |
| accuracy 0.97 21014217 |
| macro avg 0.93 0.92 0.93 21014217 |
| weighted avg 0.97 0.97 0.97 21014217 |
| |
|
|
| ----- confusion matrix ----- |
|
|
| t/p 0 . , ? - : |
| 0 1.0 0.0 0.0 0.0 0.0 0.0 |
| . 0.0 1.0 0.0 0.0 0.0 0.0 |
| , 0.2 0.0 0.8 0.0 0.0 0.0 |
| ? 0.0 0.0 0.0 1.0 0.0 0.0 |
| - 0.1 0.0 0.0 0.0 0.9 0.0 |
| : 0.0 0.0 0.0 0.0 0.0 1.0 |
| |
|
|
| ## Install |
|
|
| To get started install the package from [pypi](https://pypi.org/project/deepmultilingualpunctuation/): |
|
|
| ```bash |
| pip install deepmultilingualpunctuation |
| ``` |
| ### Restore Punctuation |
| ```python |
| from deepmultilingualpunctuation import PunctuationModel |
| |
| model = PunctuationModel('ModelsLab/punctuate-indic-v1') |
| text = "హ్యారీ చాలా చిన్న వ్యవసాయ కలిగి ఒక పెద్ద పొలం కావాలని కలలు కనేవాడు ఒకసారి తన తండ్రి బిల్ ను అడిగాడు అక్కడి భూమి నాకు కావాలి నేను దాన్ని ఎలా పొందగలను" |
| result = model.restore_punctuation(text) |
| print(result) |
| ``` |
|
|
| **output** |
| > హ్యారీ చాలా చిన్న వ్యవసాయ కలిగి ఒక పెద్ద పొలం కావాలని కలలు కనేవాడు ఒకసారి తన తండ్రి బిల్ ను అడిగాడు, అక్కడి భూమి నాకు కావాలి, నేను దాన్ని ఎలా పొందగలను? |
|
|
| ### Predict Labels |
| ```python |
| from deepmultilingualpunctuation import PunctuationModel |
| |
| model = PunctuationModel('ModelsLab/punctuate-indic-v1') |
| text = "హ్యారీ చాలా చిన్న వ్యవసాయ కలిగి ఒక పెద్ద పొలం కావాలని కలలు కనేవాడు ఒకసారి తన తండ్రి బిల్ ను అడిగాడు అక్కడి భూమి నాకు కావాలి నేను దాన్ని ఎలా పొందగలను" |
| clean_text = model.preprocess(text) |
| labled_words = model.predict(clean_text) |
| print(labled_words) |
| ``` |
|
|
| **output** |
|
|
| > ['హ్యారీ', '0', 0.7721978], |
| ['చాలా', '0', 0.9996537], |
| ['చిన్న', '0', 0.9703038], |
| ['వ్యవసాయ', '0', 0.99389863], |
| ['కలిగి', '0', 0.66695035], |
| ['ఒక', '0', 0.99995697], |
| ['పెద్ద', '0', 0.9995778], |
| ['పొలం', '0', 0.999982], |
| ['కావాలని', '0', 0.9995049], |
| ['కలలు', '0', 0.99998343], |
| ['కనేవాడు', '0', 0.3442819], |
| ['ఒకసారి', '0', 0.925744], |
| ['తన', '0', 0.9999279], |
| ['తండ్రి', '0', 0.82426786], |
| ['బిల్', '0', 0.9998516], |
| ['ను', '0', 0.99997056], |
| ['అడిగాడు', ',', 0.55599153], |
| ['అక్కడి', '0', 0.9996816], |
| ['భూమి', '0', 0.9978115], |
| ['నాకు', '0', 0.9999769], |
| ['కావాలి', ',', 0.873619], |
| ['నేను', '0', 0.99976164], |
| ['దాన్ని', '0', 0.999979], |
| ['ఎలా', '0', 0.99997866], |
| ['పొందగలను', '?', 0.9895349] |
|
|
|
|