[ { "description": "remove_urls: strips http/https URLs from text", "steps_demonstrated": ["remove_urls"], "raw": "يمكنك زيارة الموقع على https://www.example.com/arabic للمزيد من المعلومات، أو قراءة المقال على http://blog.site.org/post/123 للتفاصيل الكاملة.", "after_remove_urls": "يمكنك زيارة الموقع على للمزيد من المعلومات، أو قراءة المقال على للتفاصيل الكاملة.", "clean": "يمكنك زيارة الموقع علي للمزيد من المعلومات، او قراءه المقال علي للتفاصيل الكامله." }, { "description": "remove_html: strips HTML tags from text", "steps_demonstrated": ["remove_html"], "raw": "

اللغة العربية هي أكثر اللغات السامية تحدثاً، وإحدى أكثر اللغات انتشاراً في العالم.

", "after_remove_html": "اللغة العربية هي أكثر اللغات السامية تحدثاً، وإحدى أكثر اللغات انتشاراً في العالم.", "clean": "اللغه العربيه هي اكثر اللغات الساميه تحدثا، واحدي اكثر اللغات انتشارا في العالم." }, { "description": "remove_diacritics: removes Arabic harakat (tashkeel) from text", "steps_demonstrated": ["remove_diacritics"], "raw": "الماءُ مادَّةٌ شَفَّافَةٌ عَدِيمَةُ اللَّوْنِ وَالرَّائِحَةِ، وَهُوَ الْمُكَوِّنُ الْأَسَاسِيُّ لِلْجِدَاوِلِ وَالْبُحَيْرَاتِ.", "after_remove_diacritics": "الماء مادة شفافة عديمة اللون والرائحة، وهو المكون الأساسي للجداول والبحيرات.", "clean": "الماء ماده شفافه عديمه اللون والرائحه، وهو المكون الاساسي للجداول والبحيرات." }, { "description": "normalize_arabic: normalizes alef variants (أإآٱ→ا) and teh marbuta (ة→ه) and yeh (ى→ي)", "steps_demonstrated": ["normalize_arabic"], "raw": "ٱللغةُ ٱلعربيّةُ إحدى أكثرِ اللغاتِ انتشاراً، وإحدى أجملِ اللغاتِ الإنسانيّةِ على الإطلاق.", "after_normalize_arabic": "اللغة العربية احدى اكثر اللغات انتشارا، واحدى اجمل اللغات الانسانية على الاطلاق.", "clean": "اللغه العربيه احدي اكثر اللغات انتشارا، واحدي اجمل اللغات الانسانيه علي الاطلاق." }, { "description": "remove_non_arabic: removes Latin characters, numbers, and punctuation", "steps_demonstrated": ["remove_non_arabic"], "raw": "A هو الحرف الأول من أبجدية ISO اللاتينية (Latin alphabet)، ويرمز له في الأبجدية الصوتية بالرمز [a] أو /æ/.", "after_remove_non_arabic": " هو الحرف الأول من أبجدية اللاتينية ويرمز له في الأبجدية الصوتية بالرمز أو ", "clean": "هو الحرف الاول من ابجديه اللاتينيه ويرمز له في الابجديه الصوتيه بالرمز او" }, { "description": "normalize_whitespace: collapses multiple spaces and strips leading/trailing whitespace", "steps_demonstrated": ["normalize_whitespace"], "raw": " الرياضيات هي مجموعة من المعارف المجردة الناتجة عن الاستنتاجات المنطقية ", "after_normalize_whitespace": "الرياضيات هي مجموعة من المعارف المجردة الناتجة عن الاستنتاجات المنطقية", "clean": "الرياضيات هي مجموعه من المعارف المجرده الناتجه عن الاستنتاجات المنطقيه" }, { "description": "Full pipeline: all 6 steps on a real Wikipedia-style noisy sentence", "steps_demonstrated": ["remove_urls", "remove_html", "remove_diacritics", "normalize_arabic", "remove_non_arabic", "normalize_whitespace"], "raw": "ويكيبيديا (تلفظ ‎. راجع https://wikipedia.org للتفاصيل). بحلول نهاية ديسمبر 2016، احتلّت ويكيبيديا المرتبةَ الخامسةَ في أكثر المواقع شعبيةً على مستوى العالم.", "after_remove_urls": "ويكيبيديا (تلفظ ‎. راجع للتفاصيل). بحلول نهاية ديسمبر 2016، احتلّت ويكيبيديا المرتبةَ الخامسةَ في أكثر المواقع شعبيةً على مستوى العالم.", "after_remove_html": "ويكيبيديا (تلفظ ‎. راجع للتفاصيل). بحلول نهاية ديسمبر 2016، احتلّت ويكيبيديا المرتبةَ الخامسةَ في أكثر المواقع شعبيةً على مستوى العالم.", "after_remove_diacritics": "ويكيبيديا (تلفظ ‎. راجع للتفاصيل). بحلول نهاية ديسمبر 2016، احتلت ويكيبيديا المرتبة الخامسة في أكثر المواقع شعبية على مستوى العالم.", "after_normalize_arabic": "ويكيبيديا (تلفظ ‎. راجع للتفاصيل). بحلول نهايه ديسمبر 2016، احتلت ويكيبيديا المرتبه الخامسه في اكثر المواقع شعبيه علي مستوي العالم.", "after_remove_non_arabic": "ويكيبيديا تلفظ راجع للتفاصيل بحلول نهايه ديسمبر احتلت ويكيبيديا المرتبه الخامسه في اكثر المواقع شعبيه علي مستوي العالم ", "clean": "ويكيبيديا تلفظ راجع للتفاصيل بحلول نهايه ديسمبر احتلت ويكيبيديا المرتبه الخامسه في اكثر المواقع شعبيه علي مستوي العالم" }, { "description": "remove_diacritics + normalize_arabic: typical Wikipedia article text with tashkeel and alef variants", "steps_demonstrated": ["remove_diacritics", "normalize_arabic"], "raw": "ٱلسَّنَافِرُ (جَمْعُ سُنْفُور) هِيَ شَخْصِيَّاتٌ خَيَالِيَّةٌ صَغِيرَةُ الْحَجْمِ، زَرْقَاءُ اللَّوْنِ، وَتَعِيشُ فِي الْغَابَةِ.", "after_remove_diacritics": "ٱلسنافر (جمع سنفور) هي شخصيات خيالية صغيرة الحجم، زرقاء اللون، وتعيش في الغابة.", "after_normalize_arabic": "السنافر (جمع سنفور) هي شخصيات خياليه صغيره الحجم، زرقاء اللون، وتعيش في الغابه.", "clean": "السنافر جمع سنفور هي شخصيات خياليه صغيره الحجم، زرقاء اللون، وتعيش في الغابه." }, { "description": "remove_non_arabic + normalize_whitespace: scientific text mixing Arabic with Latin scientific names and numbers", "steps_demonstrated": ["remove_non_arabic", "normalize_whitespace"], "raw": "رتبة العناكب (الاسم العلمي: Araneae) هي رتبة من صف العنكبيات، تشمل أكثر من 40,000 نوع في 3700 جنس وأكثر من 100 فصيلة.", "after_remove_non_arabic": "رتبة العناكب الاسم العلمي: هي رتبة من صف العنكبيات، تشمل أكثر من نوع في جنس وأكثر من فصيلة ", "after_normalize_whitespace": "رتبة العناكب الاسم العلمي: هي رتبة من صف العنكبيات، تشمل أكثر من نوع في جنس وأكثر من فصيلة", "clean": "رتبه العناكب الاسم العلمي: هي رتبه من صف العنكبيات، تشمل اكثر من نوع في جنس واكثر من فصيله" } ]