Whisper Large-v2 Arabic Code-Switching (Faster-Whisper)
تخيل إنك بتفرغ اجتماع شغل أو حلقة بودكاست، والناس بتتكلم عربي وإنجليزي في نفس الجملة (Code-switching). الموديل ده متصمم مخصوص عشان يلقط اللغتين مع بعض بمنتهى الدقة من غير ما يتلخبط. دي نسخة محسنة من موديل Whisper Large-v2، ومتحولة لصيغة Faster-Whisper (CTranslate2) (محرك تشغيل سريع وخفيف)، عشان تديك أداء قوي جداً وسريع.
سياق المشروع (Context)
الهدف الأساسي من المشروع ده إننا نوفر STT Backend (نظام خلفي لتحويل الصوت لنص - Speech-To-Text) احترافي ومستقر لمشاريع الـ Portable WebUI (واجهات الويب المحمولة اللي بتشتغل من غير تسطيب معقد). الموديل ده بيجمع بين دقة المعالجة العميقة (Deep Processing) وسرعة الاستجابة اللي هتحتاجها لو بتشغل النظام محلياً على جهازك (Offline) من غير إنترنت.
سلسلة التطوير (Lineage)
- Base Architecture (البنية الأساسية للموديل): openai/whisper-large-v2
- Finetuning (إعادة التدريب والتخصيص): MohamedRashad/Arabic-Whisper-CodeSwitching-Edition
- Optimization (التحسين والضغط): التحويل لـ Faster-Whisper/CT2 (وهو الموديل الحالي اللي بين إيديك).
الخصائص التقنية (Technical Specs)
- Engine (محرك التشغيل): CTranslate2 (مكتبة برمجية لتشغيل الموديلات بسرعة وكفاءة عالية).
- Precision (دقة العمليات الحسابية):
fp16(أرقام عشرية، مخصصة لتسريع الأداء على كروت الشاشة اللي بتدعم تقنية CUDA) /int8(أرقام صحيحة، متظبطة عشان تشتغل بكفاءة على المعالج الأساسي CPU). - Behavior (سلوك الموديل): ذكاء عالي جداً في التمييز بين المصطلحات الإنجليزية والعربية جوه نفس الجملة أو السياق.
الاستخدام (Usage)
from faster_whisper import WhisperModel
# تحميل الموديل وتجهيزه للعمل على كارت الشاشة
model = WhisperModel('Mano200600/faster-whisper-large-v2-ar-codeswitching', device='cuda', compute_type='float16')
# تنفيذ عملية تحويل الصوت لنص
segments, _ = model.transcribe('audio.mp3', beam_size=5)
for segment in segments:
print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")
WhisperModel: النموذج الذكي (AI Model) المسؤول عن فهم وتحليل الصوت.device='cuda': توجيه العمليات لكارت الشاشة (Graphics Processing Unit - GPU) لضمان أداء أسرع بكتير من المعالج العادي.compute_type='float16': تقنية لتقليل استهلاك الذاكرة (Memory Efficiency) باستخدام أرقام عشرية بسيطة، وده بيسرع التنفيذ من غير ما يأثر على الجودة.transcribe: الوظيفة الأساسية (Function) اللي بتقوم بعملية التفريغ الصوتي.beam_size: عدد المسارات البديلة (Search Paths) اللي الموديل بيفحصها عشان يختار أدق كلمة ممكنة، ورقم 5 بيحقق توازن ممتاز بين الدقة والسرعة.
شكر وتقدير (Credits)
كل التقدير لفريق OpenAI على بناء البنية الأساسية للموديل، وللمطور Mohamed Rashad على مجهوده الكبير في تدريب النسخة المتخصصة في تداخل اللغات (Code-switching).
الاستشهاد الأساسي (Citations)
@article{radford2023robust,
title={Robust Speech Recognition via Large-Scale Weak Supervision},
author={Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya},
journal={arXiv preprint arXiv:2212.04356},
year={2023}
}
- Downloads last month
- 8