مقدمة عن التعرف التلقائي على الكلام

التعرف على الكلام هو قدرة الجهاز أو البرنامج على تحديد الكلمات المنطوقة بصوت عال وتحويلها إلى نص قابل للقراءة. يمكن لأبسط برامج التعرف على الكلام تحديد عدد محدود من الكلمات والعبارات ، وفقط عندما يتم التحدث بها بوضوح شديد. يمكن للبرامج الأكثر تقدمًا التعامل مع الكلام الطبيعي واللهجات المختلفة واللغات المتعددة. تعتمد تقنية التعرف على الكلام على البحث في علوم الكمبيوتر واللغويات والهندسة. تتمتع العديد من الأجهزة الشائعة والبرامج النصية بقدرات التعرف على الكلام لتسهيل التشغيل بدون استخدام اليدين. يُقدم OpenAI مشروع Whisper وهي شبكة عصبية مفتوحة المصدر مدربة تقترب من متانة ودقة مستوى الإنسان في التعرف على الكلام باللغة الإنجليزية.

التعرف على الكلام

التعرف على الكلام هو قدرة برنامج الكمبيوتر على معالجة الكلام البشري وتحويله إلى نص مكتوب. هذا يختلف عن التعرف على الصوت، الذي يسعى ببساطة إلى تحديد مستخدم فردي بصوته.

التعرف على الكلام: يستخدم لتحديد الكلمات في اللغة المنطوقة.
التعرف على الصوت: هي تقنية بيومترية لتحديد صوت الفرد.

تستخدم أنظمة التعرف على الكلام الكمبيوتر خوارزميات لمعالجة وتفسير الكلمات المنطوقة وتحويلها إلى نص. يحول برنامج الصوت الذي يسجله الميكروفون إلى لغة مكتوبة يمكن لأجهزة الكمبيوتر والبشر فهمها. يتم ذلك باتباع الخطوات الأربع التالية:

1- تحليل الصوت
2- تقسيمها إلى أجزاء
3- تحويلها لتنسيق قابل للقراءة بواسطة الكمبيوتر
4- استخدم خوارزمية لمطابقتها مع تمثيل النص الأكثر ملائمة

يجب تدريب الخوارزميات التي تعالج وتنظم الصوت في نص لبرنامج التعرف على الكلام على أنماط الكلام المختلفة وأنماط التحدث واللغات واللهجات, لهجات وتصفيحات للتكيف مع الطبيعة المتغيرة للغاية والخاصة بالسياق للكلام البشري. يفصل البرنامج أيضًا الصوت المنطوق عن ضوضاء الخلفية التي غالبًا ما تصاحب الإشارة.

مشروع Whisper

يستخدم نظام Whisper التعرف التلقائي على الكلام لنسخ الكلام بلغات متعددة. ويتم تدريبه على 680,000 ساعة من البيانات من الويب، مما يمنحها دقة محسنة للهجات وضوضاء الخلفية واللغة التقنية. يتم فتح النظام من مصادر مفتوحة حتى يتمكن الأشخاص من استخدامه لبناء تطبيقات مفيدة وإجراء المزيد من الأبحاث حول معالجة الكلام القوية.

الهندسة المعمارية

يتم عرض بنية نموذج Whisper على النحو التالي:

تستخدم بنية Whisper محولًا مع برنامج ترميز وفك تشفير لتقسيم الصوت إلى قطع مدتها 30 ثانية، وتحويله إلى برنامج طيفي log-Mel، ثم إنشاء تسميات نصية. يمكن استخدامه أيضًا في مهام مثل تحديد اللغة والطوابع الزمنية على مستوى العبارة ونسخ الكلام متعدد اللغات وترجمة الكلام إلى اللغة الإنجليزية.

مشروع Whisper هو نموذج للتعرف على الكلام تم تدريبه على مجموعة بيانات كبيرة ومتنوعة.

أداء النموذج

لا يتخصص في مجال واحد ولا تتفوق على النماذج المصممة خصيصًا لمهمة معينة. ومع ذلك فهو أقوى بكثير من تلك النماذج ويحدث أخطاء أقل. تستخدم الأساليب الأخرى الموجودة في كثير من الأحيان مجموعات بيانات تدريب نصية صوتية أصغر حجمًا وأكثر إقرانًا أو تستخدم تدريبًا مسبقًا صوتيًا واسعًا ولكن غير خاضع للإشراف.

يُعد Whisper أكثر قوة من الطرز الأخرى عندما يتعلق الأمر بأداء خالي من الضربات عبر العديد من مجموعات البيانات المتنوعة مما يجعل الأخطاء أقل بنسبة 50٪

خاتمة

تتطور تقنية التعرف على الكلام باستمرار. وهذا يجعل من الممكن للأشخاص التواصل مع أجهزة الكمبيوتر دون الحاجة إلى الكتابة. وتُستخدم هذه التقنية في العديد من تطبيقات الأعمال المختلفة. ولقد قطعت برامج التعرف على الكلام شوطًا طويلاً في السنوات الماضية. وتستمر في التحسن خاصة بسبب الذكاء الاصطناعي. ونموذج Whisper هو مجرد أحد التطورات في هذا المجال.

كما هو الحال دائمًا، إذا كانت لديك أي أسئلة أو شعرت بالتعثر أو أردت فقط أن تقول مرحبًا، فقم بالإنضمام على Telegram او Discord وسنكون أكثر من سعداء لمساعدتك!