التعرف الآلي على الكلام (ASR)

يستمع نموذج ASR إلى تدفق صوتي وينتج النص المقابل له، عادة خلال جزء من الثانية في حالات الاستخدام الفوري مثل المكالمات الهاتفية. تُدرَّب أنظمة ASR الحديثة على كميات كبيرة من التسجيلات المُفرَّغة، ويجب أن تتعامل مع ضوضاء الخلفية والتداخل بين المتحدثين واللهجات وجودة الصوت الهاتفي (الذي يفقد جزءاً كبيراً من المدى الترددي الذي تعتمد عليه أذن الإنسان). تُقاس الدقة عادة بمعدل خطأ الكلمات (WER) — نسبة الكلمات التي يخطئ فيها النموذج مقارنة بنص بشري.

بالنسبة للعربية، يُعد ASR أصعب بشكل ملحوظ مقارنة بالإنجليزية: معظم بيانات التدريب العامة هي فصحى (نشرات إخبارية، كتب صوتية) بينما يتحدث المتصلون الفعليون باللهجة المصرية أو الخليجية أو الشامية، وتتفاوت مفردات اللهجات العربية بشكل كبير بين المناطق. محرك ASR عام مُقاس على الفصحى قد يبدو دقيقاً في عرض توضيحي لكنه يفشل بشكل واضح في مكالمة عميل حقيقية من جدة أو القاهرة. لهذا يحتاج وكلاء الصوت الإنتاجيون في الخليج ومصر إلى ASR تم تقييمه تحديداً مقابل تسجيلات لهجات قبل الإطلاق، وليس فقط مقابل معايير الفصحى — راجع التعرف الآلي على اللهجات.

مصطلحات ذات صلة

خدمات ذات صلة

رد آلي ذكي للعيادات — لا مكالمة تضيع، ولا حجز يفوتك

تبحث عن استشارة مخصصة؟