تخطَّ إلى المحتوى
core ai

تقييمات النماذج اللغوية (LLM Evals)

تقييمات النماذج اللغوية (LLM Evals) هي اختبارات منظمة وقابلة للتكرار تقيّم مخرجات نموذج أو وكيل الذكاء الاصطناعي وفق معايير محددة — الدقة، الأسلوب، الأمان، والتعامل مع اللهجات — باستخدام مجموعة ثابتة من الأسئلة الاختبارية، بحيث تُقاس الجودة بشكل موضوعي بدلاً من الحكم عبر تصفح بضع محادثات فقط.

تُبنى مجموعة التقييم من مجموعة تمثيلية من حالات اختبار حقيقية أو واقعية — أسئلة عملاء فعلية، حالات حدّية، ومحاولات تصادمية لكسر الوكيل — كل منها مقترن بإجابة معروفة الصحة أو معيار يصف شكل الإجابة الجيدة. تُقاس المخرجات الفعلية للنموذج أو الوكيل مقابل ذلك المعيار، إما عبر نموذج تصحيح آلي ('LLM كحكم')، أو فحص قائم على قواعد، أو مراجعين بشريين، لينتج معدل نجاح أو درجة جودة. تُجرى التقييمات قبل الإطلاق لرصد الأعطال، وباستمرار بعده حتى لا يؤدي تغيير في الطلب أو ترقية النموذج أو إضافة مستند جديد لقاعدة المعرفة إلى تدهور صامت في الجودة — وهذا ما يميّز النظام الإنتاجي عن مجرد عرض توضيحي.

بالنسبة لنشر يستهدف العربية أولاً، تُصبح التقييمات أكثر أهمية منها في الأسواق الناطقة بالإنجليزية فقط، لأن أخطاء اللهجة والرسمية يسهل تفويتها في عرض سريع لكنها واضحة لعميل حقيقي: قبل تفعيل وكيل صوتي لعميل في جدة، نُشغّل نصوصه مقابل مجموعة اختبار بلهجة حجازية ونتحقق من التعامل الصحيح مع المزج اللغوي (عربية ممزوجة بأسماء علامات أو منتجات إنجليزية)، مع التأكد من أن معدل النجاح يتجاوز حداً متفقاً عليه قبل الإطلاق، ونعيد تشغيل نفس المجموعة بعد أي تغيير في الطلب أو النموذج الأساسي.

تبحث عن استشارة مخصصة؟

دعنا نساعدك في فهم وتطبيق هذه التقنيات بما يتناسب مع متطلبات وأهداف شركتك.

احجز مكالمة تعريفية
تواصل عبر واتساب