«بلسم».. 22 نموذجا.. و12.786 سؤالا

أطلق مجمع الملك سلمان العالمي للغة العربية تقرير النصف الأول للعام الجاري لمؤشر نضج تقنيات الذكاء الاصطناعي «بلسم».
ويهدف «بلسم» إلى تقييم أداء النماذج اللغوية الضخمة «LLMs» في مجموعة من مهام معالجة اللغة الطبيعية، عبر منصة موحدة تُيسّر على المطورين والباحثين فهم أداء النماذج في المجالات اللغوية المختلفة.
وأوضح الدكتور عبد الله الوشمي، الأمين العام للمجمع أن إطلاق تقرير مؤشر «بلسم» يجسد التزام المجمع بقيادة الجهود السعودية في دعم المحتوى العربي الرقمي، مشيرًا إلى أنه يعد مرجعًا لأدوات موضوعية لتقييم أداء النماذج، وتحليل مخرجاتها، وتطويرها بما يتوافق مع الخصائص اللغوية العربية.
وقال: «التقرير أُعد بالشراكة مع عدد من الجهات المختصة، عبر تطوير منهجية متقدمة للتقييم، تجمع بين التحكيم البشري والتقييم الآلي عالي الدقة، للوصول إلى مقاييس تقارب نتائج التحكيم البشري بنسبة 0.88 في المئة، وهو ما يمنح المؤشر موثوقيةً عاليةً تسهم في اعتماده على المستويين البحثي والتطبيقي.
وشملت الجهات المشاركة في إعداد التقرير: الهيئة السعودية للبيانات والذكاء الاصطناعي «سدايا»، وجامعة الملك سعود، وجامعة الملك عبد العزيز، وجامعة بيشة، وجامعة قطر، وجامعة الملك عبد الله للعلوم التقنية، ومعهد قطر لبحوث الحوسبة «QCRI»، وجامعة محمد بن زايد للذكاء الاصطناعي، وجامعة نيويورك أبوظبي، وشركة «aiXplain»، إضافةً إلى مجموعة من الباحثين والخبراء في الذكاء الاصطناعي واللغة العربية.
ويعرض التقرير نتائج تقييم شاملة لـ «22» نموذجًا لغويًّا، استنادًا إلى «12.786» سؤالًا موزعة على «54» مهمة ضمن «13» فئة لغوية، تتنوع بين الترجمة، والتلخيص، والكتابة الإبداعية، والفهم القرائي، والبرمجة، والتصنيف، وغيرها من المهام المتصلة بمعالجة اللغة الطبيعية.
ويُقدّم التقرير أيضًا تحليلات مفصّلة لأداء النماذج، ويُيسّر المقارنة بينها، ويساعد في تحديد نقاط القوة والضعف لكل نموذج بحسب المهمة.
ويُعدُّ مؤشر «بلسم» أحد مشاريع المجمع في تمكين الحوسبة اللغوية، وتوسيع نطاق الذكاء الاصطناعي الموجّه للعربية، ويُسهم في دعم منظومة الابتكار التقني التي تسعى السعودية إلى تعزيزها، ضمن مستهدفات التحول الرقمي، ومبادرات المحتوى المحلي، وبناء القدرات الوطنية في تقنيات اللغة.