غوغل تؤكد: دقة روبوتات الدردشة بالذكاء الاصطناعي لا تتعدى 70%

أظهرت دراسة حديثة أجرتها جوجل أن دقة روبوتات الدردشة التي تعتمد على الذكاء الاصطناعي لا تتجاوز 70% في كثير من الحالات، مما يثير تساؤلات حول موثوقية هذه النماذج في تقديم معلومات دقيقة. وقد كشفت الدراسة المُكثّفة عن نقاط ضعف رئيسية في أداء هذه الأنظمة، حتى في المهام التي تبدو بسيطة، وتأثير ذلك على مستقبل تطبيقات النماذج اللغوية.
نشرت جوجل نتائج هذه الدراسة في تقرير مفصل مكون من 18 صفحة، يوضح منهجية الاختبار التي استخدمتها والأسباب الكامنة وراء التقييمات المنخفضة. ويهدف هذا التقييم الشامل إلى فهم حدود هذه التكنولوجيا وتحديد المجالات التي تتطلب تحسينًا، وذلك في ظل الانتشار الواسع لاستخدامات تطبيقات الذكاء الاصطناعي.
تقييم دقة نماذج الذكاء الاصطناعي
وفقًا للتقرير، تتضمن الأخطاء التي ترتكبها النماذج اللغوية تقديم إجابات غير صحيحة على الأسئلة، حتى وإن بدت هذه الإجابات منطقية للوهلة الأولى. تؤكد جوجل على أهمية إجراء مثل هذه الاختبارات لضمان جودة المعلومات التي تقدمها هذه الأدوات، خاصةً مع زيادة الاعتماد عليها في مختلف المجالات.
حقق نموذج “جيميناي 3 برو” الأداء الأفضل في الدراسة، حيث تجاوزت نسبته 69%. تبعه نموذج “جيميناي 2.5 برو” بنسبة 62%، ثم “جي بي تي 5” بنسبة 61.8%. بينما جاء أداء “كلود أوبس 4.5″ أقل بقليل، محققًا نسبة 51%، و”غروك” حصل على نسبة 53%. هذا التباين في الأداء يوضح الفروق الكبيرة بين النماذج المختلفة.
منهجية الاختبار الشاملة
اعتمدت مختبرات “ديب مايند”، التابعة لجوجل والمسؤولة عن هذه الدراسة، على أربعة معايير مختلفة لتقييم أداء النماذج. تضمنت هذه المعايير قياس القدرة على استرجاع المعلومات من قاعدة المعرفة الداخلية، والبحث عن المعلومات على الإنترنت، وفهم وتحليل الصور، وتقديم إجابات متسقة مع سياق محدد. تهدف هذه المعايير المتنوعة إلى تقييم النماذج من جوانب مختلفة.
وقد تم مشاركة نتائج كل معيار على نطاق واسع مع مجتمع “كاغل” (Kaggle) العلمي، وهو مجتمع بارز يضم خبراء ومهتمين بعلوم البيانات. جوجل احتفظت أيضًا بمجموعة من الاختبارات بشكل خاص لإجراء تحليل أكثر تفصيلاً. تم حساب النتيجة النهائية لكل معيار بناءً على متوسط نتائج الاختبارات العامة والخاصة.
بالإضافة إلى ذلك، حللت الدراسة أداء النماذج في قطاعات محددة مثل الموسيقى والتكنولوجيا والتاريخ والعلوم والرياضات وحتى السياسة والبرامج التلفزيونية.
تباين في النتائج حسب المعايير
أظهرت الدراسة تباينًا كبيرًا في النتائج بين النماذج المختلفة، اعتمادًا على نوع الأسئلة والمعيار المستخدم. على سبيل المثال، تفوق “شات جي بي تي 5” في معيار الأساس ومعيار البحث، في حين كان المعيار متعدد الوسائط هو الأكثر تحديًا لجميع النماذج.
في المقابل، يلاحظ أن نموذج “غروك 4 فاست” (Grok 4 Fast) كان الأقل أداءً في جميع الاختبارات، حيث بلغت نتيجته المتوسطة 36%، وانخفضت إلى 17% في المعيار متعدد الوسائط و15% في المعيار البارامتري.
تؤكد جوجل أن هذه النتائج تسلط الضوء على الحاجة إلى تطوير وتحسين نماذج الذكاء الاصطناعي، خاصةً في المجالات التي تتطلب دقة عالية. وتشير إلى أن الأخطاء الصغيرة في الإجابات قد تكون لها عواقب وخيمة في قطاعات مثل الرعاية الصحية أو التمويل. تطوير النماذج اللغوية يتطلب جهودًا متواصلة.
كما أضافت جوجل أن هذه النتائج تمثل نقطة انطلاق لمزيد من البحوث والدراسات في مجال الذكاء الاصطناعي، وستساعد في تحديد أفضل الممارسات لتطوير نماذج أكثر موثوقية ودقة. ويشمل ذلك تطوير أساليب جديدة لتقييم أداء النماذج وتحديد نقاط الضعف فيها.
من المُتوقع أن تستمر جوجل في إجراء اختبارات وتقييمات دورية لـ الذكاء الاصطناعي، مع التركيز على تحسين جودة المعلومات التي تقدمها هذه النماذج. وفي الوقت الحالي، لا يوجد جدول زمني محدد لإصدار نسخة جديدة من التقرير، ولكن من المرجح أن يتم ذلك في النصف الأول من عام 2026. وسيكون من المهم متابعة التطورات في هذا المجال وتقييم مدى تأثيرها على تطبيقات الذكاء الاصطناعي المختلفة.

