أظهر بحث جديد أنَّ مُولِّدات النّصوص المُحسّنة تُنتج الكثير من المعلومات المضلِّلة، وغالبًا لا يكتشف البشر هذه الأخطاء
عند بداية دخول مولّدات النّصوص الّتي تعمل بالذّكاء الاصطناعيّ إلى حياتنا، كان التّفاعل مع روبوت من هذا النّوع يقتصر على التّسلية. مع مرور الوقت، أصبحت مولِّدات النّصوص مثل، Chat-GPT ونظرائه جُزءًا لا يتجزّأ من تجربتنا الرّقميّة في كافّة المجالات القائمة على النّصوص: حيث تستعين بها الطّالبات لإنجاز واجباتهنَّ المدرسيّة، ويستخدمها الأطبّاء في الإجابة على استفسارات مرضاهم، وآخرون يلجأون لهذه البرامج بغرض طلب الدّعم العاطفيّ والنّصائح المهنيّة! تعمل هذه البرامج على إنشاء نصوص تحاكي المحادثات البشريّة، تبدو هذه النّصوص دقيقة وموثوقة، وذلك بفضل الصّياغات الحاسمة والواثقة. تشكّل أنظمة الذّكاء الاصطناعيّ تهديدًا صريحًا لمحرِّكات البحث المختلفة، حيث من المرجَّح أن تصبح هذه الأنظمة الوسيلة الرّئيسيّة في الوصول إلى المعلومات الرّقميّة، إذ يعتمد عليها المستخدمين بشكلٍ متزايد. تغيّرت العلاقة بين البشر والآلات بشكلٍ جذريّ، حيث انتقلت من الشَّكّ والحذر إلى الثّقة المتزايدة، وربّما ستتطوّر قريبًا إلى اعتماد حقيقيّ. وذلك على الرّغم من المحتوى المضلّل وغير الدّقيق الّذي يصدر أحيانًا عن مولّدات النّصوص، إذ قد يتضمّن أخطاء وادّعاءات غير صحيحة تُقدَّم على أنّها حقائق- وهو محتوى يُعرف باسم "الهلوسات".
علاقة البشر بالآلة، الّتي بدأت مُشبعة بالرّيبة والشَّكّ، تتحوّل تدريجيًا إلى علاقة ثقة، وربّما قريبًا ستتطوّر إلى اعتماد كامل. شخص يعمل مع مولّد نصوص| Shutterstock, Prostock-studio
أقلّ تحفّظات، أخطاء أكثر
في بحثٍ جديد، قارن باحثون من الجّامعة البوليتكنيكيّة في فالنسيا- إسبانيا بين إصدارات سابقة من نماذج اللّغة الكبيرة وبين إصدارات محسّنة وأكثر تقدّمًا، وكشفت الدّراسة عن نتائج مقلقة. حيث بيّن الباحثون أنّ الإصدارات السّابقة من نماذج اللّغة الكبيرة، والّتي تقوم عليها مولّدات النّصوص، اعتادت على التّحفّظ والامتناع عن الكثير من الأجوبة المضلّلة؛ بينما مالت النّماذج المحسّنة إلى الحزم- وقدّمت الكثير من الإجابات الخاطئة.
بيّنت الدّراسة، أنّه كلّما زاد حجم نماذج اللّغة وزاد خضوعها لتوجيهٍ أكثر- أي تمّ دمج عمليّات وسيطة إضافيّة أثناء تدّريبها، مثل: التّغذيّة الرّاجعة البشريّة لتحسين أدائها؛ كلّما ازدادت قُدرتها على تقديم إجابات صحيحة على الأسئلة السّهلة. مع ذلك، لم يخلو الأمر من غياب الدِّقّة حتّى عند الإجابة على الأسئلة الأكثر سهولة. أمّا عند اختبارها بأسئلة أكثر تعقيدًا، فقد ازداد مُعدّل الخطأ بشكلٍ ملحوظ. إذ مالت النّماذج المُحسّنة إلى تقديم أجوبة خاطئة، في حين كانت النّماذج السّابقة تتحفّظ أو تتهرّب من الإجابة على مثل هذه الأسئلة؛ بل وحتّى ترفض الرَّدّ بشكلٍ صريح. بالإضافة لذلك، كشفت الدّراسة أنّه في أغلب الحالات لم ينجح المستخدمون في تمييز أخطاء النّماذج، ولم يصنّفوا هذه الأخطاء كإجابات خاطئة.
قام البحث بتتبُّع عمليّة تطوير ثلاث مجموعات رئيسيّة من نماذج اللّغة الكبيرة: نماذج GPT، الّذي يُعدّ أساس روبوت Chat-GPT، نماذج لاما (Llama) التّابعة لشركة ميتا (فيسبوك سابقا)، ونماذج بلوم (BLOOM)، وهي ثمرة تعاون بين باحثين من مختلف أنحاء العالم. قام البحث بمقارنة إصدارات مختلفة من هذه النّماذج، بِدءًا من الإصدارات الأوّليّة وصولًا للنّماذج المحسّنة والمطوّرة. حيث تمّت عمليّة التّحسين والتّطوير من خلال عدّة طرق، منها: زيادة كمّيّة المتغيّرات الّتي يمكن للنّموذج تعلّمها خلال مرحلة التّدريب، زيادة كمّيّة المعلومات المستخدمة في التّدريب، ودمج أساليب التّقييم البشريّ في عمليّة التّعلّم.

كانت النّماذج المحسّنة أكثر حزمًا، لكنّها ترتكب الكثير من الأخطاء. روبوت يقرأ بنود اللّائحة العامّة لحماية البيانات في الاتّحاد الأوروبيّ، ويهلوس. صُمّمت الصّورة بالاستعانة بالذّكاء الاصطناعيّ | Shutterstock AI Generator
صحيح أم خاطئ، زيّف ببراعة
اختبر الباحثون النّماذج في خمسة مجالات معرفيّة ومهارات مختلفة: حسابات بسيطة، تحليل الأنانجرام (Anagram)- كلمات تمّ قلب حروفها، جغرافيا، علوم، وتدربيات الفهم المقروء. تفاوتت مستويات الأسئلة في المجالات الخمسة، من الأسهل إلى الأصعب. في مجال الأناجرام على سبيل المثال، تتطلّب الأسئلة السّهلة تحليل كلمات بسيطة من ثلاثة حروف، مثل "رمن" (نمر) بينما يتطلّب سؤال الأنجرام الصّعب تحليل كلمات طويلة وأكثر تعقيدًا مثل، "نطقتسنقينية" (قسطنطينيّة). بالإضافة إلى ذلك، قام الباحثون بإدراج مجموعة من البشر في التّجربة، حيث طُلِب من المشتركين الإجابة على أسئلة مشابهة لتلك الّتي قُدّمت للنّماذج، وصُنّفت الأسئلة بالأسئلة السّهلة في حال تمكُّن الغالبيّة من الإجابة عليها، وصُنّفت صعبة إذا عجِز معظم المشتركين في حلِّها.
صنّف الباحثون إجابات النّماذج المختلفة إلى ثلاث مجموعات: إجابات صحيحة، إجابات خاطئة، الامتناع عن الإجابة أو التّحفّظ. كانت النّماذج الأوّليّة متحفّظة، إذ تهرَّبت وامتنعت عن الإجابة على أغلب الأسئلة، سهلة كانت أم صعبة. إذ سيّطر الامتناع والتّهرّب على أجوبة هذه النّماذج، مع وجود نسبة قليلة من الإجابات الصّحيحة والكثير من الأخطاء. كلّما كانت النّماذج متطوّرة ومحسّنة، كُلمّا زادت نسبة الإجابات الصّحيحة على الأسئلة السّهلة، مع ذلك لم تكن نسبة الأخطاء معدومة. أمّا في حالة الأسئلة الصّعبة، فقد استبدلت حالات الامتناع الّتي كانت سائدة في النّماذج الأوّليّة، بإجابات خاطئة في معظم الأحيان. بكلماتٍ أخرى، على الرّغم من ملاحظة تحسّن في أداء النّماذج المطوّرة؛ إلّا أنَّ هذا التّحسّن اقتصر، في الغالب، على كمّيّة الإجابات الصّحيحة للأسئلة السّهلة الّتي لم تُشكّل أيّ تحدٍ للبشر. أمّا بالنّسبة للأسئلة المعقّدة، فقد مالت النّماذج المُحسّنة إلى تقديم إجابات مضلِّلة وغير دقيقة، بدلًا من الامتناع عن الإجابة. إذ تزداد حِدّة هذه الظّاهرة مع تطوّر نموذج اللّغة. كما وأوضحت الدّراسة أنّ تكرار الإجابات الصّحيحة في فئة المعرفة العلميّة كان قريبًا من معدّل التّخمين العشوائيّ.
أشار الباحثون في المقالة، أنّ أيّ مستوًى من مستويّات صعوبة الأسئلة لم يخلو من عدم الدّقّة: حيث ارتكبت النّماذج على اختلاف إصداراتها العديد من الأخطاء حتّى في حالة الأسئلة الأكثر سهولة، أمّا في حالة الأسئلة المعقّدة، تزداد حدّة هذه الأخطاء بتطوّر إصدار النّموذج. أعرب الباحثون عن قلقهم تجاه الفجوة بين توقّعات المستخدمين من مولّدات النّصوص وبين قُدراتها الفعليّة. " تُظهِر هذه النّماذج قدرة عالية على إنجاز مهامّ معقّدة معيّنة بشكلٍ يُضاهي القدرات البشريّة، في حين قد تفشل في حلّ مسائل بسيطة ضمن نفس المجال. على سبيل المثال، قد تنجح في حلّ مسائل رياضيّة بمستوى الدّكتوراه، لكنّها قد تخطئ في عمليّات جمع بسيطة." أوضح خوسيه هيرنانديز أورالو (Hernández Orallo)، أحد مؤلّفي الدّراسة.

درس الباحثون ما إذا كان التّفكير النّقديّ البشري قادرًا على كشف أخطاء نماذج اللّغة. رسم توضيحيّ لأشخاص يتحقّقون من محتوى الرّوبوت باستخدام مصباح وعدسة مكبّرة | Shutterstock, mongmong_Studio
بدأ درع الحماية البشريّ بالتّصدّع
فحص الباحثون ما إذا كان التّفكير النّقديّ البشريّ قادرًا على تمييز أخطاء النّماذج. حيث قاموا بعرض الأسئلة الّتي طُرحت على نماذج اللّغة بالإضافة إلى الإجابات الّتي قدّمتها على مشتركين بشريّين، وطلبوا منهم تقييم هذه الإجابات إلى: إجابات صحيحة، خاطئة، متحفّظة، أو أنّهم لا يعرفون. ركّزت الدّراسة بشكلٍ أساسيّ على المنطقة الّتي تمَّ تعريفها "بمنطقة الخطر": وتمثّل الإجابات الخاطئة الّتي قدّمتها النّماذج، ولم يستطع المشتركون تمييز الخطأ فيها.
كان من السّهل على المشتركين تمييز أخطاء النّماذج في فئة الجمع والأنانجرام على مختلف مستويات الصّعوبة. وذلك لأنّ عمليّة التّحقّق من هذه الاجابات كانت مباشرة وسهلة. فمن السّهل على سبيل المثال تمييز أنَّ كلمة "دعياطقمة" ليست أناجرامًا صحيحًا لكلمة ديموقراطيّة. أمّا في الأسئلة الّتي تتطلّب معرفة متخصّصة في مواضيع مثل الجغرافيا والعلوم، فلم ينجح المشتركون في أغلب الحالات من تحديد خطأ النّماذج. وفقًا للباحثين، تشير هذه النّتائج على أنّ التّقييم البشريّ غير قادر على تمييز الأخطاء المتزايدة لنماذج اللّغة، ممّا يدلّ على وجود ثقة مفرطة فيها.
انتبهوا وكونوا يقظين
تستطيع النّماذج المُحسّنة تقديم عدد أكبر من الإجابات الصّحيحة، ولكنّها تميل في ذات الوقت إلى ارتكاب الكثير من الأخطاء بدلًا من التّحفّظ أو الامتناع عن الإجابة، خاصّة في حالة الأسئلة الصّعبة. رغم ذلك، يشير البحث أيضًا إلى جانب إيجابيّ: حيث أظهرت النّتائج أنّ تطوير نماذج اللّغة ساهم في تعزيز استقرارها، أي تزداد قدرتها على إنتاج أجوبة مُتّسقة وتقلّ احتماليّة الحصول على إجابات مختلفة لنفس السّؤال.
مع التّطوّر المستمرّ في مجال الذّكاء الاصطناعيّ، من الضروريّ أن نحرص على التّأكّد من صحّة المعلومات الّتي نتلقّاها من هذه البرامج. فعلى الرّغم من أنَّ التّفاعل مع روبوتات الذّكاء الاصطناعيّ قد يبدو مريحا وبديهيًّا، عليّنا أن لا نسمح لهذه الصّفات بخداعنا. لقد كان الإنترنت وما زال يضجّ بالمعلومات المضلّلة حتّى قبل ظهور تقنيّات الّذكاء الاصطناعيّ، ممّا يؤكِّد ضرورة استمرار الرّقابة البشريّة والتّفكير النّقديّ لمخرجات هذه النّماذج، كما لا بدّ من طرح الأسئلة، والتّشكيك في صحّة المعلومات لضمان استخدام واعٍ ومدروس لهذه التّقنيّات.