في الأشهر الأخيرة، اطّلعنا على برامج الذكاء الصناعيّ القادرة على إنشاء صور أصليّة حسب الطلب. كيف تفعل ذلك؟

أصبح مجال إنشاء الصور الرقميّة مؤخّرًا ملعبًا خصبًا للذكاء الصناعيّ. تعتمد الواجهة عادة على الكتابة: يقوم المستخدم بإدخال الكلمات المفتاحيّة للحاسوب ويقوم الذكاء الصناعيّ بإنتاج صورة وفقًا لطلبه. يمكن تفصيل الوصف، مثل "كلب هاسكي أخضر يركب دراجة أحاديّة الإطار على طريق سريع، بأسلوب هزليّ" أو يمكن أن يكون أكثر خياليًّا، مثل "قلعة خياليّة".

ينجح الذكاء الصناعيّ اليوم في إنشاء رسومات معقّدة ودقيقة، ويستجيب لطلبات متنوّعة لدرجة ملاءمة المُنتَج مع أسلوب رسم معيّن، مثل الرسم الزيتيّ، وكلّ ذلك في غضون دقائق قليلة. هناك العشرات من أنواع الذكاء الصناعيّ المختلفة، ولكلّ منها نقاط تركيز مختلفة، والّتي تتيح خيارات مختلفة للمستخدمين وتعبّر عن مجموعة متنوّعة من الأساليب لإنشاء الصور. حتّى أنَّ بعضها قد تطوّر إلى امكانيّة إنشاء فيديو. ومع ذلك، فإنَّ الفنّ الّذي يصنعه برنامج الذكاء الصناعيّ له أيضًا نقاط ضعف ومركّبات تستصعب إنشاء مُنتَجات بشكل صحيح.

من الطبيعيّ أن نتساءل كيف يمكن للذكاء الصناعيّ رسم صور أصليّة، وهل يمكن تسمية هذه الصور فنًّا؟ السؤال الأوّل له إجابة واضحة، والثاني مراوغ وخاضع للتأويل؛ لذا لن أتطرّق إليه هنا.

بتعبير أدقّ، يمكن القول أنَّ التحدّي الّذي تواجهه برامج الذكاء الصناعيّ الحاليّة محدّد ومحدود: فهي تقوم بإنشاء  صور  وفقًا لتزويدها بوصف كلاميّ-  على سبيل المثال "قطّتان في سلّة". يتمّ تقييم جودة المنتَج في النهاية وفقًا لمطابقته للوصف الكلاميّ. 

תמונות של ג'ירפות עם כנפי דרקון, שציירה דאלי 2
كيف يمكن للذكاء الصناعيّ رسم صور أصليّة؟ صور لزرافات بأجنحة تنين رسمها دالي 2 | DALL E artificial intelligence

صورة تساوي ألف كلمة

لفَهم كيف يحصل ذلك، سنركّز هنا على اثنين من أكثر أنواع الذكاء الصناعيّ تقدّمًا والمتاحة اليوم: دالي 2 DALL-E 2 التابع لشركة OpenAI وإيماجين (Imagen) لشركة جوجل. هذان بالطبع مثالان فقط من مجموعة واسعة من أنواع الذكاء الصناعيّ الموجودة في السوق اليوم وتقدّم مجموعة كبيرة ومتنوّعة من الواجهات والخيارات. نظرًا لأنَّ تعريف المَهمّة هو "إنشاء صورة وفقًا لوصف كلاميّ"، فمن الممكن تقسيمها إلى مكوّنين رئيسَين: فَهم المتطلّبات اللفظيّة وإنشاء صورة تلبّيها.

نحن كبشر معتادون جدًّا على التواصل الكلاميّ، ويبدو الجزء الأوّل واضحًا لنا. لكن في الحقيقة هذا جزء مهمّ من بناء البرنامج. يُسمّى جزء الذكاء الصناعيّ المخصَّص لفَهم اللغة ترميز النصّ. يقوم دالي 2 وإيماجين بتنفيذ هذه المَهمّة بطرق مختلفة.

يستخدم دالي 2 نموذجًا يُسمَّى التدريب المبكّر المتباين للّغة والصورة، أو باختصار CLIP. ينكشف الذكاء الصناعيّ بهذه الطريقة لقاعدة بيانات كبيرة من الصور- والّتي تتضمّن في هذه الحالة حوالي 15 مليون عنصر- مع وصف كلاميّ لمحتواها. يتعلّم الذكاء الصناعيّ الروابط بين المضمون الكلاميّ للأوصاف والخصائص المرئيّة للصور (يقوم "بالتدرّب"). ونتيجة لذلك؛ يمكنه أيضًا تحديد مدى تطابق الصور الّتي ينشئها مع النصّ الّذي يُدخله المستخدم.

תמונה שהפיקה דאלי 2 בתגובה לבקשה "בניינים במדבר בסגנון האדריכלית זהא חדיד"
التدريب على حوالي 15 مليون صورة، لتعليم البرنامج مطابقة النصّ بالصورة. صورة أنتجتها دالي 2 استجابة لطلب مفاده "عمارات في الصحراء على طراز المعماريّة زَها حديد" | DALL E artificial intelligence

في المقابل، تعتمد إيماجين على نموذج مُقيَّد ومُدرَّب مسبقًا للّغة يُسمَّى T5-XXL - وهو اختصار لـ "محوّل طاقة كبير جدًّا  لنسخ نصّ إلى نصّ". لتدريب T5-XXL، استخدموا قواعد بيانات نصّيّة على شكل قوالب أسئلة وأجوبة (على سبيل المثال، "ماذا يفعل الناس في الليل؟ إنّهم نائمون")، والتصنيفات (على سبيل المثال، "القطط هي حيوانات")، والترجمات من لغة إلى لغة.

هدفَ التدريب هو تعليم الذكاء الصناعيّ إكمال الفقرات بدقّة: للإجابة عن الأسئلة، لترجمة أو تصنيف كِيانات. لا يعتمد النموذج على الصور، لذا فإنَّ قاعدة البيانات الّتي كانت متاحة له أكبر بكثير من تلك الّتي توفّرت لـ CLIP.

بعد ذلك، قمنا بتدريب إيماجين على قاعدة بيانات للصور المشروحة، والّتي كانت جزءًا من قاعدة بيانات جوجل الداخليّة وجزءًا آخر عامًّا. اختار مبرمجو جوجل عدم تدريب لغة ترميز إيماجين- الطريقة الّتي يتمّ بها ترجمة النصّ إلى تمثيل مناسب للذكاء الصناعيّ للعمل به- بشكل مستقلّ، وفضّلوا الاعتماد على الترميز الناتج من T5-XXL وتركه مُقيّدًا.

מונה של כוס קפה עשויה מתות ושל קקטוס עם כובע קש ומשקפי שמש, שיצרה אימג'ן
استخدم تدريب إيماجين قواعد البيانات النصّيّة- الأسئلة، الأجوبة، التصنيفات والترجمات. صورة فنجان قهوة مصنوع من الفراولة والصبّار مع قبّعة من القشّ ونظّارات شمسيّة، تمّ إنشاؤها بواسطة إيماجين | Imagen, Google

الضوضاء في الصورة

بعد تزويد الذكاء الصناعيّ بنموذج لفهم اللغة، تبدأ عمليّة تدريبه على إنشاء الصور. هناك عدّة طرق لتدريب الذكاء الصناعيّ على مثل هذه المهام. يستخدم كلّ من دالي 2 وإيماجين طريقة تُسمّى نموذج الانتشار، حيث تبدأ التدريب بصورة معروفة وتضيف لها ضوضاء تدريجيًّا.

الضجيج في هذه الحالة ليس ضوضاء صوتيّة، بل تشوّهات عشوائيّة في طبيعة الألوان الظاهرة عند كلّ نقطة بكسل (Pixel) وشدّتها. بشكل عامّ، يمكن أن تتضمّن أيّة إشارة يتمّ إرسالها في أيّ اتصال، ضوضاء من عدّة أنواع، على سبيل المثال في اللون، في الإشارة الكهربائيّة أو في الكلام. يتمّ التعبير عن الضوضاء بإشارة عشوائيّة تتزامن مع الإشارة المرغوبة، في نفس الوسط وفي نفس الوقت. على سبيل المثال، عندما يتعلّق الأمر في ضوضاء الصوت، مثل تلك الّتي نعرفها من الحياة اليوميّة، فإنَّ الضوضاء هي موجات صوتيّة تأتي من الأشياء القريبة والعمليّات الّتي تحدث في البيئة المباشرة وتتداخل مع استقبال الإشارة المطلوبة.

تعتبر هذه الإشارات ضوضاء إذا لم يكن لها معنى من وجهة نظر المستمع (ضوضاء بيضاء)، أو إذا كان لها معنى ولكنّها ببساطة ليست الإشارة الّتي يحاول المستمع التقاطها- على سبيل المثال، الموسيقى الصاخبة الّتي تعيق محادثة.

للضوضاء ميزتان مهمّتان لموضوع مقالتنا. إحداهما هي  شدّتها، أو حجم الاهتزازات الّتي يمكن توقّعها. والثانية هي متوسّط ​​القيمة الّتي تتحرّك حولها هذه الاهتزازات. شدّة الضجيج هي ميزة معروفة يسهل العثور على العديد من الأمثلة اليوميّة المتعلّقة بالصوت. بالمقابل، لا تنعكس القيمة المتوسّطة للضوضاء في السياق الصوتيّ؛ لأنَّه يتمّ التعبير عن الصوت بواسطة الموجات، وهي اهتزازات متناظرة في وضعيّة الراحة للهواء. هذا يعني أنَّ قيمة الاهتزاز المتوسّطة هي صفر.

بالمقابل، يمكنك أيضًا العثور على قِيَم متوسّطة مختلفة عن الصفر في الألوان. في إحدى الطرق الّتي تصف بها أجهزة الحاسوب اللون، يكون لكلّ بكسل في الصورة ثلاث قِيَم عدديّة، والملائمة لمقدار اللون الأحمر أو الأزرق أو الأخضر فيه. مجموعات مختلفة من هذه القيم تعيد إنتاج جميع الألوان الّتي تستطيع العين البشريّة رؤيتها بتقريب جيّد. إذا كان الأمر كذلك، يمكن التعبير عن ضوضاء اللون، على سبيل المثال، على أنّها اضطراب في البكسل، والّذي يغيّر عشوائيًّا درجة اللون الأخضر فيه، ويزيده في المتوسّط ​​عن القيمة الأصليّة.

מחשב עם דאלי 2 עליו
تمّ تدريب دالي 2 وإيماجين باستخدام طريقة تبدأ فيها بصورة معروفة وتضيف لها ضوضاء تدريجيّا.جهاز حاسوب مع برنامج دالي 2 | Shutterstock, Diego Thomazini

ضوضاء ونماذج الانتشار

يتمّ تدريب الذكاء الصناعيّ على النحو التالي: يبدأ الذكاء الصناعيّ بصورة واضحة يعرف كيف يتعرّف عليها، أو  عرّفها المبرمجون عليها، ويضيف إليها ضوضاء بشكل تدريجيّ ومنضبط. تتمّ عمليّة إضافة الضجيج بخطوات صغيرة، بحيث يتمكّن الذكاء الصناعيّ في كلّ مرحلة من التعرّف على التغيير الناجم عن الضوضاء والتعلّم منه. تستمرّ العمليّة حتّى يبقى في الصورة التشويش فقط، بخصائص معروفة وموحّدة لا تعتمد على الصورة ولا على النموذج الّذي يتمّ تطبيق الذكاء فيه. مثال على الضجيج الموحّد هو "الثلج" الّذي شوهد على شاشات التلفزيون القديمة الّتي عملت دون استقبال أيّة قناة.

تُعلِّم عمليّة تشويش الصورة الذكاء الصناعيّ بالضبط ما هي الضوضاء الّتي يجب تطبيقها على الصورة المعيّنة من أجل الوصول في النهاية إلى ضوضاء موحّدة، والخطوات الوسيطة خلال عمليّة الإنشاء- مقدار التشويش الّذي تمّت إضافته في كلّ خطوة، وماذا كان متوسّط ​​قيمة الصورة وشدّة الضوضاء المحيطة بها في الصورة الّتي تمّ الحصول عليها في تلك الخطوة. في الخطوة التالية، حيث يُطلب من الذكاء الصناعيّ إنشاء صورة حسب الطلب، فإنّه يؤدّي نفس العمليّة في الاتجاه المعاكس.

تبدأ من المنتَج النهائيّ لعمليّة الضوضاء- ضوضاء موحّدة- وتنظّفه بواسطة سلسلة من الخطوات الصغيرة حتّى تصل إلى صورة نظيفة تفي بالطلب. تُذكّرنا هذه العمليّة إلى حدّ كبير بالنظريّة الّتي عبّر عنها فنّان عصر النهضة مايكل أنجلو تجاه حرفة النحت، موضّحًا "المنحوتة النهائيّة موجودة بالفعل في كتلة الرخام. أنا أُزيل فقط الموادّ غير الضروريّة بالإزميل".

تحتاج إيماجين إلى ثلاث خطوات لإنشاء صور عالية الدقّة: أوّلًا، تأخذ "صورة" ضوضاء وتنتج منها بواسطة سلسلة من الخطوات الصغيرة الصورة المطلوبة بدقّة منخفضة. بعد الحصول على صورة نظيفة، فإنّها تزيد من الدقّة- وتحوّل كلّ بكسل إلى مجموعة من وحدات البكسل ذات الدقّة المتوسّطة، وتنظّف الضوضاء مرّة أخرى حتّى يتمّ الحصول على صورة نظيفة. في المرحلة الثالثة تكرّر المرحلة السابقة وهذه المرّة بدقّة عالية ونهائيّة.

في مقال أرسلته جوجل للنشر في مطلع عام 2022، زُعم أنّ اختيارها للتركيز على تطوير برنامج تشفير اللغة، على حساب تحسين آليّة إنشاء الصورة، أعطى إيماجين تفوّقًا على الذكاء الصناعيّ المنافس، بما في ذلك دالي 2، VQ -GAN و LDM. تمّ إجراء المقارنة على قاعدة بيانات معروفة لمتطلّبات الصور، والّتي بموجبها سينتج كلّ من إيماجين والمنافسين الصور. في حينه، فحص قضاة بشريّون الصور وطُلِب منهم تحديد أيّة صورة من الصور تفي بالمتطلّبات بشكل أفضل. وفقًا لجوجل، كان أداء إيماجين أفضل بكثير من منافسيها.

מודל פעפוע: התוכנה מתחילה ברעש אחיד, כפי שנראה בפינה השמאלית העליונה, ומנקה אותו בשורה של צעדים קטנים עד שהיא מגיעה לתמונה נקייה שעונה לדרישה, במקרה זה טירה ביפן, בפינה הימנית התחתונה
نموذج الانتشار: يبدأ البرنامج بضوضاء موحّدة، كما يظهر في أعلى الزاوية اليسرى، وينظّفها بواسطة سلسلة من الخطوات الصغيرة حتّى تصل إلى صورة نظيفة تفي بالمتطلّبات، في هذه الحالة قلعة في اليابان، في أسفل الزاوية اليمنى | ويكيبيديا، Benlisquare

عنصريّة خفيّة وتشوّهات ظاهرة

تمّ تدريب نموذج دالي 2 على قواعد بيانات مصنّفة، والّتي، قدر الإمكان، لا تحتوي على مضامين غير لائقة أو مؤذية. في المقابل، تمّ تدريب نموذج إيماجين على قواعد بيانات غير مصنّفة. من ناحية، منحه هذا الأمر ميزة، نظرًا لأنّه عادةً ما تكون هذه قواعد بيانات أكبر وبالتالي تسمح بتدريب أكثر شمولًا. تكمن المشكلة بازدياد احتماليّة إنتاج الذكاء الصناعيّ لمضامين غير لائقة عندما يطلبها المستخدمون منه. بالإضافة إلى ذلك، قد تعبّر صور الأشخاص عن قوالب نمطيّة اجتماعيّة، مسيئة في بعض الأحيان، بسبب طبيعة البيانات الّتي يتمّ تدريب الذكاء الصناعيّ عليها. لهذا السبب قرّرت جوجل عدم إتاحة الإمكانيّة للجمهور الواسع  في هذه المرحلة. من ناحية أخرى، فإنَّ دالي 2 متاح للجميع.

رغم النجاح الكبير الّذي حقّقه الذكاء الصناعيّ مؤخّرًا في مجال إنشاء الصور، إلا أنّه لا يزال لديه نقاط ضعف في تمثيل أشياء معيّنة. على سبيل المثال، لا يزال يواجه صعوبة في تمثيل راحة اليد وجسم الإنسان بشكلٍ صحيح، أو دمج نصّ ذي معنى في الصورة. من الممكن أن تكون هناك عيوب إضافيّة خفيّة أكثر، في معالجة الصور- وأنَّ نقاط الضعف الّتي ذكرناها هي ببساطة مكشوفة أكثر بالنسبة لنا، لأنَّ هذه هي الأشياء الّتي نميل نحن كبشر إلى التعرّف عليها بسهولة إذا تجاوز شيء ما نطاق المعقول.

حوّل الباحثون جهودهم في مرحلة مبكّرة جدًّا من دراسة الذكاء الصناعيّ إلى مجال معالجة الصور. يرجع هذا الاختيار إلى حدّ كبير، إلى طبيعة المَهمّة الّتي تتطلّب التعرّف على الأنماط في المعلومات المرئيّة. هذه مَهمّة يؤدّيها دماغ الإنسان بسهولة بشكل طبيعيّ، كما تفعل العديد من الحيوانات الأخرى.

من ناحية أخرى، بالنسبة لبرامج الكمبيوتر التقليديّة، والّتي طلب منها الحصول مسبقًا على خصائص مميّزة، تحديد نوع الكائنات، وهي مَهمّة تتطلّب عمليّات معقّدة ومركّبة. لسنوات، قامت شركات التكنولوجيا ذات قدرات الذكاء الصناعيّ تحديد الأجسام المتنوّعة في الصور، والآن أصبحت أيضًا قادرة على أداء عمليّة معاكسة وأكثر تعقيدًا لإنشاء صورة بناءً على النظريّة. لن ندخل هنا في مسألة ما إذا كان الذكاء الصناعيّ يُظهر الإبداع والأصالة- فهذا سؤال فلسفيّ، وليس تقنيًّا أو علميًّا. الواضح هو أنَّ هذا إنجاز رائع لهذه التكنولوجيا الناشئة، والّتي تختلف اختلافًا جوهريًّا عن التحدّيات الّتي واجهتها قبل بضع سنوات فقط. 

 

0 تعليقات