בחודשים האחרונים התוודענו לבינות מלאכותיות שמסוגלות ליצור תמונות מקוריות לפי הזמנה. איך הן עושות את זה?

תחום יצירת התמונות הדיגיטליות הפך לאחרונה למגרש משחקים פורה של בינות מלאכותיות. הממשק בדרך כלל מבוסס על כתיבה: המשתמש מזין למחשב מילות מפתח והבינה המלאכותית מייצרת תמונה שעונה על הדרישות. התיאור יכול להיות מפורט, כמו "כלב האסקי ירוק רוכב על חד אופן בכביש מהיר, בסגנון קומיקס" ויכול להיות גם יותר מעורפל, כמו "טירת פנטזיה".

בינות מלאכותיות מצליחות כיום ליצור ציורים מורכבים ומדויקים, לענות על בקשות מגוונות ואפילו להתאים את התוצר שלהן לסגנון ציור ספציפי, כגון ציור שמן, והכול בתוך דקות ספורות. קיימות עשרות בינות מלאכותיות שונות, ולכל אחת מהן יש התמקדויות אחרות, שפותחות בפני המשתמשים אפשרויות שונות ומבטאות מגוון גישות ליצירת התמונות. חלקן אף התרחבו ליצירת וידאו. עם זאת, לאמנות שיוצרות תוכנות בינה מלאכותית יש גם נקודות תורפה, ומרכיבים שהן מתקשות ליצור כהלכה. 

טבעי לשאול איך בינה מלאכותית יכולה לצייר תמונות מקוריות, והאם התמונות הללו יכולות להיקרא אמנות? לשאלה הראשונה יש תשובה ברורה, אך השנייה חמקמקה יותר ונתונה לפרשנות, כך שלא אתייחס אליה כאן. באופן מדויק יותר אפשר לציין שהאתגר שאיתו מתמודדות הבינות המלאכותיות הנוכחיות הוא מוגדר ותחום: הן יוצרות תמונות בהתאם לתיאור מילולי שמספקים להן – למשל "שני חתולים בסל". איכות התוצר נבחנת בסופו של דבר על פי מידת ההתאמה שלו לתיאור המילולי.

תמונות של ג'ירפות עם כנפי דרקון, שציירה דאלי 2
איך בינה מלאכותית יכולה לצייר תמונות מקוריות? תמונות של ג'ירפות עם כנפי דרקון, שציירה דאלי 2 | DALL E artificial intelligence

תמונה שווה הרבה מילים

כדי להבין איך זה נעשה, נתמקד כאן בשתיים מהבינות המלאכותיות המתקדמות ביותר הקיימות כיום: דאלי 2 (DALL-E 2) של חברת OpenAI ואימג'ן (Imagen) של גוגל. אלה כמובן רק שתי דוגמאות מתוך מבחר רחב של בינות שקיימות כיום בשוק ומציעות מגוון עצום של ממשקים ואפשרויות. מכיוון שהגדרת המשימה היא "יצירת תמונה לפי תיאור מילולי", הרי שאפשר לפרק אותה לשני רכיבים עיקריים: הבנת הדרישות המילוליות ויצירת תמונה שתענה עליהן.

כבני אדם, אנחנו רגילים מאוד לתקשורת מילולית, והחלק הראשון נראה לנו מובן מאליו. אך למעשה זהו חלק חשוב בבניית התוכנה. החלק של הבינה המלאכותית המוקדש להבנת שפה נקרא מקודד טקסט (Text encoder). דאלי 2 ואימג'ן מבצעות את המשימה הזאת בדרכים שונות.

דאלי 2 משתמשת במודל שנקרא אימון מוקדם ניגודי של שפה ותמונה, או CLIP בקיצור. בשיטה הזאת חושפים את הבינה המלאכותית למאגר מידע גדול של תמונות – שבמקרה הזה כולל כ-15 מיליון פריטים – עם תיאור מילולי של התוכן שלהן. הבינה המלאכותית לומדת את הקשרים בין התוכן המילולי של תיאורים למאפיינים החזותיים של התמונות (עושה "אימון"). כתוצאה מכך, היא מסוגלת גם לקבוע את מידת ההתאמה של התמונות שהיא יוצרת לטקסט שהזין המשתמש. 

תמונה שהפיקה דאלי 2 בתגובה לבקשה "בניינים במדבר בסגנון האדריכלית זהא חדיד"
אימון על כ-15 מיליון תמונות, כדי ללמד את התוכנה להתאים בין הטקסט לתמונה. תמונה שהפיקה דאלי 2 בתגובה לבקשה "בניינים במדבר בסגנון האדריכלית זהא חדיד" | DALL E artificial intelligence

לעומת זאת, אימג'ן נשענת על מודל מאומן מראש וקפוא של שפה בשם T5-XXL - קיצור של "מתמר גדול מאוד של העתקת טקסט לטקסט". כדי לאמן את T5-XXL, השתמשו במאגרי טקסט בתבניות של שאלות ותשובות (לדוגמה, "מה אנשים עושים בלילה? הם ישנים"), סיווגים (לדוגמה "חתולים הם חיות") ותרגומים משפה לשפה. האימון נועד ללמד את הבינה המלאכותית להשלים קטעים בצורה מדויקת: לענות על שאלות, לתרגם או לסווג ישויות. המודל אינו נשען על תמונות, כך שמאגר המידע שהיה זמין עבורו גדול הרבה יותר מזה שזמין ל-CLIP.

לאחר מכן, אימנו את אימג'ן על מאגר של תמונות עם כיתוב, שחלקו מאגר פנימי של גוגל וחלקו ציבורי. מתכנתי חברת גוגל בחרו לא לאמן את קידוד השפה של אימג'ן  – האופן שבו הטקסט מתורגם לייצוג שמתאים לבינה המלאכותית לעבוד בו – באופן עצמאי, והעדיפו להסתמך על הקידוד שהתקבל מ-T5-XXL ולהשאירו קפוא.

מונה של כוס קפה עשויה מתות ושל קקטוס עם כובע קש ומשקפי שמש, שיצרה אימג'ן
באימון של אימג'ן השתמשו במאגרי מידע של טקסט - שאלות ותשובות, סיווגים ותרגומים. תמונה של כוס קפה עשויה מתות ושל קקטוס עם כובע קש ומשקפי שמש, שיצרה אימג'ן | Imagen, Google

הרעש שבתמונה

אחרי שבינה מלאכותית צוידה במודל להבנת השפה, מתחיל תהליך האימון שלה ביצירת תמונות. יש כמה שיטות לאמן בינה מלאכותית למשימות כאלה. דאלי 2 ואימג'ן משתמשות שתיהן בשיטה שנקראת מודלי פעפוע, שבה מתחילים את האימון בתמונה ידועה ומוסיפים לה רעש באופן הדרגתי.

הרעש במקרה זה אינו רעש קולי, אלא עיוותים אקראיים באופי הצבעים המופיעים בכל נקודה (פיקסל) ובעוצמתם. בהכללה, כל אות שמועבר בתקשורת כלשהי יכול לכלול רעש משלל סוגים, למשל בצבע, באות החשמלי או בדיבור. הרעש בא לידי ביטוי באות אקראי שחופף לאות הרצוי, באותו תווך ובאותו זמן. למשל כשמדובר ברעש קולי, כמו זה שאנחנו מכירים מחיי היומיום, הרעש הוא גלי קול שמגיעים מעצמים סמוכים ומתהליכים שמתרחשים בסביבה הקרובה ומפריעים לקליטת האות הרצוי. אותות כאלה ייחשבו רעש אם אין להם כל משמעות מבחינת המאזין (רעש לבן), או שיש להם משמעות אבל זה פשוט לא האות שהמאזין מנסה לקלוט – למשל מוזיקה רועשת שמפריעה לשיחה.

לרעש יש שני מאפיינים חשובים לענייננו. האחד הוא העוצמה שלו, או גודל התנודות שאפשר לצפות להן. השני הוא הערך הממוצע שסביבו התנודות האלה נעות. עוצמת הרעש היא תכונה מוכרת שקל למצוא לה דוגמאות יומיומיות רבות שקשורות לקול. לעומת זאת, הערך הממוצע של הרעש לא בא לידי ביטוי בהקשר הקולי, מפני שקול מתבטא בגלים, שהם תנודות סימטריות סביב מצב המנוחה של האוויר. משמעות הדבר היא שהערך הממוצע של התנודה הוא אפס.

בצבעים, לעומת זאת, אפשר למצוא גם ערכים ממוצעים שונים מאפס. באחת הדרכים שבהן מחשבים מתארים צבע יש לכל פיקסל בתמונה שלושה ערכים מספריים, המתאימים לכמות הצבע האדום, הכחול או הירוק בו. צירופים שונים של הערכים האלה משחזרים בקירוב טוב את כל הצבעים שהעין האנושית מסוגלת לראות. אם כן, רעש בצבע יכול לבוא לידי ביטוי למשל כהפרעה בפיקסל, שמשנה באקראי את מידת הצבע הירוק שבו, ובממוצע מגדילה אותו מהערך המקורי.

מחשב עם דאלי 2 עליו
דאלי 2 ואימג'ן אומנו בשיטה בה מתחילים בתמונה ידועה ומוסיפים לה רעש באופן הדרגתי. מחשב עם דאלי 2 עליו | Shutterstock, Diego Thomazini

רעש ומודלי פעפוע

אימון הבינה המלאכותית נעשה כך: הבינה המלאכותית מתחילה מתמונה ברורה שהיא יודעת לזהות, או שהמתכנתים זיהו בשבילה, ומוסיפה לה רעש באופן הדרגתי ומבוקר. ההרעשה נעשית בצעדים קטנים, כך שבכל שלב הבינה המלאכותית מסוגלת לזהות את השינוי שהרעש חולל וללמוד ממנו. התהליך ממשיך עד שנשאר בתמונה רק רעש, עם מאפיינים ידועים ואחידים שאינם תלויים בתמונה ואף לא במודל שבו הבינה מיושמת. דוגמה לרעש אחיד היא ה"שלג" שהיה נראה במסכי טלוויזיה ישנים שפעלו ללא קליטת ערוץ כלשהו.

תהליך הרעשת התמונה מלמד את הבינה המלאכותית בדיוק איזו הרעשה צריך להפעיל על התמונה המסוימת הנתונה על מנת להגיע בסופו של דבר לרעש אחיד, ואת שלבי הביניים בדרך לשם – כמה רעש התווסף בכל צעד, ומה היו הערך הממוצע של התמונה ועוצמת הרעש סביבו בתמונה שהתקבלה באותו צעד. בשלב הבא, שבו מבקשים מהבינה המלאכותית ליצור תמונה על פי דרישה, היא מבצעת את אותו תהליך לאחור. היא מתחילה מהתוצר הסופי של תהליך ההרעשה - רעש אחיד - ומנקה אותו בשורה של צעדים קטנים עד שהיא מגיעה לתמונה נקייה שעונה לדרישה. התהליך הזה מזכיר במידה רבה את הגישה שביטא אמן הרנסנס מיכאלאנג'לו כלפי מלאכת הפיסול: "הפסל הגמור כבר קיים בגוש השיש. אני רק צריך להסיר באזמל את החומר המיותר", הסביר.

אימג'ן זקוקה לשלושה שלבים כדי ליצור תמונות ברמת הפרדה (רזולוציה) גבוהה: תחילה היא לוקחת "תמונה" של רעש ומפיקה ממנה בשורה של צעדים קטנים את התמונה הנדרשת ברזולוציה נמוכה. לאחר שמתקבלת תמונה נקייה, היא מגדילה את הרזולוציה – הופכת כל פיקסל לקבוצת פיקסלים ברזולוציה בינונית, ושוב מנקה את הרעשים עד שמתקבלת תמונה נקייה. בשלב השלישי היא חוזרת על השלב הקודם, הפעם ברזולוציה הגבוהה והסופית.

במאמר שהגישה לפרסום חברת גוגל בתחילת 2022, נטען כי הבחירה שלה להתמקד בהגדלת מקודד השפה, על חשבון שיפור מנגנון יצירת התמונה, העניקה לאימג'ן יתרון על פני בינות מלאכותיות מתחרות, ובהן דאלי 2, VQ-GAN, ו-LDM. ההשוואה נעשתה על מאגר מוכר של דרישות לתמונות, שלפיו גם אימג'ן וגם המתחרות ייצרו תמונות. בשלב זה, שופטים אנושיים בחנו את התמונות והתבקשו לקבוע איזו מהתמונות עונה בצורה טובה יותר על הדרישה. לפי גוגל, אימג'ן הראתה ביצועים טובים באופן משמעותי מאלה של המתחרות.

מודל פעפוע: התוכנה מתחילה ברעש אחיד, כפי שנראה בפינה השמאלית העליונה, ומנקה אותו בשורה של צעדים קטנים עד שהיא מגיעה לתמונה נקייה שעונה לדרישה, במקרה זה טירה ביפן, בפינה הימנית התחתונה
מודל פעפוע: התוכנה מתחילה ברעש אחיד, כפי שנראה בפינה השמאלית העליונה, ומנקה אותו בשורה של צעדים קטנים עד שהיא מגיעה לתמונה נקייה שעונה לדרישה, במקרה זה טירה ביפן, בפינה הימנית התחתונה | ויקיפדיה, Benlisquare 

גזענות סמויה ועיוותים גלויים

המודל של דאלי 2 עבר אימונים על מאגרי נתונים מסוננים, שככל האפשר אין בהם תכנים בלתי הולמים או מזיקים. לעומת זאת, המודל של אימג'ן עבר אימונים על מאגרים לא מסוננים. מצד אחד, זה הקנה לו יתרון, מכיוון שמדובר על פי רוב במאגרים גדולים יותר שמאפשרים אימון מקיף יותר. הבעיה היא שכך גם עולה הסבירות שהבינה המלאכותית תפיק תכנים בלתי הולמים שמשתמשים יזמינו ממנה. בנוסף, תמונות של אנשים עלולות לבטא סטריאוטיפים חברתיים, לעיתים פוגעניים, בגלל אופי הנתונים שעליהם הבינה המלאכותית מתאמנת. לכן גוגל החליטה לא לפתוח את הממשק שלה לציבור הרחב בשלב הזה. לעומת זאת, הגישה לדאלי 2 פתוחה לכול.

למרות ההצלחה הגדולה שנחלו לאחרונה בינות מלאכותיות בתחום יצירת התמונות, עדיין יש להן נקודות תורפה בייצוג עצמים מסוימים. לדוגמה, הן עדיין מתקשות לייצג כראוי כפות ידיים ופרופורציות של גוף אנושי, או לשלב בתמונה טקסט בעל משמעות. ייתכן שיש פגמים נוספים, סמויים יותר, בעיבוד התמונות - ושנקודות התורפה שהזכרנו פשוט גלויות לנו יותר, משום שאלה עצמים שכבני אדם אנו נוטים לזהות בקלות אם משהו בהם חורג מגדר הסביר.

כבר בשלב מוקדם מאוד בחקר הבינה המלאכותית הפנו חוקרים את מאמציהם לתחום עיבוד התמונות. הבחירה הזאת נבעה במידה רבה מאופי המשימה, שדורשת זיהוי תבניות במידע חזותי. זוהי משימה שהמוח האנושי מבצע בקלות רבה באופן טבעי, וכך גם בעלי חיים רבים נוספים. לעומת זאת, עבור תוכנות מחשב מסורתיות, שנדרשו לקבל מראש מאפיינים מובהקים לכל סוג עצם שהיה עליהן לזהות, המשימה דרשה תהליכים סבוכים ומתוחכמים. במשך שנים חברות טכנולוגיה שכללו את היכולות של בינות מלאכותיות לזהות עצמים מגוונים בתמונות, וכעת הן מסוגלות גם לבצע את התהליך ההפוך, והמורכב הרבה יותר, של יצירת תמונה על פי תיאורה.

לא ניכנס כאן לשאלה האם הבינות המלאכותיות מפגינות יצירתיות ומקוריות - זו שאלה פילוסופית, לא טכנולוגית או מדעית. מה שברור הוא שמדובר בהישג ראוי לציון לטכנולוגיה המתפתחת הזו, השונה מהותית מאתגרים שהתמודדה איתם רק לפני שנים מעטות.

 

תגובה אחת

  • אבי

    תודה, הסבר נפלא ומעניין.

    חשבתי קודם שהתוכנה לוקחת תמונות קיימות ומערבבת אותן...