בינה מלאכותית מאפשרת לכל אחד ואחת לתמרן קבצי קול וסרטוני וידאו. הסכנה הגדולה היא שיותר לא נוכל לתת אמון בשום דבר

בקיצור

  • טכנולוגיות הבינה המלאכותית המתפתחות במהירות הבזק מאפשרות ליצור באופן אוטומטי קבצי וידאו וקול. מומחים מביעים חשש שהתפשטות הדיסאינפורמציה ברשתות החברתיות עלולה להשפיע עמוקות על השיח הציבורי ועל היציבות הפוליטית.
  • מדעני מחשב שוקדים על פיתוח כלים שיזהו סרטונים מזויפים באמצעות בינה מלאכותית ויסמנו אותם, אך הם מפגרים מאחורי ההתקדמות המהירה בכלים לתמרון תכנים. בינתיים חוקרים במדעי החברה מזהירים שלא מספיק לנטר זיופים בדיעבד.
  • מידע חדשותי שקרי נתן סיבה אמיתית לדאגה בבחירות 2016 בארצות הברית. מחקרים מעלים את האפשרות שסרטונים מזויפים הם כלי יעיל במיוחד לחולל בהלה – רגשות שמתדלקים תכנים ויראליים. אחד החששות הוא שהמצב הזה עלול לשחוק את אמוננו בכל התקשורת – כולל בדברים האמיתיים.

באפריל האחרון צץ באינטרנט סרטון חדש של ברק אובמה. דגל ארצות הברית והדגל הנשיאותי ברקע שיוו לסרטון מראה דומה לנאומים רבים שנשא בעבר. אובמה נראה בו, בחולצה לבנה מבריקה וחליפה כהה, מישיר מבט למצלמה, מושיט את ידיו קדימה ומבטא בהטעמה את המילים: "הנשיא טראמפ הוא חרא מזוקק".

בלי צל של חיוך הוא המשיך: "טוב, תראו, לעולם לא אגיד את הדברים האלה, או לפחות לא בנאום ציבורי. אבל מישהו אחר יגיד אותם". וכאן התמונה עוברת למסך מפוצל וחושפת את השחקן ג'ורדן פיל. אובמה לא אמר דבר – הסרטון שילב בין הקלטה אמיתית של נאום של אובמה לחיקוי של פיל. צד בצד, הנאום נמשך בשעה שפיל, כמו פיתום דיגיטלי, הכניס עוד ועוד מילים לפיו של הנשיא לשעבר.

בעידן החדשות השקריות ("פייק ניוז") שבו אנו חיים, הסרטון היה מסר שהפיק אתר החדשות BuzzFeed News כשירות לציבור, להצגת יישומון של טכנולוגיה חדשה של בינה מלאכותית שתוכל לעשות לקבצי קול ולסרטוני וידאו את מה שתוכנת הפוטושופ עוללה לתמונות דיגיטליות: לאפשר לנו לעצב את המציאות מחדש.

תוצרי היישומון עדיין מסורבלים למדי. בהאזנה ובצפייה מדוקדקת תגלו שקולו של אובמה מאנפף מעט. מדי פעם הפה שלו – שנע במתואם עם פיו של פיל – נודד מעט ממקומו להרף עין. אולם הטכנולוגיה הזאת, שמתפתחת במהירות לשימושם של עורכי סרטים בהוליווד ויוצרי משחקי מחשב, הדהירה את דמיונם של מומחים לביטחון לאומי וחוקרי תקשורת למחוזות אפלים. ייתכן שהדור הבא של הכלים הללו יאפשר לנו ליצור מאפס זיופים משכנעים – לא על ידי עיוות של חומר קיים, כמו שנעשה בנאום של אובמה, אלא הרכבה מתוזמרת של תרחישים שלא היו ולא נבראו.

ההשלכות על הידע הציבורי והתקשורת עלולות להיות עמוקות. תארו לעצמכם למשל איך סרטון מזויף שיכפיש את אחד המועמדים במרוץ צמוד יוכל להשפיע על הבחירות. או התקפה על מנכ"ל חברה בלילה שלפני הנפקה. אנשים יוכלו לצלם התקפת טרור מזויפת על מנת להוליך שולל את ערוצי החדשות ולגרום להם לסקר את האירוע ולחולל תגובת נקמה אוטומטית. ואפילו אם יתברר בשלב זה או אחר שסרטון ויראלי זויף – עדיין נשאלת השאלה אם הציבור ימשיך להאמין בו? ובעצם נשאלת שאלה שהיא אולי המטרידה מכול – מה יקרה אם עצם נוכחותם של זיופים בכל פינה תגרום לנו להפסיק להאמין בהרבה מהדברים שאנחנו רואים או שומעים, כולל הדברים הנכונים?

אנשי טכנולוגיה רבים מודים שאכן ייתכן ניצול גורף לרעה בטכנולוגיה הזאת. אולם בשעה שהם מתמקדים ב"פתרונות מגניבים לזיהוי וחשיפה, הם לא מקדישים כמעט תשומת לב לשאלה אם הכלים האלה משפיעים בדרך כלשהי על אמונם של אנשים בתוקפו של סרטון מזויף", אומר נייט פרסילי (Persily), מרצה למשפטים באוניברסיטת סטנפורד. פרסילי חוקר בין השאר איך האינטרנט משפיע על הדמוקרטיה, והוא שייך לקבוצת חוקרים הולכת וגדלה שטוענים שאי אפשר להגביל דיסאינפורמציה ויראלית באמצעות התאמות טכניות בלבד. נחוצה נקודת מבט של פסיכולוגים, סוציולוגים ומומחי תקשורת על מנת לקבל מושג כלשהו על האופן שבו הטכנולוגיה הזאת תנחת בעולם האמיתי.

דונלד טראמפ. העלה את ה"פייק ניוז" לכותרות | צילום: מוויקיפדיה

"עלינו לעשות את זה עכשיו", אומר פרסילי, "מכיוון שכרגע אנשי הטכנולוגיה – מטבע הדברים – מובילים את הדיון" בשאלה מהן האפשרויות הגלומות בסרטונים המיוצרים בידי בינה מלאכותית. כבר עכשיו אמוננו במוסדות דמוקרטיים כמו הממשלה והעיתונות הולך ומתפוגג. כיום, כשהרשתות החברתיות הפכו לערוץ עיקרי להפצת מידע, קל יותר ויותר ליוצרי 'פייק ניוז' לתמרן אותנו. בהיעדר אסטרטגיה מגובשת להתמודדות עם טכנולוגיה שהתחכום שלה רק הולך וגדל, הולכת וגדלה הסכנה המאיימת על האמון הציבור השברירי.

ללא כוונת זדון

הצעדים הראשונים ליצירת סרטוני וידאו מזויפים נעשו אי אז בשנות ה-60, בפעם הראשונה שיצרו תמונות באמצעות מחשב. בשנות ה-80 האפקטים המיוחדים כבר הפכו לשגרה, ועד היום חובבי הקולנוע צופים בטכנולוגיה הזאת מתפתחת והולכת – החל בסרטי מדע בדיוני, עבור בפורסט גאמפ שלוחץ את ידו של הנשיא ג'ון קנדי ב-1994 וכלה בהחייאתם של פיטר קושינג וקארי פישר בסרט "רוג אחת". המטרה הייתה מהרגע הראשון "ליצור עולם דיגיטלי שבו נוכל לספר כל סיפור שנרצה", אומר האו לי (Li), מרצה בכיר למדעי המחשב באוניברסיטת דרום קליפורניה ומנכ"ל חברת "פינסקרין" (Pinscreen), סטראט-אפ שמתמחה במציאות רבודה. "איך אנחנו יכולים ליצור משהו שנראה ממשי, אף על פי שהכול בעצם וירטואלי?"

בתחילת הדרך מרבית הגרפיקה נעשתה בידי אמנים, שנעזרו במחשבים ליצירת מודלים תלת-ממדיים ואז הוסיפו עליהם ידנית מרקמים ופרטים אחרים – תהליך מייגע שלא היה גמיש דיו. לפני כעשרים שנה התחילו חוקרים בתחום הראייה הממוחשבת לחשוב אחרת על גרפיקה: במקום לבזבז זמן רב על כל מודל, למה לא נלמד את המחשבים ליצור מתוך נתונים?

בשנת 1997 פיתחו מדענים מתאגיד המחקר אינטרוול (Interval) בפאלו אלטו את מערכת Video Rewrite, שחתכה חומר מצולם קיים לפרוסות וסידרה אותן מחדש. החוקרים יצרו סרטון של הנשיא קנדי אומר "מעולם לא פגשתי את פורסט גאמפ". זמן מה לאחר מכן  מדענים ממכון מקס פלנק לקיברנטיקה ביולוגית בעיר טיבינגן שבגרמניה, לימדו מחשב לזהות מאפיינים מתוך מערך נתונים של מאתיים סריקות תלת-ממדיות של פנים אנושיים כדי להכין מהם פרצוף חדש.


טכנולוגיה שנולדה בקולנוע (1) התפתחה לכלי שמאפשר להפיץ דיסאינפורמציה (2) | צילומים: הסרט "פורסט גאמפ", BuzzFeed

הקשר בין ראייה ממוחשבת, נתונים ואוטומציה קיבל בשנת 2012 דחיפה משמעותית, אולי הגדולה ביותר בזמן האחרון, עם הופעתה של בינה מלאכותית מסוג חדש המכונה למידה עמוקה (Deep learning). בשונה ממה שעשו בשלהי שנות ב-90, בתוכנה שהשתמשה בנתונים סטטיים ולא ידעה להשתפר, למידה עמוקה מסתגלת ונעשית טובה יותר ויותר. הטכניקה הזאת מפרקת עצמים, למשל פרצוף, לביטים של נתונים, אומרת שושאנג לי(li), פוסט דוקטורנטית במכון מקס פלנק להיסטוריה של המדע בברלין. "זה הרגע שבו המדענים אומרים, 'אנחנו לא מתכוונים יותר לבנות מודלים של דברים'", היא אומרת. "אנחנו עומדים לבנות מודלים של הבּוּרוּת שלנו ביחס לדברים, ופשוט להריץ את הנתונים כדי להבין דפוסים".

למידה עמוקה נעזרת בשכבות של נוסחאות מתמטיות פשוטות, המכונות רשתות נוירונים, שמשתפרות בביצוע משימה ככל שעובר הזמן. לדוגמה, אנשי מדעי המחשב יכולים ללמד כלי של למידה עמוקה לזהות פרצופים אנושיים על ידי כך שיזינו לתוכו מאות או אלפי תמונות, ובעיקרו של דבר פשוט יאמרו לו כל פעם "זה פרצוף" או "זה אינו פרצוף". בסופו של דבר, כאשר הכלי הזה ייתקל במישהו חדש, הוא יזהה דפוסים שמרכיבים תווי פנים אנושיים ויאמר, מבחינה סטטיסטית, "גם זה פרצוף".

בשלב הבא הגיעה היכולת לרקוח פרצופים שנראו כמו אנשים אמיתיים, על ידי כלי למידה עמוקה המכונים "רשתות גנרטיביות" (Generative networks). אותו היגיון מיושם גם כאן: מדעני מחשב מאמנים את הרשתות במאות תמונות או למעלה מכך. אולם הפעם הרשת משתמשת בדפוסים שליקטה מתוך הדוגמאות על מנת ליצור פרצוף חדש.

יש כיום כמה חברות שמשתמשות באותה גישה עם קבצי קול. לפני כמה חודשים הסירה גוגל את הלוט מעל Duplex, סייען אישי בעל בינה מלאכותית המבוסס על התוכנה WaveNet, שמסוגלת לערוך שיחות טלפון ונשמעת כמו אדם אמיתי – כולל אפילו מבעים לא מילוליים כמו המהומי אֶה והממ. בעתיד, יתכן שסרטון מזויף של פוליטיקאי לא יצטרך להסתמך על חיקויים שיספקו לו שחקנים כמו ג'ורדן פיל. באפריל 2017 שחררה חברת ההזנק הקנדית Lyrebird דגימת קובץ שבו נשמעים קולות דומים במידה מבהילה לקולותיהם של אובמה, טראמפ והילארי קלינטון.

אולם רשתות גנרטיביות זקוקות למערכי נתונים גדולים לאימוניהן, ואלה עלולים לדרוש הרבה עבודה שחורה של בני אדם. הצעד הבא בשיפור תוכן וירטואלי יהיה ללמד את הבינה המלאכותית לאמן את עצמה.

ב-2014 עשו זאת חוקרים מאוניברסיטת מונטריאול עם רשת של יריבים גנרטיביים (Generative Adversarial Network, או GAN בקיצור), שמפגישה שתי רשתות נוריונים לשיחה. הרשת הראשונה, הקרויה "המייצרת" (Generator), יוצרת תמונות מזויפות, והשנייה היא "המבדלת" (Discriminator), שלומדת להבחין בין אמיתי למזויף. עם פיקוח אנושי שולי לכל היותר, הרשתות מאמנות זו את זו באמצעות תחרות – המבדלת קוראת תגר על היוצרת, כדי שתנסה ליצור זיופים יותר ויותר מציאותיים, ואילו היוצרת ממשיכה לנסות להערים על המבדלת.

רשתות GAN יכולות לעצב דברים רבים. באוניברסיטת קליפורניה בברקלי בנו מדענים רשת שיכולה להפוך תמונות של סוסים לזברות או לקחת ציורים אימפרסיוניסטיים כמו אלו של קלוד מונה ולהפוך אותם לתמונות חדות ופוטו-ריאליסטיות.

ואז, בחודש מאי השנה חשפו חוקרים ממכון מקס פלנק לאינפורמטיקה בעיר סארבריקן שבגרמניה "וידאו עמוק", שמשתמש בסוג של GAN. הרשת הזו מאפשרת לשחקן לשלוט בפה, בעיניים ובתנועות הפנים של אדם בסרטון שהוקלט קודם. נכון להיום וידאו עמוק פועל רק ב"עמדת דיוקן", כלומר עמדה שבה האדם מתבונן הישר למצלמה. אם השחקן זז יותר מדי אפשר עדיין לזהות בסרטון המתקבל תוצאי שווא (ארטיפקטים) דיגיטליים בולטים, כמו פיקסלים מטושטשים מסביב לפנים.

רשתות GAN אינן מסוגלות עדיין לבנות סצנות וידאו מורכבות שלא נוכל להבחין בינן לבין סצנות שצולמו במצלמה אמיתית. לפעמים רשתות כאלה מפיקות דברים מוזרים, למשל אדם שהעיניים צומחות לו מהמצח. אולם בפברואר מצאו חוקרים מחברת NVIDIA דרך לגרום לרשתות GAN ליצור פרצופים ברזולוציה גבוהה להפליא, על ידי כך שהתחילו את האימון עם תמונות קטנות יחסית והגדילו את הרזולוציה, צעד אחר צעד. וצוותו של האו לי מדרום קליפורניה השתמש ברשתות GAN ליצירת עור, שיניים ופיות מציאותיים – שלושה מרכיבים שנודעו לשמצה בקשיים שהם מציבים בפני מי שמנסה לבנות אותם באופן דיגיטלי.

אף אחת מהטכנולוגיות האלו אינה פשוטה לתפעול, ורק מומחים יכולים להשתמש בהן כראוי. אולם הניסוי של BuzzFeed רומז לכיוון אפשרי שאליו נלך בעתיד. הסרטון נוצר בתוכנה חינמית המכונה FakeApp – תוכנה שמשתמשת בלמידה עמוקה, אם כי לא ברשת GAN. הסרטונים המתקבלים זכו לכינוי Deepfakes ("זיופים עמוקים", בעקבות המונח "למידה עמוקה"), על שם אחד הגולשים באתר Reddit שהיה בין הראשונים שאימצו את הטכנולוגיה והשתמש בה כדי להדביק פרצופי ידוענים על סרטים פורנוגרפיים.

מאז השתמשו חובבים ברחבי הרשת ב-FakeApp כדי ליצור שלל סרטונים – מרביתם מתיחות בלתי מזיקות, למשל לשרבב את השחקן ניקולס קייג' לסרטים שהוא לא השתתף בהם או להפוך את פניה של קנצלרית גרמניה אנגלה מרקל לפרצופו של דונלד טראמפ. ההשלכות מאיימות הרבה יותר. כעת, משהטכנולוגיה הפכה לנחלת הציבור, כל אדם שמחזיק ברשותו מחשב יוכל עקרונית להשתמש בה.

תנאים ל"פייק ניוז"

כבר תקופה ארוכה מביעים מומחים חשש שעריכה ממוחשבת עלולה להרוס את המציאות. כבר בשנת 2000, מאמר שהתפרסם בכתב העת MIT Technology Review התרה ש"כבר לא מספיק לבטוח במראה עיניים" ושתמונה "בחדשות הערב עלולה להיות תרמית – זיוף על ידי טכנולוגיה חדשה ומהירה לטיפול בווידאו". שמונה עשרה שנים חלפו מאז ולא נראה שסרטוני וידאו מזויפים מציפים את מהדורות החדשות – בין השאר מפני שעדיין קשה להפיק סרטון טוב באמת. BuzzFeed נזקקו ל-56 שעות כדי ליצור את הסרטון של אובמה, בעזרת עורך וידאו מקצועי.

איור: שאטרסטוק

אולם האופן שבו אנחנו צורכים מידע השתנה. על פי מרכז המחקר פיו (Pew), רק כמחצית מהאוכלוסייה הבוגרת בארצות הברית צופה  כיום בחדשות בטלוויזיה, ושני שלישים מהם מקבלים לפחות חלק מהחדשות דרך הרשתות החברתיות. האינטרנט מביא פריחה של ערוצי מדיה המכוונים לקהלי נישה – ובכלל זה אתרי אינטרנט מוטים מאוד שמלבים את הרוחות בכוונה תחילה, בלי הריסונים שמחייבים הנהלים העיתונאיים המסורתיים. לדברי פרסילי, האינטרנט מתגמל מהר מאי פעם תוכן ויראלי ניתן לשיתוף. והפגמים הקטנים בסרטון מזויף בולטים הרבה פחות כשמציגים אותו על מסך הטלפון הזעיר, בהשוואה למסך הטלוויזיה בסלון.

השאלה כעת היא מה יקרה אם זיוף עמוק בעל השלכות פוליטיות או חברתיות משמעותיות יהפוך ויראלי. בתחום מחקר חדש ובתולי כל כך, שכמעט לא נחקר, התשובה הפשוטה היא שאנחנו לא יודעים, מסבירה ג'ולי קרפנטר, עמיתת מחקר שחוקרת אינטראקציות אדם-רובוט בקבוצת אתיקה ומדעים מתהווים שבסיסה באוניברסיטה הפוליטכנית הציבורית של מדינת קליפורניה. ייתכן שלא נגלה את התשובה בזמן, לפני בחירות אמצע הקדנציה שהתקיימו לאחרונה בארצות הברית (אחרי מועד כתיבת שורות אלו), ואירועים בינלאומיים אחרים.

כבר היינו עדים לריקושטים של ההתנגשות בין קישוריות לדיסאינפורמציה. "פייק ניוז" – כתבות טקסטואליות מפוברקות שתוכננו להיראות כמו דיווחים חדשותיים אמיתיים ולהפוך ויראליות – נידונו לעייפה במהלך הבחירות לנשיאות ארה"ב ב-2016. על פי מחקר משותף של אוניברסיטת פרינסטון, מכללת דרטמות' ואוניברסיטת אקסטר בלונדון, בערך אחד מכל ארבעה אמריקנים ביקר באתר פייק ניוז בחמשת השבועות שבין 7 באוקטובר ל-14 בנובמבר 2016, ומרביתם נווטו לשם דרך הפייסבוק שלהם. יתרה מזאת, 2016 הייתה נקודת שפל באמון הציבור בעיתונות. על פי אחת ההערכות, רק 51 אחוזים מבוחרי המפלגה הדמוקרטית בארצות הברית ו-14 אחוזים מבוחרי המפלגה הרפובליקאית אמרו שהם נותנים אמון בתקשורת ההמונים.

המחקר המדעי בנושא "פייק ניוז" כתוב מוגבל בכמותו. אולם לדברי גורדון פניקוק (Pennycook), מרצה בכיר להתנהגות ארגונית באוניברסיטת רג'ינה בססקצ'ואן, חלק מהמחקרים מעלים את האפשרות שדי בצפיה יחידה במידע מזויף כדי שהוא ייראה מתקבל על הדעת בהמשך. לא ברור מדוע זה כך, אבל ייתכן שזה נובע מה"שטף", הוא אומר, או "מהקלות שבה המידע מעובד". אם שמענו את אובמה מתאר את טראמפ בשם גנאי, ובהמשך ניתקל בעוד דוגמת שווא שבה אובמה מדבר על טראמפ בשפה בוטה, יתכן שניטה להאמין שזה היה באמת כיוון שאנחנו מכירים את זה כבר.

על פי מחקר שנערך במכון הטכנולוגי של מסצ'וסטס (MIT), ועקב אחרי 126 אלף פרסומים בטוויטר בין 2006 ל-2017, אנחנו גם נוטים לשתף "פייק ניוז" יותר מאשר חדשות אמיתיות – ובמיוחד סיפורים פוליטיים מזויפים, שמתפשטים רחוק יותר ומהר יותר מסיפורים על כסף, אסונות טבע או פעילות טרוריסטית. המאמר מעלה את האפשרות שבני אדם צמאים לחדשנות. "פייק ניוז", ככלל, מכוונים לרגשות שלנו ולזהותנו האישית, ודוחפים אותנו להגיב לפני שנספיק לעבד את המידע ולהחליט אם הוא ראוי להפצה. נראה שככל שהתוכן יותר מפתיע, מפחיד או מרגיז אותנו, כך אנחנו משתפים אותו יותר.

קיימים רמזים מטרידים לכך שאולי תכני וידאו יוכלו לזרוע פחד ביעילות גבוהה במיוחד. "כשאתם מעבדים מידע באופן חזותי, אתם מאמינים שהוא קרוב אליכם במרחב, בזמן או בשיוך חברתי", אומרת אלינור עמית, מרצה בכירה למדעי הפסיכולוגיה, הלינגוויסטיקה והקוגניציה באוניברסיטת בראון, ובקרוב מרצה בכירה בפקולטה לניהול ע"ש קולר באוניברסיטת תל אביב, שעבודתה עוסקת בחיפוש אחרי ההבדלים באופן שבו אנחנו מתייחסים למילים כתובות ולתמונות. היא מעלה את ההשערה שלהבחנה הזאת יש מקור אבולוציוני – התפתחות התפיסה החזותית שלנו קדמה לשפה הכתובה, ואנחנו מסתמכים יותר על חושינו כשאנחנו מנסים לזהות סכנה מתקרבת.

למעשה, סרטון מזויף כבר הצית מערכה פוליטית לאחרונה. אלי בת' סטאקי, מגישה בחברת החדשות האמריקנית השמרנית Conservative Review, העלתה לפייסבוק בחודש יולי השנה ריאיון עם אלכסנדריה אוקסיו-קורטז, מועמדת דמוקרטית לקונגרס מניו יורק. הסרטון לא היה זיוף עמוק, אלא חיתוך והדבקה, שנעשו בשיטות הישנות והמוכרות, של ריאיון אמיתי עם שאלות חדשות, על מנת לגרום לאוקסיו-קורטז להיראות כמי שעונה תשובות מביכות. בהתאם לנטייה הפוליטית, אפשר היה לראות בסרטון הכפשה, או כפי שסטאקי כינתה אותו מאוחר יותר להגנתה – סאטירה. מכל מקום, הסרטון צבר 3.4 מיליוני צפיות בתוך שבוע ולמעלה מ-5,000 תגובות. חלק מהצופים חשבו שאוקסיו-קורטז פישלה בריאיון אמיתי. "אומג! היא לא יודעת מה ואיך לענות", נכתב באחת התגובות. "היא סתומה".