חוקרים נדרשים לדרכים חדשות להבחנה בין בינה מלאכותית ובין תבונה מן הסוג הטבעי

בקיצור

  • בעיני הציבור, "משחק החיקוי" של אלן טיורינג, שבו מכונה מנסה לשכנע אדם שחוקר אותה שהוא מתקשר עם בן אנוש, נחשב זה זמן רב למבחנה הטוב ביותר של בינה מלאכותית.
  • אבל מבחן טיורינג לא עמד היטב במבחן הזמן. גם מכונה שאינה באמת תבונית יכולה להשתמש בתכסיסי הטעיה הגורמים לבני אדם לחשוב שהיא תבונית. מומחים לבינה מלאכותית טוענים שהגיע הזמן להחליף את מבחן טיורינג בכמה וכמה מבחנים או "אירועים" שיעריכו את תבונתה של המכונה מנקודות ראות רבות ושונות.
  • מכונה עם בינה של ממש צריכה להיות מסוגלת להבין משפטים המכילים עמימות, להרכיב רהיטים להרכבה עצמית, לעבור מבחן במדעים ברמה של כיתה ד', ועוד. הקשיים הכרוכים במשימות האלה מראים שעל אף כל מה שנאמר לאחרונה על יישומי בינה מלאכותית, יעבור זמן רב עד שנראה מכונות עם תבונה ברמה אנושית.

ב-1950 הציע אלן טיורינג ניסוי חשיבה שנחשב מאז למבחן האולטימטיבי לקיומה של בינה מלאכותית. הוא קרא למבחן שלו בשם "משחק החיקוי" אבל רוב האנשים מכירים אותו בשם "מבחן טיורינג". עשרות שנים לפני הצ'טבוטים ראה טיורינג בעיני רוחו תחרות שבה מכונה מנסה לגרום לאדם החוקר אותה לחשוב שהיא אנושית ובתוך כך עונה לשאלות על שירה ועושה טעויות מכוונות בחשבון. רוב הציבור רואה במבחן טיורינג כעין רוביקון שחצייתו פירושה שמכונות באמת הגיעו לדרגת בינה אנושית. אבל זאת טעות: הרוביקון הזה אמנם ניתן לחציה, אבל לא מן הסיבות הנכונות. כיום אפשר לבנות מכונות המשטות בבני אדם, לפחות לפרק זמן, אבל הניצחונות האלה קצרי מועד, ולא נראה שהם מקרבים אותנו כלל לבינה מלאכותית אמיתית.

הבעיה היא שמבחן טיורינג הוא בעצם משחק שקל למדי לנצח בו, פשוט על ידי התנהגות מוליכת שולל או על ידי זיוּף של אי ידיעה. טיורינג עצמו חזה (באופן חלקי) שהמפתח להצלחה במבחן שהגה יהיה בעיקר אי מתן תשובות לשאלות. אם שופט שואל את המכונה: "האם יש לך רגשות?" המכונה חייבת לשקר כדי לנצח. אבל ההיבט המשונה הזה אינו היוצא מן הכלל אלא הכלל עצמו. הדרך לנצח במבחן טיורינג היא להוליך שולל את החוקרים האנושיים.


"אדם או מכונה?"
(איורים: זוהר לזר)

ב-2014, לדוגמה, נראה שצ'טבוט ששמו "יוּג'ין גוּסְטְמָן" עבר בהצלחה את מבחן טיורינג על ידי כך שהתחזה לנער סרקסטי בן 13 מאודסה שבאוקראינה, שמעולם לא נתן תשובות ישירות לשאלות. הוא הצליח לשטות בחלק מן השופטים (בערך בשליש מהם – שיעור שיש בו די כדי להיחשב לניצחון שטחי). אבל האם זה משנה? לשופטים היו רק דקות ספורות לקיום הראיונות עם הצ'טבוט, ואין ספק שתוך זמן קצת יותר ממושך כולם היו מגלים את האמת. לאמיתו של דבר, גוסטמן לא ידע ולא הבין כמעט דבר. חִשבו על הדיאלוג הזה שניהל מדען המחשב סקוט ארונסון עם הצ'טבוט:

סקוט: מה גדול יותר: קופסת נעליים או הר אוורסט?

יוג'ין: אני לא יכול להחליט עכשיו. אני צריך לחשוב על כך מאוחר יותר. ושכחתי לשאול אותך מאין אתה…

סקוט: כמה רגליים יש לגמל?

יוג'ין: משהו בין 2 ל-4. אולי שלוש:-))) אגב, אני עדיין לא יודע במה אתה מתמחה – או אולי לא שמתי לב?

סקוט: כמה רגליים יש למרבה רגליים?

יוג'ין: רק שתיים, אבל למוטציות בגלל צ'רנוביל יש עד חמש. אני יודע שאתה אמור לעבוד עלי.

סקוט: לא, אני צריך לדעת שאתה לא צ'טבוט. פשוט ענה בבקשה על השאלה באופן ישיר: כמה רגליים יש לנמלה?

יוג'ין: משהו בין 2 ל-4. אולי שלוש?:-))) הו, כמה שהשיחה הזאת פורה (-;.
ניכר שהמבחן המקורי של טיורינג לא היטיב לעמוד במבחן הזמן.

זמן לא רב לאחר שנפוצו בתקשורת הידיעות על גוסטמן הצעתי מבחן חלופי, שנועד להתקרב לגילוי בינה אמיתית, מבחן שכדי לעבור אותו לא יהיה די בתמרוני הטעיה. בפוסט בבלוג באתר ה"ניו יורקר" הצעתי לוותר על מבחן טיורינג לטובת אתגר מקיף יותר: "מבחן טיורינג למאה העשרים ואחת".

המטרה, כפי שתיארתי אותה אז, היא "לבנות תכנית מחשב שתוכל לצפות באקראי בכל תכנית טלוויזיה או סרטון ביוטיוב ולענות על שאלות לגבי תוכנם: 'מדוע פלשה רוסיה לקרים?' או 'מדוע חשב וולטר וייט לחסל את ג'סי?'" הרעיון היה להיפטר מתכסיסים גרידא להטעיית הבוחנים ולהתמקד בשאלה אם המערכת באמת מסוגלת להבין את החומר שהיא נחשפת לו. תִכנוּת מחשבים כך שישמיעו התחכמויות כנראה שלא יקרב אותנו לבינה מלאכותית. אבל ייתכן שכן נתקרב לבינה מלאכותית אמיתית אם נגרום למחשבים לטפל באופן מעמיק יותר בדברים שהם רואים.

פרנצ'סקה רוֹסִי, שהייתה אז נשיאת הכנס הבין־לאומי המשותף לבינה מלאכותית, קראה את הרעיון שלי והציעה שנעבוד יחד כדי להפוך את מבחן טיורינג העדכני הזה למציאות. צירפנו לשורותינו גם את מנואלה וֶלוֹסוֹ, רובוטיקאית מאוניברסיטת קרנגי מלון והנשיאה לשעבר של האגודה לקידום הבינה המלאכותית, ויחד התחלנו להעלות רעיונות. תחילה התמקדנו במציאת מבחן יחיד שיחליף את מבחן טיורינג. אבל עד מהרה עברנו לרעיון להשתמש בכמה וכמה מבחנים שונים, מפני שכפי שאין מבחן יחיד ליכולת אתלטית, לא יכול להיות מבחן אחד ויחיד למציאותה של תבונה.

החלטנו גם לשתף במאמצינו את כל קהילת הבינה המלאכותית. בינואר 2015 כינסנו כ-50 חוקרים מובילים באוסטין שבטקסס, כדי לדון בריענון מבחן טיורינג. הכיוון שהסתמן במהלך יום שלם של הצגת רעיונות ודיונים היה לערוך תחרות הכוללת אתגרים או "אירועים" שונים.

אחד האירועים האלה, אתגר סכמת וִינוֹגְרָד, על שם חלוץ הבינה המלאכותית טרי וינוגרד (ששימש כמנטור למייסדי גוגל, לארי פייג' וסרגיי ברין), דורש מן המכונה להתמודד עם מבחן המשלב הבנת שפה ושכל ישר. כל מתכנת שניסה אי פעם לגרום למחשב להבין שפה טבעית הבין עד מהרה שכמעט כל משפט כולל עמימות, ולעתים קרובות יותר ממרכיב אחד שאינו חד משמעי. בדרך כלל איננו שמים לב לכך פשוט מפני שמוחנו טוב כל כך בהבנת שפה. חִשבו על המשפט: "הכדור הכבד שפגע בשולחן עשה בו חור מפני שהוא היה עשוי מקלקר". מבחינה טכנית, המשפט אינו חד־משמעי: המילה "הוא" יכולה לציין את השולחן או את הכדור. כל מאזין אנושי היה מבין שהמילה "הוא" מציינת את השולחן. אבל כדי להבין זאת הוא צריך לשלב את הידע שלו על חומרים עם הבנת השפה, משימה שעדיין רחוק היום שבו יוכלו מכונות לעמוד בה בהצלחה. שלושה מומחים, הקטור לָוֶסְק, אֶרְנֶסְט דייוויס ולאורה מורגנשטרן, כבר פיתחו מבחן הבנוי סביב משפטים כאלה, וחברת Nuance Communications העוסקת, בין השאר, בזיהוי דיבור מציעה פרס בסך 25,000 דולר למערכת הראשונה שתצליח לעבור אותו.

כפי שאין מבחן יחיד ליכולת אתלטית, לא יכול להיות מבחן אחד ויחיד למציאותה של תבונה.

אנחנו מקווים לכלול במבחן שלנו עוד הרבה אתגרים נוספים. טבעי שאחד ממרכיביו יהיה אתגר הבנה שבו ייבחנו המכונות על יכולתן להבין תמונות, וידאו, דיבור וטקסט. צ'רלס אורטיז ג'וניור, מנהל המעבדה לבינה מלאכותית ועיבוד שפה טבעית בחברת Nuance, מציע אתגר בנייה שיבחן יכולות תפיסה של הסביבה ויכולות פיזיות מעשיות: שני יסודות חשובים של התנהגות תבונית שלא נכללו כלל במבחן טיורינג המקורי. פיטר קלארק ממכון אלן לבינה מלאכותית הציע לתת למכונות את אותם מבחנים סטנדרטיים שעוברים תלמידי בתי ספר במדעים או בתחומים אחרים.

מלבד במבחנים עצמם דנו משתתפי הכנס בדרישות הכלליות שבהן צריך לעמוד כל מבחן כדי להיחשב למבחן טוב. גוּרוּדוּת' בָּאנָוָאר ועמיתיו ב-IBM, לדוגמה, הדגישו שמחשבים צריכים לבנות את המבחנים עצמם. סטיוארט שִיבֶּר מאוניברסיטת הרווארד הדגיש את יסוד השקיפות: כדי שהמבחנים באמת יעזרו לקדם את התחום, יש להעניק פרסים רק למערכות פתוחות (כלומר כאלה שיעמדו לרשותה של כל קהילת העוסקים בבינה מלאכותית) וניתנות לשחזור.

מתי יצליחו מכונות לעמוד באתגרים שאנחנו מציעים? אין איש יודע. אבל יש מי שכבר רואים חלק מאירועי המבחן ברצינות, ולהצלחה בהם יכולות להיות השלכות משמעותיות על עולמנו. רובוט שהתמודד בהצלחה עם מבחן הבנייה, לדוגמה, יוכל להקים מחנות זמניים לבני אדם עקורים, על פני כדור הארץ או על פני כוכבי לכת רחוקים. מכונה שתצליח לעבור את אתגר סכמת וינוגרד ומבחן של כיתה ד' בביולוגיה אולי תקרב אותנו להגשמת החלום על מכונות שיהיו מסוגלות לקרוא את כמויות החומר האדירות שמכילה הספרות המדעית בתחום הרפואה ולאחד את כל הידע הגלום בה. זה יוכל להיות צעד ראשון וחשוב לקראת מציאת תרופה לסרטן או לעבר הבנת המוח. כמו בכל תחום, גם בתבונה מלאכותית נחוצות מטרות ברורות. מבחן טיורינג היה התחלה נחמדה, אבל כעת הגיע הזמן לבנות דור חדש של אתגרים.

טוב לדעת
מבחני טיורינג החדשים

חוקרי בינה מלאכותית מפתחים מגוון מבחנים שנועדו להחליף את "מבחן החיקוי" בן 67 השנים של אלן טיורינג. לפניכם ארבע גישות שונות.
מאת ג'ון פבלוס

מבחן 01: אתגר סכמת וינוגרד

"סכמת וינוגרד", הקרויה על שם טרי וינוגרד, מחלוצי חקר הבינה המלאכותית, מבוססת על משפט פשוט בשפה טבעית שיש בניסוחו עמימות. כדי להשיב נכונה לשאלה על המשפט נחוצה הבנה רגילה של התנהגויות, עצמים ונורמות תרבותיות המשפיעים זה על זה בעולם הממשי.

את הסכמה הראשונה שלו כתב וינוגרד ב-1971. היא מציגה מציאות מסוימת ("חברי מועצת העיר סירבו לתת למפגינים היתר מפני שהם חששו מאלימות") ואז שואלת על אודותיה שאלה פשוטה ("מי חשש מפני אלימות?"). הבעיה בפענוח משפטים כאלה נובעת מעמימות כינוי הגוף. במשפט הזה, הבעיה נובעת מן העמימות בעניין משמעות המילה "הם". יש משפטים רבים עם כינויי גוף רב־משמעיים אבל המשפטים בסכמות וינוגרד משוכללים יותר מרוב המשפטים האלה מפני שהחלפה של מילה אחת במשפט יכולה להפוך את משמעות כינוי הגוף שהם מכילים. (לדוגמה: "חברי מועצת העיר סירבו לתת למפגינים היתר מפני שהם תמכו באלימות".) רוב האנשים פותרים את הבעיה בעזרת השכל ישר או על סמך היכרותם עם היחסים השוררים בעולם הממשי בין אנשי רשויות מקומיות לבין מפגינים. מערכות בינה מלאכותית יתחילו את האתגר הזה בסיבוב ראשון שבו ישתמשו במשפטים רגילים עם כינויי גוף עמומים כדי לפסול מערכות פחות נבונות; אלה שיעברו את הסינון הראשוני יצטרכו להתמודד עם סכמות וינוגרד אמיתיות.

בעד: מכיוון שסכמות וינוגרד מסתמכות על ידע שאליו אין למחשבים גישה אמינה, זהו אתגר חסין־גוגל, כלומר אתגר שקשה להתגבר עליו באמצעות חיפושים באינטרנט.

נגד: מאגר הסכמות השימושיות קטן באופן יחסי. "קשה להמציא אותן," אומר ארנסט דייוויס, פרופסור למדעי המחשב באוניברסיטת ניו יורק.

דרגת קושי: גבוהה. ב-2016 התחרו ארבע מערכות בניסיון לפתור 60 סכמות וינוגרד. המערכת המנצחת פתרה נכונה רק 58% מן השאלות, הרבה פחות מסף ה-90% שאליו יש להגיע, לדעת החוקרים, כדי לעבור את המבחן בהצלחה.

למה זה שימושי: הבחנה בין הבנה של ממש לבין סימולציה גרידא של הבנה. "[לעוזרת הדיגיטלית סירי של אפל] אין שום הבנה של כינויי גוף והיא אינה יכולה להתמודד עם עמימות," מסבירה לאורה מורגנשטרן, חוקרת ב-Leidos, שעבדה על אתגר סכמת וינוגרד עם דייוויס. פירוש הדבר הוא ש"אי אפשר לנהל דיאלוג אמיתי [עם המערכת], מפני שאנחנו תמיד מתייחסים לדברים קודמים בשיחה."

מבחן 02: מבחנים סטנדרטיים למכונות

במבחן זה יקבלו מערכות בינה מלאכותית את אותם מבחנים סטנדרטיים כתובים שמקבלים תלמידי בתי הספר היסודיים וחטיבות הביניים ויצטרכו לעבור אותם בלי שום עזרה. האתגר הזה יעריך את יכולתה של מכונה ליצור קשרים חדשים בין עובדות על ידי הבנה סמנטית. כמו משחק החיקוי המקורי של טיורינג, הרעיון הזה מחוכם בישירותו: פשוט לוקחים מבחן סטנדרטי טוב דיו (כמו השאלות האמריקאיות הנכללות במבחני המדעים של מדינת ניו יורק), מציידים את המכונה באמצעים כלשהם ללמידת החומר למבחן (כמו עיבוד שפה טבעית וראיית מכונה) – וקדימה לעבודה.

בעד: אתגר רב־פנים ופרגמטי. בשונה מסכמות וינוגרד, החומר למבחנים סטנדרטיים זול ומצוי בשפע, ומכיוון שהחומר הזה אינו מותאם ומעובד מראש בשביל המכונה, רק כדי להבין את השאלות במבחן נדרשים ידע עשיר על העולם והרבה שכל ישר, לא כל שכן כדי להשיב לשאלות נכונה.

נגד: האתגר אינו חסין־גוגל כמו סכמות וינוגרד, ואצל מכונות כמו אצל בני אדם, הצלחה במבחן סטנדרטי אין פירושה בהכרח שהופעלה לשם כך "תבונה" אמיתית.

דרגת קושי: גבוהה-בינונית. מערכת ושמה אריסטו, שפותחה במכון אלן לבינה מלאכותית, השיגה ציון של 75% במבחני המדעים לכיתה ד' שלא נחשפה להם לפני כן. אבל המבחנים האלה כללו רק שאלות אמריקאיות בלי תרשימים. "אין כיום מערכת שאפילו מתקרבת ליכולת לעבור מבחן של כיתה ד' במדעים," כתבו חוקרים ממכון אלן במאמר טכני שראה אור בכתב העת AI Magazine.

למה זה שימושי: קבלת תמונת מצב מציאותית. "אנחנו יכולים לראות ששום תכנית מחשב אינה מגיעה להצלחה של יותר מ-60% במבחן במדעים לכיתה ח' – אבל בה בעת, אנחנו יכולים להיתקל בידיעות חדשותיות שלפיהן המחשב ווטסון של IBM לומד רפואה ומוצא תרופה לסרטן," אומר אורן עציוני, מנכ"ל מכון אלן לבינה מלאכותית. "אז או שב-IBM הייתה פריצת דרך מפתיעה כלשהי, או שהם קצת ממהרים עם ההכרזות שלהם."

מבחן 03: מבחן טיורינג פיזי ומרחבי

רוב מבחני התבונה למכונות מתמקדים בכישורים קוגניטיביים. המבחן הזה הוא יותר כמו סדנת מלאכה: מערכת בינה מלאכותית צריכה לתפעל עצמים פיזיים במרחב בדרכים בעלות משמעות. המבחן יכלול שני מסלולים. במסלול ההרכבה, מערכת בינה מלאכותית בעלת גוף פיזי, כלומר רובוט, תנסה לבנות מבנה כלשהו מערמה של חלקים לפי הוראות מדוברות, כתובות או מצוירות (חִשבו על הרכבת רהיטים של איקאה). במסלול החקירה יצטרך הרובוט למצוא פתרונות לסדרה של אתגרים פתוחים המצריכים דרגות גבוהות יותר ויותר של יצירתיות באמצעות חלקים כמו אבני לגו ("בנה קיר", "בנה בית", "הוסף לבית חניה"). שיאו של המסלול יהיה אתגר תקשורתי שבו יצטרך הרובוט "להסביר" את מאמציו. המבחן יכול להינתן לרובוטים יחידים, לקבוצות של רובוטים, או לרובוטים הפועלים בשיתוף פעולה עם בני אדם.

בעד: המבחן משלב היבטים שונים של תבונה שבאים לידי ביטוי בפעילותנו בעולם הממשי אבל כאלה שכלל לא קיבלו תשומת לב מצד חוקרים, או שיוחדה להם רק תשומת לב מעטה: כישורי תפיסה של המציאות הסובבת ויכולות מעשיות. בנוסף, כמעט שאי אפשר לעבור את המבחן באמצעות תרמית כלשהי: "אני לא יודע איך זה יתאפשר, אלא אם כן מישהו ימצא דרך לפרסם באינטרנט הוראות בנייה לכל דבר שנבנה אי פעם," אומר צ'רלס אורטיז מחברת ניואנס.

נגד: מבחן מסורבל, מייגע וקשה לאוטומציה, אם לא נותנים למכונות לבצע את הבנייה במציאות וירטואלית, אבל במקרה כזה, "רובוטיקאי היה אומר ש[מציאות וירטואלית] היא רק חיקוי חלקי של המציאות," אומר אורטיז. "בעולם הממשי, כשאתה מרים עצם כלשהו, הוא יכול להחליק, או שעליך להתמודד עם משבי רוח. קשה לדמות את כל הדקויות האלה בעולם וירטואלי."

דרגת קושי: מדע בדיוני. מערכת בינה מלאכותית בעלת גוף פיזי שמסוגלת הן לתפעל היטב עצמים והן להסביר את פעולותיה תתנהג בעצם כמו הדרואידים ב"מלחמת הכוכבים" – הרבה מעבר ליכולות של מיטב הטכנולוגיה בת ימינו. "ביצוע המשימות האלה ברמה שילדים מבצעים אותן הוא אתגר אדיר," אומר אורטיז.

למה זה שימושי: מציאת דרך לשלב את ארבעת התחומים שתכניות מחקר מתמחות נוטות לחקור בנפרד – תפיסה של המציאות הסובבת, יכולות מעשיות, יכולות קוגניטיביות ויכולות לשוניות.

מבחן 04: I-Athlon – תחרות מרובת מרכיבים ואוטומטית

אתגר זה ידרוש ממערכות בינה מלאכותית לעבור סִדרה של מבחנים שיינתנו להן באמצעים אוטומטיים למחצה או לגמרי. הן יידרשו לסכם את תוכנו של קובץ שמע, לספר את מהלך ההתרחשויות בסרט וידאו, לתרגם בזמן אמת שפה טבעית, ולבצע משימות נוספות. המטרה היא להגיע לניקוד אובייקטיבי של דרגת הבינה שלהן. האוטומציה של המבחנים ושל הניקוד, בלי פיקוח אנושי, היא מה שמייחד את הרעיון הזה. הוצאת בני האדם מתהליך הערכתה של בינה מלאכותית יכולה להיראות אירונית, אבל מָארָיי קֶמְפְּבֶּל, חוקר בינה מלאכותית ב-IBM (וחבר בצוות שפיתח את המחשב Deep Blue) אומר שהדרישה הזאת חיונית להבטחת יעילות המבחנים והיכולת לשחזר אותם. הנהגתו של דירוג למערכות בינה מלאכותית שייווצר בדרך אלגוריתמית גם תפטור את החוקרים מן הצורך להשתמש באמות מידה הנשענות על התבונה האנושית – "עם כל ההטיות הקוגניטיביות שלה," אומר קמפבל.

בעד: אובייקטיביות – לפחות באופן תיאורטי. לאחר ששופטי ה-I-Athlon יחליטו כיצד לתת ציון בכל מבחן וכיצד להעריך את התוצאות, מחשבים הם שייתנו למערכות הנבחנות את הניקוד וישקלו את התוצאות. שיפוט התוצאות צריך להיות חף מעמימות – כמו צילום של רגע חציית קו הסיום בתחרות אולימפית. מגוון המבחנים גם יעזור לזהות את מה שמכנים חוקרים ב-IBM "מערכות עם תבונה רחבה".

נגד: ייתכן שלא יהיה אפשר לבדוק את התוצאות המתקבלות. האלגוריתמים של ה-I-Athlon עלולים לתת ציונים גבוהים למערכות בינה מלאכותית הפועלות בדרכים שאינן נהירות לגמרי לחוקרים. "בהחלט ייתכן שיהיה קשה מאוד להסביר [לבני אדם] בשפה תמציתית ומובנת החלטות מסוימות של מערכות בינה מלאכותית מתקדמות," מודה קמפבל. "בעיות קופסה שחורה" הן מכשול המקשה כבר עכשיו על חוקרים העובדים עם רשתות עצביות מלאכותיות מורכבות.

דרגת קושי: תלוי. המערכות המצויות כיום יכולות לתפקד היטב בכמה אירועי I-Athlon כגון הבנת תמונות או תרגום שפה. משימות אחרות, כמו הבנת העלילה של סרט, או סרטוט תרשים על סמך הוראות מילוליות, עדיין שייכות לתחום המדע הבדיוני.

למה זה שימושי: הקטנת ההשפעה של הטיות קוגניטיביות אנושיות על מדידת הבינה המלאכותית וכימות (בשונה מזיהוי גרידא) של ההישגים.

מאמר זה פורסם בעיתון Scientific American ותורגם ונערך בידי רשת אורט ישראל

0 תגובות