לא רק מחשב שמשחק שחמט

אלגוריתם חדש מאפשר לבינה מלאכותית להתמודד עם בעיות שאינן מוכרות לה כלל ולפתח בכוחות עצמה אסטרטגיות לנצח שחקנים אנושיים

חברת הבינה המלאכותית דיפמיינד (DeepMind), שעלתה לכותרות לאחרונה בזכות הצלחתה בחיזוי מבנה של חלבונים, השיקה לאחרונה אלגוריתם חדשני בעל יכולות תקדימיות להתמודדות עם בעיות. האלגוריתם, מְיוּ-זירו (MuZero), לומד תחילה את הדינמיקה של הסביבה שהוא מתמודד איתה, על ידי ניסוי וטעייה, ורק אז מפתח אסטרטגיה.

במאמר בכתב העת Nature הציגו המפתחים את יכולותיו של מיו-זירו ללמוד משחקי קונסולת משחק ומחשבי אטארי כמו "גברת פאק-מן" (Ms. Pac-Man), וגם במשחקי לוח קלאסיים כמו שחמט, שוֹגִי (מעין שחמט יפני) וגוֹ (משחק לוח סיני). ייחודו של האלגוריתם החדש הוא בכך שהוא לא רק מסוגל להתמודד עם בעיות מגוונות, אלא גם עושה את זה בלי שום מידע מקדים.

אתגר גדול לבינה המלאכותית, שגם עליו האלגוריתם החדש הצליח לגבור. משחק גו | צילום: Nataliia Dvukhimenna, Shutterstock

זירת המשחקים של הבינה המלאכותית

בשנת 1997 הפסיד אלוף העולם בשחמט גארי קספרוב למחשב כחול עמוק, באירוע היסטורי בתולדות הבינה המלאכותית. בעקבות זאת כתב קספרוב מאמר שבו הסיק כי כפי שזבובי תסיסנית המחקר (דרוזופילה) הפכו למודל שבאמצעותו חוקרים גנטיקה, משחק השחמט הפך לתסיסנית של ההסקה הלוגית. ואכן, המשחק הפך לכלי חשוב שבאמצעותו מדעני מחשב משכללים את יכולותיה של הבינה המלאכותית.

היכולת של תוכנות בינה מלאכותית להתמודד עם משחקים לוגיים מורכבים השתכללה מאוד מאז. במשך שנים הציב המשחק הסיני גו אתגר קשה במיוחד למפתחי בינה מלאכותית. במבט ראשון המשחק נראה פשוט למדי. בכל מהלך השחקן מניח אבן אחת על הלוח. אולם עבור בינה מלאכותית הקושי טמון במספרים. בעוד שלשחקן שחמט יש 20 מהלכים אפשריים לבחור מביניהם בפתיחת המשחק, שחקן גו יכול לבחור ב-361 משבצות שונות. בתור הבא יהיו לשחמטאי כ-400 מהלכים אפשריים לעומת כ-130 אלף לשחקן הגו. ובכל זאת, בשנת 2016 הצליחה חברת דיפמיינד לפתח אלגוריתם בשם אלפא-גו (AlphaGo), שהיה הראשון שניצח אלוף גו.

יש לכם שעה וחצי? מוזמנים לצפות בסרט התיעודי "אלפא-גו" על הבינה המלאכותית פורצת הדרך:

בינה עם אסטרטגיה עצמאית

יורשו של אלפא-גו, אלפא-זירו (AlphaZero), עלה על קודמו בכך שלא הזדקק למידע מקדים על סגנונות משחק אנושיים, אלא פיתח סגנון בכוחות עצמו. המידע היחיד שניתן לו מראש היה חוקי המשחק. האלגוריתם החדש פיתח יכולות על-אנושיות לא רק בגו אלא גם בשחמט ובשוגי. על סגנון השחמט של אלפא-זירו אמר קספרוב, "אני לא יכול להסתיר את הסיפוק שמתעורר בי מכך שהוא משחק בסגנון מאוד דינמי, ממש כמוני!"

משחק המלכים הפך למודל עבור מפתחי בינה מלאכותית. גארי קספרוב | צילום: Karolis Kavolelis, Shutterstock

מְיוּ-זירו, האלגוריתם החדש, הוא קפיצת מדרגה נוספת. בניגוד לקודמיו הוא אינו צריך אפילו לדעת את החוקים כדי לגבור על רב-אמן אנושי בשחמט. "העולם האמיתי מסובך וכאוטי, ואף אחד לא נותן לנו ספר חוקים שמלמד איך הוא עובד", הסביר המדען הראשי של דיפמיינד דיוויד סילבר.

לאלגוריתם שלומד בעצמו את חוקי הסביבה שבה הוא פועל קוראים "מערכת מבוססת-מודל". עד כה, מערכות מבוססות מודל תוכנתו כך שיבנו מודל של כל חוקי הסביבה לפני שהם עוברים ללמוד איך לפעול להשגת התוצאות הטובות ביותר בסביבה הזאת. מיו-זירו, לעומת זאת, מסתפק רק בלמידת החוקים הרלוונטיים לשיפור הביצועים.

בחברה מסבירים את ההבחנה הזאת באמצעות משל: בני אדם שרואים עננים אפורים בשמיים יודעים לחזות שעליהם לצאת מהבית עם מטרייה. התהליך המחשבתי שכרוך בכך כולל את ההכללה שגשם יורד בדרך כלל מעננים אפורים, והמסקנה שכדאי להצטייד במטרייה כדי לא להירטב בהמשך היום. איננו צריכים להבין איך אדי מים מתעבים בעננים והופכים לגשם כדי להגיע למסקנה הזאת. באופן דומה, האלגוריתם לא חייב להבין תמיד את הסביבה על בוריה כדי לחזות מה יהיה הצעד הבא המוצלח ביותר.

מְיוּ-זירו משתמש בשלושה כלים מרכזיים כדי לנתח את הסביבה שבה הוא פועל: ערך, מדיניות ותגמול. ככל שהוא צובר יותר ניסיון ביחסי הגומלין שלו עם הסביבה, כך הוא מיטיב לאמוד את הערך של כל מצב (כמה כדאי היה להגיע למצב המסוים הזה?), את המדיניות (מה הכי כדאי לעשות עכשיו?) ואת התגמול (עד כמה הפעולה האחרונה הייתה משתלמת?).

התפתחויות כאלה בתחום הבינה המלאכותית רלוונטיות לא רק למשחקים. העולם האמיתי רחוק מלהיות משחק לוח, אך ככל שהזמן עובר נראה שאלגוריתמים חדשים נהיים יותר ויותר מוכנים אליו. גם המחקר המדעי רצוף באתגרים שרק מחכים לאלגוריתם הנכון, מהמאמץ לפתח שיטה לחיזוי המבנה התלת-ממדי של חלבונים, שמעסיק ביולוגים זה עשורים רבים, דרך פענוח כתבים עתיקים ועד הפעלה של כלי רכב אוטונומיים. אין ספק שהבינה המלאכותית נבונה מאי פעם.