התוכנה בעלת פני הפוקר

לראשונה: חוקרים פיתחו בינה מלאכותית שיודעת לנצח במשחק פוקר רב-משתתפים מול שחקנים מקצועיים בני אנוש

חוקרים מאוניברסיטת קרנגי-מלון בארצות הברית ומחטיבת המחקר של פייסבוק פיתחו לאחרונה תוכנת בינה מלאכותית בשם פְּלוּרִיבּוּס (Pluribus), שמסוגלת לנצח שחקני פוקר מקצועיים ולהרוויח בממוצע חמישה דולר לסיבוב או אלף דולר בשעה במשחק פוקר טקסס הולדם. היתרון הגדול של התוכנה נובע מהיכולת שלה ליישם באקראי כמה אסטרטגיות משחק, דבר ששחקנים בני אנוש מתקשים בו.

אם נפשט מעט את חוקי המשחק, במשחק טקסס הולדם כל שחקן מקבל שני קלפים שמוסתרים מעיני שאר השחקנים, ובהמשך מחולקים בהדרגה חמישה קלפים משותפים שגלויים לכולם. על כל שחקן ליצור צירוף מנצח ("יד") של חמישה קלפים שתביס את יתר המתמודדים, כשבכל שלב עליו להחליט אם הוא פורש, מהמר, או משווה הימור קיים.

כבר ב-2017 פיתחו אותם חוקרים את לִיבְּרַטוּס (Libratus), קודמתה של התוכנה הנוכחית, שהצליחה לנצח בפוקר שחקן בן אנוש ולהרוויח כ-1.7 מיליון דולר. ממשיכת דרכה פלוריבוס הלכה צעד נוסף ולמדה לנצח במשחק רב-משתתפים.

פיתוח תוכנה שמסוגלת לנצח במשחק פוקר רב-משתתפים הוא אתגר גדול למתכנתים לעומת משחקי לוח כמו שחמט או גו, שבהם יש להביס רק מתמודד אחד וכל המידע גלוי על לוח המשחק. בעבר פותחו תוכנות ששכללו את אסטרטגיית המשחק במשחקים כאלה וניסו להגיע לשלמות על ידי שימוש בשיווי משקל נאש – שבו כל מתמודד מנסה לקבל את ההחלטה הטובה ביותר עבורו. במצב הזה לאף אחד לא משתלם לשנות את אסטרטגיית המשחק שלו, בלי קשר לגישה שבה בחר יריבו.

משחק רב-משתתפים מורכב הרבה יותר, משום שכל שחקן משתמש באסטרטגיה אחרת. פוקר ממוחשב | אילוסטרציה : Shutterstock

יותר שחקנים, יותר מורכבות

שלא כמו משחקי הלוח שהזכרנו, בפוקר חלוקת הקלפים בכל סיבוב היא אקראית ולא משפיעה במידה רבה על המורכבות החישובית. עם זאת, מרכיבים אחרים במשחק מקשים מאוד על החישובים הדרושים, ובכלל זה הצורך לנצח כמה מתמודדים, היעדר מידע על הקלפים שבהם מחזיקים השחקנים האחרים והעובדה שכל שחקן נוקט באסטרטגיה אחרת.

במשחק רב-משתתפים, גם אם כל שחקן ישתמש באסטרטגיה שתהיה מושלמת מול שחקן אחד, כלומר בעלת הסיכוי הכי גבוה להוביל לניצחון, היא לא תפעל אם ינסה ליישם אותה על כמה שחקנים במקביל. מאחר שקשה מאוד לפתח מראש אסטרטגיית משחק מושלמת כשלא כל המידע גלוי, החוקרים פיתחו תוכנה שמתקרבת לשיווי משקל נאש בהדרגה, צעד אחר צעד. לשם כך, בתום כל צעד התוכנה בודקת עד כמה היא "מתחרטת" עליו בדיעבד, כלומר סוקרת את כל האפשרויות ומנסה למצוא, על סמך פעולות היריבים, את המהלך בעל הסיכויים הגבוהים ביותר, שבחירה בו תמנע חרטה. בהתאם לכך היא מתכננת את הצעד הבא. ככל שהחרטה על מהלכים מצטמצמת, התוכנה מתקרבת יותר לשיווי משקל נאש ולאסטרטגיה המיטבית.

בשלב הראשון אימנו את פְּלוּרִיבּוּס לשחק מול עותקים של עצמה, כשהיא פותחת את המשחק במהלכים אקראיים. מהלכים שהובילו לניצחון קיבלו תעדוף במשחקים הבאים, כך שבהדרגה התוכנה למדה אילו מהלכים לבצע ומה הסיכוי שיובילו לניצחון מול הגרסאות המוקדמות יותר שלה.

בשלב השני גויסו שחקני פוקר מקצועיים שהרוויחו מיליון דולר לפחות בטורנירים מקצועיים, ויצרו שתי סביבות משחק של טקסס הולדם עם שישה שחקנים: בסביבה אחת היו חמישה שחקנים בני אנוש ושחקן ממוחשב אחד המבוסס על פְּלוּרִיבּוּס, ובשנייה אדם אחד מול חמישה פְּלוּרִיבּוּסים ששיחקו בנפרד. אף אחד משחקני המחשב לא ידע שהוא משחק מול שחקני מחשב נוספים, כדי שלא יוכל לתאם עמדות ולשחק אחרת מול השחקן האנושי. במהלך המשחק התמודדה התוכנה עם מצבי משחק חדשים מול השחקנים בני האנוש וניסתה לפתח אסטרטגיית משחק יעילה יותר מולם.

אסטרגטגיה יעילה במיוחד - סרטון המדגים ביצועים של פלוריבוס כמה סיבובי פוקר, עם הסברים (באנגלית):

אסטרטגיה לא שגרתית

בשתי סביבות המשחקים הצליחו העותקים של פְּלוּרִיבּוּס לגבור על השחקנים בני האנוש בהצלחה יתרה. מאחר שהשלב הראשון של פיתוח התוכנה לא התבסס על מהלכי משחק אנושיים, התוכנה פיתחה אסטרטגיות בצורה עצמאית ואף המחישה שאפשר לנצח באסטרטגיית משחק שנקראת "הימור הובלה" (Donk betting), שחלק מהשחקנים נטו לזלזל בה ואחרים ראו בה אסטרטגיה לא שגרתית.

בשיטה הזאת המתמודד משחק ראשון אחרי שבתום הסיבוב הקודם התוכנה השוותה להימור קיים ועם פתיחת הסיבוב החדש לאחר פתיחת קלף משותף נוסף היא העלתה את ההימור. נראה שפְּלוּרִיבּוּס לימדה את עצמה להשתמש במהלך הזה בצורה נכונה ולנצח איתו, בשעה ששחקנים אנושיים נוהגים להשתמש בו לא נכון ולכן נכשלים. ייתכן שכעת שחקנים מקצועיים יבחנו מחדש מתי כדאי להם להשתמש במהלך הזה.

התוכנה גם הצליחה להמר בסכומים משמעותיים, ולהשתמש גם במהלכי כזב ומהלכים שנועדו לפתות את היריבים להמר כשלפְּלוּרִיבּוּס יש יד עם סיכוי ניצחון גדול במקצת על פני המתמודדים האחרים.

ֿהפיתוח של פלוריבוס היה מהיר וזול לעומת תוכנות בינה מלאכותית קודמות, כמו alpha-go שהייתה הראשונה שניצחה שחקן גוֹ מקצועי. השלב הראשון של אימון התוכנה במשחק מול עצמה נמשך שמונה ימים על שרתי ענן בעלות של 144 דולר בלבד. השני נמשך 12 יום וכלל 10,000 סיבובי משחק שבמהלכם התוכנה רצה על שני מעבדי מחשב בלבד והשתמשה ב-128 גיגה-בייט של זיכרון. לשם השוואה, ליברטוס נזקקה בשלב המשחק מול בני אדם לכמות עצומה של מאה מעבדי מחשב.

החוקרים מקווים כי הם יוכלו להשתמש בהמשך בבינה המלאכותית החדשה שיצרו בסביבות נוספות שיש בהן מידע חבוי, למשל לצורך מניעת מעשי מרמה ואבטחת מידע באינטרנט.