פיתוחי הצ'טבוטים שמחוללים בשנים האחרונות מהפכות בתחומים רבים בחיינו הם תולדה של פיתוחים הדרגתיים רבים, שעברו דרך רשתות עצבים, טיפול פסיכולוגי, נקניקיות (כדוגמה), שחמט ופרס נובל בפיזיקה
הענקת פרס נובל בפיזיקה השבוע לשניים מחלוצי הבינה המלאכותית היא ציון דרך סמלי לתחום. זו הזדמנות טובה להישען לאחור ולהביט על כברת הדרך שהאנושות עברה בתחום זה, מההגדרות הראשוניות של המושג "בינה מלאכותית" ועד להישגים העצומים שאנו חווים בתחום כיום, ומשפיעים על רבים מתחומי החיים שלנו.
צעדים ראשונים
את תולדות הבינה המלאכותית, ראוי להתחיל לגולל מ-1950, אז פרסם אלן טיורינג (Turing), המתמטיקאי הבריטי שנחשב לאבי מדעי המחשב, מאמר שבו הציג את השאלה האייקונית: "האם מכונות מסוגלות לחשוב?". כדי לענות על כך, הוא הציג ניסוי מחשבתי, שייקרא לימים "מבחן טיורינג". בניסוי זה, מראיין אנושי משוחח עם אדם ועם מכונה הנמצאים בחדרים נפרדים, בלי שהוא יכול לדעת מי מהם משיב לו. אם בתום זמן מוגדר המראיין אינו מצליח להבחין בין האדם למכונה, המחשב עבר את המבחן. אף על פי שמבחן טיורינג נחשב לבעייתי ליישום, מאמר זה נחשב לאבן דרך בהתפתחות הרעיון של הבינה המלאכותית.
ב-1956, שנתיים לאחר מותו של טיורינג, התקבצו מספר מצומצם של מתמטיקאים ומדעני מחשב מתחומי מחקר שונים בדארטמות קולג' שבניו המפשייר. מטרת הסדנה הייתה להתחיל ליצור פורום שיוכל לאפיין את התחום של "המכונות החושבות", ויפתח רעיונות ושיטות חדשים שיסייעו לקדם אותו. אחד ממארגני האירוע היה מדען המחשבים האמריקאי ג'ון מקארתי (McCarthy), שגם טבע את הביטוי "בינה מלאכותית", כאשר היה עליו לקבוע את שם הנושא לכנס. אפשר לומר שהאירוע הזה השיג את מטרתו, ונקבעה בו מסגרת ראשונה לדיונים ומחקר הקשורים לבינה מלאכותית. בעיני רבים, כינוס דארטמות נחשב לאירוע שכונן את תחום המחקר הזה.
דור המייסדים. שבעה מהמשתתפים הבולטים בסדנת דרטמות: אוליבר סלפרידג', נאט רוצ'סטר, מרווין מינסקי, ג'ון מקארתי, ריי סולומונוף, ליאון הרמון וקלוד שאנון | צילום: גלוריה מינסקי, מקור: IEEE.ORG / The Minsky Family
עם התבססות תחום מדעי המחשב בשנות ה-60 וה-70, תחום הבינה המלאכותית צעד את צעדיו המעשיים הראשונים. היכולות שהוצגו אז היו כמובן רחוקות מאוד ממה שאנו מזהים כיום כבינה מלאכותית. תוצאות המחקרים נותרו בעיקר בין כותלי האקדמיה, ולא זלגו לעולם המעשי. האלגוריתמים באותן השנים התבססו בעיקר על חלוקת הבעיה לפרמטרים שונים, והצבת תנאים שעל פיהם תקבל המכונה החלטות.
ג'וזף וייצנבאום (Weizenbaum), יהודי ממוצא גרמני, הביא לעולם את הצ'אטבוט הראשון אלייזה (ELIZA), שסיפקה מעין טיפול פסיכולוגי למשתמש. היא זיהתה מילים מסוימות שהוזנו לה בצ'אט והגיבה במשפט המבוסס על תבנית מתאימה. גם כיום אפשר להתכתב עם אלייזה ולבחון את הכישורים שלה.
בהמשך הופיע הרובוט הראשון בעל הבינה המלאכותית שפותח באוניברסיטת סטנפורד. שמו היה שייקי (SHAKEY) והוא היה מוסגל לבצע מספר פעולות פשוטות שעליהן החליט בעצמו, כמו לנוע במרחב או להזיז עצמים ממקום למקום, אם כי כפי ששמו מרמז, תנועתו לא הייתה חלקה במיוחד.
בשנת 1959 טבע לראשונה ארתור סמואל (Samuel), עובד ב-IBM, את המונח למידת מכונה. זוהי צורה אחרת של בינה מלאכותית, הנפוצה כיום. בשיטה זו המחשב לומד לפתור בעיות או לבצע מטלות מתוך נתונים המוזנים אליו.
הצ'אטבוט הראשון, שמיועד לספק מעין טיפול פסיכולוגי, ועדיין פעיל. מסך של שיחה עם אלייזה | מקור: ויקיפדיה, נחלת הכלל
פריחה בחורף
שנת 1974 היוותה שנת מפנה לרעה עבור תחום הבינה המלאכותית. המתמטיקאי היישומי ג'יימס לייטהיל (Lighthill) פירסם דו"ח ביקורת נוקב על תחום המחקר בבריטניה, וטענתו העיקרית הייתה כי היבול של התחום דל מאוד ביחס למשאבים המושקעים בו. המאמר גרר קיצוצים חדים בהשקעות האקדמיות בבריטניה. בהמשך, התעשיות הצבאיות של ארצות הברית קיצצו גם הן את השקעותיהן באקדמיה האמריקאית. התחום נכנס להאטה של שני עשורים, שבהם לא נרשמו פריצות דרך יישומיות בתחום. תקופה זו מכונה "חורף הבינה המלאכותית".
בעיצומו של חורף זה, בשנות ה-80, נטמנו זרעי הרעיונות שיהיו הבסיס לבינה המלאכותית כפי שאנו מכירים אותה כיום, כלומר מבוססת על רשתות עצבים מלאכותיות. רעיונות אלו זיכו את מפתחיהם ג'ון הופפילד (Hopfield) וג'פרי הינטון (Hinton) בפרס נובל בפיזיקה לשנת 2024.
למעשה, רשתות עצבים כאלה לא היו רעיון חדש באותן שנים. כבר בשנת 1934, פרסמו מדען המוח וורן מק'קוּלוֹך (McCulloch) ועמיתו הלוגיקן וולטר פיטס (Pitts) מאמר שהציע מודל מתמטי מופשט לתיאור המוח כרשת מורכבת מתאי עצב (נוירונים) ומהקשרים ביניהם. כמה שנים מאוחר יותר, הפסיכולוג דונלד הב (Hebb) פיתח עוד את הרעיון וטען כי הלמידה במוח מתבצעת כך שהקשר בין הנוירונים המשמעותיים לתהליך הלמידה מתחזק, ואילו הקשרים לנוירונים שתרומתם מועטה – נחלשים.
כדי להבין כיצד יכולה לשמש רשת כזו לבינה מלאכותית, אפשר להיזכר באפליקציה המשעשעת שפיתח ג'יאן יאנג בסדרה הקומית עמק הסיליקון, שנועדה להפריד בין תמונות של נקניקיות לתמונות שאינן של נקניקיות. לשם כך, הרשת תצטרך להיעזר בדוגמאות, ויוזנו לתוכה, לאחר עיבוד מתמטי מסוים, תמונות של נקניקיות ושל דברים שאינם נקניקיות. במהלך הלמידה, כל "נוירון" ברשת יהיה אחראי על חישוב מסוים, תרגיל כפל וחיבור פשוט. קשרים בין נוירונים שתרמו לתהליך הלמידה יקבלו משקל גדול יותר מאשר קשרים שלא תרמו לכך. לאחר שהוזנו לרשת מספיק דוגמאות, היא תוכל לבצע הפרדה בין נקניקיה לבין לא-נקניקיה. במהלך השנים הבאות הועלו הצעות שונות לשימוש במודלים אלה לבינה מלאכותית, אך הן לא הניבו פירות.
שקלול עוצמת הקשרים בין ה"תאים" ברשת מאפשר לתוכנה – לאחר אימון מספיק – לסווג דברים, כמו נקניקיות | צילום מסך מהסדרה "עמק הסיליקון", HBO
ב-1982 פרסם הפיזיקאי האמריקאי ג'ון הופפילד את המודל של רשת הנוירונים שעתידה להיקרא על שמו. כמו מודלים קודמים, היא הורכבה מנוירונים ומהחיבורים ביניהם. החידוש של הופפילד היה להשתמש בעקרונות של פיזיקה סטטיסטית כדי לתאר את הקשרים בין הנוירונים. בפיזיקה, מערכת מרובת חלקיקים נוטה להתייצב סביב מצב יסוד שבו האנרגיה של המערכת מינימלית. למשל, כאשר מפעילים שדה מגנטי חיצוני על חומרים פרוגמנטיים, כמו ברזל או קובלט, האלקטרונים נוטים להסתדר באותו כיוון. אפשר לומר כי זהו "המצב שהכי קל לאלקטורנים להסתדר בו", ולכן, האנרגיה הכוללת של מערכת האלקטרונים תהיה מינימלית. באופן דומה, כשמוזן לרשת הנוירונים מידע חדש הרלוונטי לתהליך הלמידה, משקל הקשרים בין הנוירונים ישתנה, עד שיגיעו למצב של שיווי משקל.
ג'פרי הינטון, פסיכולוג קוגניטיבי בהכשרתו, קידם את הרעיון של רשת הופפילד והציע ב-1986 רעיון מעשי שלפיו פועלות רשתות העצבים המלאכותיות שאנו משתמשים בהם כיום. הרשת של הינטון מחולקת לשלושה סוגי שכבות. הראשונה היא שכבת הקלט, שבה מתקבל ייצוג מתמטי של המידע, ואם נחזור לדוגמה הקודמת – תמונה של נקניקייה/לא-נקניקייה. ממנה, המידע מועבר לשכבה נסתרת, או כמה שכבות נסתרות, שבהן מתבצע עיבוד המידע. לבסוף המידע המעובד מועבר לשכבה האחרונה, שכבת הפלט, שמסוגלת לתת הערכה מסוימת לגבי הקלט. גם הינטון השתמש ברעיונות מתחום הפיזיקה הסטטיסטית, ובמקרה הזה בהסתברות בולצמן, המתארת תנועת חלקיקים בתנאים תרמודינמיים מסוימות. לכן, הרשת של הינטון מכונה גם "מכונת בולצמן".
הרשתות שהציעו הינטון והופילד היו בדיעבד רעיונות מהפכניים, אך כזכור אותן שנים נחשבות לחורף של הבינה המלאכותית. כדי להשתמש בשיטות שהם הציעו נדרשו נתונים רבים ומחשבים בעלי יכולות עיבוד חזקות מאוד – תנאים שלא התקיימו באותה התקופה. במקביל, התפתחו שיטות אחרות לבינה מלאכותית, שסיפקו תוצאות יפות יחסית לתנאים שהיו אז. השימוש ברשתות העצבים המלאכותיות נכנס להקפאה למשך העשורים הבאים.
מותר המחשב מהאדם
ב-1996, הגיע סימן ראשון לסוף החורף של הבינה המלאכותית ולתחילת האביב. מחשב-העל שפיתחה חברת IBM בשם כחול עמוק (Deep Blue) התמודד מול אלוף העולם בשחמט דאז, גארי קספרוב, שייצג את הטוב ביותר שהאנושות יכולה להציע. התחרות התקיימה בפילדלפיה, וקספרוב הנחיל תבוסה למחשב וניצח 2-4 בהתמודדות. ב-1997 נערכה בניו יורק התמודדות חוזרת, לאחר שכחול עמוק עבר סדרת שיפורים משמעותיים, ויכול לחשב 200 מיליון מהלכים בשנייה. הפעם גבר המחשב על האדם בתוצאה 2.5-3.5. אף על פי שעיקר ההישג נבע מיכולת חישוב חזקה ולא מהפגנת "אינטליגנציה אמיתית" שאפשר לשייך לבני אדם, הניצחון חזר להצית את העניין הציבורי בפוטנציאל הטמון בבינה המלאכותית.
ניצחו את אלוף העולם. צוות המפתחים של תוכנת השחמט Deep Blue, שנצחונה על אלוף העולם גארי קספרוב היה אחת ממהפכות הבינה המלאכותית | צילום: IBM RESEARCH / SCIENCE PHOTO LIBRARY
שנות ה-2000 התאפיינו בפיתוחם מעבדים חזקים יותר ויותר, שהגדילו את כוח החישוב של המחשבים. במקביל, האינטרנט והרשתות החברתיות ייצרו כמות עצומה של מידע שלא הייתה זמינה לאונושת קודם לכן. אחת הראשונות להבין את הפוטנציאל הגדול הטמון בשינוי הזה הייתה מדענית מחשב סינית אמריקאית בשם פיי-פיי לי (Li). בשנת 2005 היא סיימה את לימודי הדוקטורט שלה במכון הטכנולוגי של קליפורניה (Caltech), והתקבלה למשרת הוראה באוניברסיטת אילינוי. באותו שנה היא הבחינה שרוב מחקר הבינה המלאכותית מתרכז בעיקר בפיתוח אלגוריתמים ובשיפורם. המגוון, האיכות והכמות של הנתונים שעליהם אומנו האלגוריתמים הללו זכו לפחות תשומת לב. כדי לענות על הפער הזה, היא החלה לפעול להקמת מאגר תמונות מתויגות, כך שיהיה אפשר להשתמש בהן לאימון אלגוריתמים. בשנת 2009 היא פרסמה את ImageNet, שהיה בזמנו המאגר הגדול מסוג זה. משתמשים מכל רחבי העולם העלו תמונות למאגר ותייגו אותן על פי תוכנן.
מ-2010, יזמה קבוצת ImageNet תחרות שבמסגרתה אלגוריתמים שונים לעיבוד תמונות ינסו להביא את התוצאה הטובה ביותר בסיווג תמונות מן המאגר. בשנת 2012, AlexNet, שעשתה שימוש בשכבות מרובות של רשתות של נוירונים, השתתפה בתחרות וזכתה במקום הראשון בפער ניכר. בעקבותיו, אלגוריתמים לזיהוי תמונה או זיהוי קולי, כמו סירי של אפל ואלקסה של אמזון, החלו להיות נפוצים יותר ויותר. ארכיטקטורות שונות ומגוונות של רשתות עצבים מלאכותיות לטיפול בסוגים שונים של מידע פותחו בתדירות גוברת והולכת באקדמיה ובתעשייה. קצב ההתפתחות של הבינה המלאכותית הואץ עוד ועוד, ובשנת 2017 הגיע בשורה משמעותית נוספת מכיוונה של חברת גוגל.
מהפכה בטכנולוגיות זיהוי בזכות שכבות מרובות של רשתות עצבים מלאכותיות. הארכיטקטורה של AlexNet מתןך מאמר המחקר של Zhang, Aston and Lipton, Zachary C. and Li, Mu and Smola, Alexander J, מקור: ויקיפדיה
עידן הטרנספורמרים
גוגל הציגה ארכיטקטורה חדשה של רשתות נוירונים בשם טרנספורמר, שהקפיצה את רמת היכולת של עיבוד והבנה של שפה. הטרנספורמר עשה שימוש במנגנון שמפרק את הקלט לחלקים בעלי משמעות, ולאחר מכן, נותן משקל לכל חלק בהתאם לקשר שלו לשאר החלקים. אם מדובר בקלט שהוא טקסט, החלוקה תהיה בדרך כלל למילים, אבל לפעמים גם לחלקי מילים ולסימנים. לדוגמה, במשפט "אני חזרתי לביתי הישן", המשפט יכול להיות מחולק למילים "אני", "חזרתי", "לביתי", "הישן", ".". ביחס למילה "אני", המילים "חזרתי" ו"לביתי" יקבלו ציון גבוה, מכיוון שהן קשורות אליה ישירות. לעומת זאת, "הישן" יקבל ציון נמוך יותר ביחס ל"אני". אפשרות נוספת לחלוקה היא: "אני", "חזר", "תי", "ל", "בית", "י", "ה", "ישן", ".". באפשרות האחרונה, החלוקה התבצעה כך שכמה מהמילים פורקו לרכיבים שונים בעלי משמעויות כמו מילות יחס או הטיות. כמובן שחוקי החלוקה משתנים בין שפה לשפה בהתאם לטבעה.
הטרנספורמרים הקפיצו את רמת הביצוע של אלגוריתמים הקשורים להבנת שפה, כמו תמלול או תרגום. שנה בלבד לאחר הופעתם, הציגה חברת OpenAI את הגרסה הראשונית למה שיהיה הצ'אטבוט המוכר ביותר בעולם כיום: GPT. ראשי התיבות GPT הינם Generative Pre-trained Transformers, כלומר טרנספורמרים שאומנו מראש על כמות עצומה של מידע מכל רחבי האינטרנטים, וכעת הם בעלי היכולת ליצור טקסט בעצמם, בהתאם לפקודה המוזנת להם. החברה שיפרה את הצ׳אט בגרסאות שונות, עד שהחליטה שהוא מוכן לשימוש נרחב והשיקה ב-2022 את ChatGPT, גרסה ידידותית למשתמש של GPT שכבר ממש שינה את העולם. כמה חודשים מוקדם יותר באותה השנה, הוצגו יכולות של יצירת תמונות מתיאור טקסט בלבד על ידי Dall-E, תוך שימוש בארכיקטורת רשתות מורכבת נוספת – מודלי דיפוזיה – שהשאירו אנשים רבים שמוטי לסת.
בשנתיים האחרונות הבינה המלאכותית הפכה לכלי עבודה בסיסי שרבים מאיתנו משתמשים בו ביום-יום: בין אם לחיפוש מידע, ליצירת תמונות, לכתיבת קוד, ליצירת מוזיקה ולמגוון שימושים נוספים. נראה שכבר קשה לעמוד בקצב הופעת הכלים החדשים. רק השבוע שיחררה OpenAI את הכלי החדש שלה ליצירת וידאו, Sora. בעוד שיש כאלה הסבורים שהשנים הקרובות יביאו להישגי בינה מלאכותית יותר ויותר חזקים, יש כאלה שמעט מצננים את ההתלהבות. טענתם המרכזית היא שאנו צופים בעיקר בשיפור יכולות קיימות, ולא בקונספטים מהפכניים שמערערים את עולם הבינה המלאכותית. קצת בדומה למהפכת הסמארטפונים מלפני עשור וחצי. נותר לנו לחכות ולראות מי צודק.
התקדמות עצומה בקצת יותר מ-70 שנה: ציר זמן שמציג את התפתחות הבינה המלאכותית | נתונים: אורי פוגל, עיצוב: ליאת פלי