תחרות שמרבה חוכמה: אחרי שחברה אחות של גוגל פענחה באמצעות בינה מלאכותית את המבנה המרחבי של מאות מיליוני חלבונים, הצטרפה "מטא" למרוץ ויצרה מאגר גדול פי שלושה בעזרת מודל שמתייחס לחלבונים כשפה

מלחמת החלבונים בין שתי ענקיות הטכנולוגיה פייסבוק וגוגל עולה מדרגה. בנובמבר האחרון פרסמה מחלקת המחקר של מטא, חברת האם של פייסבוק, מאגר מידע שמתאר את המבנה של 617 מיליון חלבונים שניבא מודל בינה מלאכותית חדש המבוסס על עיבוד שפה טבעית. כמה חודשים לפני כן, הרחיבה דיפ מיינד (DeepMind), חברת אחות של גוגל, את מאגר המידע של מבני חלבונים שהיא ניבאה בעזרת המודל החישובי שלה, "קיפול אלפא", והודיעה שגודלו הגיע ל-200 מיליון חלבונים.

המערכה הנוכחית אינה רק מאבק מסחרי על יוקרה וכסף בין חברות; טמון בה פוטנציאל ממשי לפתוח את הדלת לפריצות דרך משמעותיות ביותר בתחומי הביוטכנולוגיה, בתעשיית התרופות, הננו-טכנולוגיה, הבינה המלאכותית ועוד. זוהי גם הזדמנות פז להביט לעומק בטכנולוגיה העומדת מאחורי מאגרי הנתונים החדשים: שימוש בכלי בינה מלאכותית של עיבוד שפה טבעית על חלבונים.

האם לחלבונים יש שפה?

עיבוד שפה טבעית, תחום בשדה הבינה המלאכותית המתמקד בהבנת השפה, חווה בשנים האחרונות פריצות דרך משמעותיות. תוכנות בינה מלאכותית מתרגמות עבורנו, משלימות משפטים ויוצרות משפטים חדשים בחיי היום-יום של רבים מאיתנו. הן מסתייעות לשם כך בנגישות הגוברת של מאגרי מידע גדולים בעידן האינטרנט, בפיתוח מודלים חישוביים חדשים ובעלייה המתמדת בכוח החישוב.

החלבונים הם מעין מכונות קטנות שמבצעות תפקודים רבים בכל תא חי. הם מורכבים מעשרים סוגים של אבני בניין שנקראות חומצות אמינו, ולכל אחת יש אות אנגלית שמייצגת אותה. כדי ליצור חלבון, חומצות האמינו מתחברות זו לזו כמו חרוזים על שרשרת. אפשר להתייחס לחומצות האמינו כמעין אלף-בית חלבוני. בדומה לכתב העברי הכולל 22 אותיות, או האנגלית שבה 26 אותיות, בשפת החלבונים יש בדרך כלל 20 אותיות, שהן חומצות האמינו.


החלבונים בנויים מעשרים סוגים של אבני בניין שנקראות חומצות אמינו, ולכל אחת יש אות אנגלית שמייצגת אותה. רשימה של חומצות האמינו | Shutterstock, Cristian Victor Rete

בשפה האנושית האותיות מאורגנות במילים ובמשפטים. גם בשפת החלבונים יש רמות ארגון יותר גבוהות. כמעט לכל חלבון יש רצף ייחודי של חומצות אמינו, שמהווה את רמת הארגון הנמוכה ביותר. הרצף המדויק קובע את המבנה התלת-ממדי הייחודי של החלבון, שמאפשר לו לבצע תפקיד ביולוגי מסוים. למשל, המבנה התלת-ממדי של ההמוגלובין מאפשר לו לקשור אליו חמצן בריאות ולהוביל אותו לכל איברי הגוף.

השאלה המרכזית היא אם אפשר ליישם על שפת החלבונים מודל המבוסס על כלים של עיבוד שפה טבעית. האם המודל הזה יצליח ללמוד את "כללי התחביר" המורכבים של המבנה המרחבי של החלבונים? אם כן, זו תהיה קפיצת דרך משמעותית. עד היום הצלחנו לפענח רק חלק מהכללים המכתיבים את ההשפעה של רצף חומצות האמינו על המבנה והתפקוד של החלבונים, בין השאר כי אנחנו יודעים מעט מאוד על המבנה והתפקוד של רוב החלבונים.

להמחשה, אנו מכירים רצפים של חומצות אמינו של מאות מיליוני חלבונים, אך במאגר המידע של המבנים התלת-ממדיים של החלבונים יש כיום מבנים של כמאתיים אלף חלבונים בלבד. פער גדול קיים גם בין מספר החלבונים שאנו מכירים לבין מספר החלבונים שאנו יודעים את התפקוד הביולוגי שלהם.

מוסדות מחקר וחברות מסחריות מנסים לשפר את התכונות של חלבונים קיימים, בין השאר כדי ליצור מהם תרופות, ולשם כך הם מנסים לפענח את התפקוד או את המבנה המרחבי של חלבון יחיד או חלבונים בודדים בכל פעם. אם נוכל להיעזר בחוקים שמחשב למד על שפת החלבונים, על סמך מאגרי מידע של עשרות מיליוני רצפים של חלבונים, תהיה לכך תועלת מחקרית ויישומית רבה.


רצף חומצות האמינו, שנראה בתמונה משמאל, קובע את המבנה התלת-ממדי של החלבון, כפי שנראה בשלבים השני והשלישי משמאל. חלק מהחלבונים גם מתארגנים למבנה הכולל כמה רצפים של חומצות אמינו, הנראה מימין | Shutterstock, Designua

איך מחשבים לומדים את שפת החלבונים? 

התוכנות שמופעלות על מאגרי מידע של רצפי חומצות אמינו הן מודלים של עיבוד שפה טבעית. המשימה הקלאסית שאליה מאמנים מודל של עיבוד שפה טבעית היא השלמת אותיות חסרות: לוקחים טקסט ארוך, מסתירים באקראי כ-15 אחוז מהאותיות ומטילים על המחשב לנסות למצוא את האותיות החסרות. מתברר כי במהלך השלמת התווים החסרים הבינה המלאכותית מצליחה ללמוד כללי דקדוק ותחביר מורכבים. רכישתם מאפשרת לה, כבר אחרי שאומנה פעם אחת, לבצע משימות אחרות הקשורות לשפה על סמך הכללים שלמדה – למשל יצירת משפט חדש.

כדי ללמוד את כללי הדקדוק והתחביר של שפות – אנושיות וחלבוניות גם יחד – צריך לפענח את חשיבותו של ההקשר הרחב של כל מילה במשפט או בפסקה, ולא רק להבין את חשיבותן של המילים או האותיות הסמוכות אליה. לא לכל מילה יש אותו משקל במשפט. למשל, במשפט "יוסי הלך לגן ואכל תפוח ירוק", הקשר בין "אכל" ל"תפוח" יותר חזק מאשר הקשר בין "גן" ל"תפוח", כי התפוח הוא זה שנאכל. באופן דומה נמצא שלסידור רצף חומצות האמינו בחלבון יש משמעות, ולצירופים שונים של אותן חומצות אמינו יש משקל שונה.

במאמר רב השפעה משנת 2017 תיארו אנשי חטיבת המחקר של חברת גוגל מודל שנותן משקל שונה למילים שונות במשפט. השיטה החישובית הזאת זכתה לשם "תשומת לב" (Attention), והגיעה להישגים נאים בתרגום מאנגלית לצרפתית ולגרמנית. החידוש העקרוני במאמר יושם במקרים רבים, גם על שפת החלבונים.


המשימה הקלאסית שאליה מאמנים מודל של עיבוד שפה טבעית היא השלמת אותיות חסרות. אילוסטרציה של זרוע רובוטית משלימה את האות "L" בראשי התיבות של "עיבוד שפה טבעית" | Andrzej Wojcicki, Science Photo Library

מה למדנו משפת החלבונים?

מודלים מבוססי עיבוד שפה טבעית פותחו באוניברסיטת הרווארד, במכון הטכנולוגי של מסצ'וסטס (MIT), באוניברסיטת ניו יורק בשיתוף מחלקת המחקר של מטא, באוניברסיטה הטכנית של מינכן בשיתוף חוקרים מגוגל וחברות נוספות, ובישראל. החוקרים הזינו למודלים הללו עשרות מיליוני רצפים של חומצות אמינו של חלבונים, במטרה להשלים חומצות אמינו חסרות. מהמחקרים עלה שבעזרת מודלים המבוססים על עיבוד שפה טבעית ויישומם על חלבונים, אפשר ללמוד את התחביר של שפת החלבונים. לדברי ברקהרד רוסט (Rost) ממובילי המחקר של מינכן, התוצאות מראות כי "מודלים של שפה של חלבונים למדו את כללי הדקדוק של שפת החיים".

המודלים למדו בין השאר לאפיין חומצות אמינו לפי התכונות הכימיות שלהן, למיין קבוצות של חלבונים בהתאם לסוג האורגניזם שאליו הם שייכים, ולארגן את החלבונים בקבוצות לפי המבנה התלת-ממדי שלהם. המודלים הגיעו לכל התובנות האלו על סמך מידע שלמדו מרצף של חומצות אמינו בלבד, בלי להיחשף לשום מידע ישיר על עקרונות הכימיה או המבנה של החלבונים.


"מודלים של שפה של חלבונים למדו את כללי הדקדוק של שפת החיים". אילוסטרציה של אלגוריתם הלומד את רצף חומצות האמינו של חלבון ומוצא את הסדר הטמון בו | Unsal et al

לנבא בעזרת שפת החלבונים

מודלים של עיבוד שפה טבעית למדו את כללי הדקדוק של חלבונים. האם בעזרתם אפשר גם לנבא תכונות של חלבונים? למשל, נניח שיש לנו מוטציה ברצף הגנטי שעל פיו התא בונה חומצת אמינו מסוימת. האם מוטציה כזו, שמובילה לחומצת אמינו שונה ברצף החלבון, משפיעה על התפקוד הביולוגי של אותו חלבון? ואיך נראה המבנה התלת-ממדי של חלבון כזה? 

מחקר משנת 2021, בהובלת אלכסנדר רייבס (Rives) ממחלקת המחקר של מטא ומאוניברסיטת ניו יורק, בדק אם המודל שפיתחו מצליח לנבא איך ישפיעו מוטציות על התפקוד של חלבונים. הם בחנו את המודל כנגד מאה מערכי נתונים המאגדים מידע על כ-700 אלף מוטציות שמשפיעות על תפקודם של חלבונים. נמצא כי המודל ניבא טוב יותר מהכלים הקיימים את ההשפעה של מוטציות על תפקוד של חלבונים, אפילו בלי שאימנו אותו במיוחד למשימה הזאת.

במחקר המשך החוקרים שינו מעט את המבנה של המודל, והצליחו לשפר עוד יותר את התוצאות. המחשב, שאומן במקור להשלים חומצות אמינו חסרות, ביצע משימה שכלל לא אומן לבצע. מודלים כאלה אומנו לבצע משימה כללית, אך הם מחוננים ב"למידת העברה", שהיא היכולת ללמוד חוקים של שפה וליישם אותם על משימות אחרות.


איזה תכונות של חלבונים אפשר לנבא בעזרת הרצף שלהם? אילוסטרציה של רצפי חלבונים מוכנסים לבינה מלאכותית, המוציאה מהם פרטים שונים | Klinsley Stocum

ניבוי מבנה בעזרת שפה

פענוח שפת החלבונים יכולה לסייע במשימה החשובה של ניבוי המבנה התלת-ממדי של חלבונים, שממנו אפשר להסיק מהי המשימה שהחלבון יכול למלא בתא החי. ניבוי המבנה התלת-ממדי של חלבונים על סמך רצף של חומצות אמינו בלבד הוא אתגר שמעסיק מדענים רבים כבר למעלה מחמישים שנה. לפני כשנתיים, בתחרות הדו-שנתית לחיזוי מבני חלבונים, הציגה חברת דיפ מיינד את "קיפול אלפא 2", מודל מבוסס בינה מלאכותית שניבא ברמת דיוק גבוהה מבנים של חלבונים על פי הרצף שלהם. בהמשך פרסמו החוקרים מאמר שמתאר  את פרטי המחקר, פרסמו את הקוד של המודל, והם מתחזקים מאגר מידע ובו מבנים שניבא "קיפול אלפא 2", שכבר כולל מעל 200 מיליון חלבונים.

"קיפול אלפא 2" בהחלט מרשים, אך הוא זקוק לזמן רב ולמשאבי חישוב ניכרים כדי לנבא את המבנה של חלבון אחד. זאת משום שבשלב הראשון המודל משווה את הרצף של חלבון המטרה למאות מיליוני רצפים של חלבונים מהמאגר, בחיפוש אחר חלבונים דומים. בנוסף, אם יש חלבון "יתום", שאין חלבונים שדומים לו, יכולת הניבוי של "קיפול אלפא 2" פוחתת מאוד.

כדי להתגבר על הבעיה, קבוצת חוקרים בהובלת מוחמד אלקוריישי (AlQuraishi) מאוניברסיטת קולומביה בניו יורק פיתחה מודל לניבוי המבנה התלת-ממדי של חלבונים, המתבסס על מודל שפה במקום על חיפוש במיליוני רצפים של חלבונים. החוקרים אימנו מודל שפה בשפת החלבונים ולאחר מכן אימנו אותו למשימה נוספת: לנבא מבנים של חלבונים על סמך הכללים שלמד, בעזרת המידע המבני שנמצא במאגר המידע של החלבונים. זו דוגמה נוספת ללמידת העברה. 

במחקר נוסף, שפורסם בנובמבר 2022 בשער כתב העת Nature Biotechnology, נמצא כי הביצועים של המודל של קבוצתו של אלקוריישי קרובים מאוד לאלה של "קיפול אלפא 2", ואף עולים עליהם בפענוח המבנה המרחבי של חלבונים יתומים. בנוסף, המודל של אלקוריישי ועמיתיו מהיר פי מיליון מהמודל של "קיפול אלפא 2".


מודלים חדשים מנבאים את המבנה של מאות מיליוני חלבונים בתוך שבועות בודדים. אילוסטרציה של המבנה התלת-ממדי של חלבונים שונים | Andrzej Wojcicki, Science Photo Library

האטלס של מטא 

סמוך למועד פרסום המאמר של אלקוריישי ועמיתיו פרסמה מחלקת המחקר של מטא בראשות רייבס מאמר בפרסום מקדים, שעדיין לא עמד בבדיקה מדוקדקת של מומחים (ביקורת עמיתים), שבו הציגה גרסה חדשה של מודל שפה של חלבונים וניסתה לנבא בעזרתו את המבנה התלת-ממדי של חלבונים על סמך רצפים של חומצות אמינו. ההבדל העיקרי בין המודל החדש לקודמיו הוא שמדובר במודל שפה הרבה יותר מורכב מבחינה חישובית.

בעזרת אלפיים מחשבים מצוידים במעבדים גרפיים הצליחו רייבס ועמיתיו ליצור תוך שבועיים בלבד אטלס מטא-גנומי, המציג את המבנים של 617 מיליון חלבונים שמקורם במיקרואורגניזמים שנאספו ממקומות כמו מי ביוב, אוקיינוסים ואף מעיים ועור אדם. לפי דברי החוקרים, מתוך 617 מיליון המבנים שניבאו, למעלה מ-225 מיליון נבדקו ונמצאו מדויקים. בנוסף, לדבריהם, מיליונים מהמבנים הללו אינם נמצאים במאגרי המידע הקיימים, כך שהם מספקים מבט ראשון על מגוון רב של חלבונים לא מוכרים.

היתרון הברור של המודל של מטא הוא המהירות העצומה שלו, אך האם הוא גם מדויק? חוקרים מובילים בתחום, ובהם רוסט, שכאמור חיבר את אחד ממודלי השפה הנפוצים של חלבונים, לא משוכנעים שהמודל של מטא עולה במידת הדיוק שלו על "קיפול אלפא 2". לדבריו, מודלים המבוססים על עיבוד שפה מתאימים בעיקר לניבוי ההשפעה של מוטציות על המבנה והתפקוד של חלבונים – משימה שאינה אפשרית בכלים אחרים. רייבס ועמיתיו מודעים לביקורת וטוענים כי היתרון של המודל שלהם הוא שאפשר ליישם אותו על מאגרי מידע הרבה יותר גדולים הודות למהירות שלו, אם כי הוא אכן קצת פחות מדויק.

קנאת סופרים תרבה חכמה

הפרסום האחרון של מטא הוא שלב נוסף במאבק בין שתי ענקיות טכנולוגיה על השימוש בבינה מלאכותית לפענוח המבנה והתפקוד של חלבונים. דיפ מיינד היו הראשונים שפיתחו מודל שניבא היטב מבנה של חלבונים על סמך רצף חומצות האמינו בלבד. המודל של מטא מהיר יותר, ומסד הנתונים שיצרה מטא גדול פי שלושה ממסד הנתונים של "קיפול אלפא 2". התחרות ביניהן מובילה לפריצות דרך משמעותיות, ומאות מיליוני המבנים ששתי ענקיות הטכנולוגיה חוזות בעזרת המודלים שלהן נגישים לקהל הרחב בחינם דרך מאגרי מידע ייעודיים. 

תוצאה נוספת של התחרות היא פריצות דרך טכנולוגיות ליישום כלים חדשניים של בינה מלאכותית – במקרה הזה מודלים של עיבוד שפה טבעית – על אתגרים משמעותיים בביולוגיה המולקולרית. מודלים משופרים יקדמו את יכולתנו לחזות, על סמך רצף של חומצות אמינו, את המבנה המרחבי של חלבונים ואת ההשפעה של מוטציות על תפקודם. כך נוכל לתכנן חלבונים עם תכונות משופרות לשלל יישומים, בהם פיתוח תרופות וחיסונים, ייצור חומרים חדשים וניצול מקורות אנרגיה.

 

ד״ר לביא ביגמן, חוקר ביולוגיה חישובית ומבנית בחברת אמנדו ביות'רפויתיקס, וכותב באתר מכון דוידסון.

תגובה אחת

  • אביתר

    כתבה מצויינת!

    אנחנו חיים בתקופה מעניינת כל כך. ניסיונות העבר לפצח את מבנה החלבונים השלישוני התקדמו במשך עשרות שנים בקצב עקב בצד אגודל והנה דווקא שימוש באלגוריתם מתחום ניתוח שפה ובלשנות הוליד תוצאות מהירות ומדוייקות בהרבה. כל כך הרבה פוטנציאל גלום בשינויים הטכנלוגיים שאנו חווים בשנים האחרונות ואין שום דרך לנבא מהיכן תגיע הבשורה הגדולה הבאה. מילה טובה לגוגל ומטא שמנגישים את מאגרי המידע שלהם למחקר (לפחות) ומבינים שטובת הכלל מצויה בכך.