מדענים הצליחו לפתח מערכת ראייה ממוחשבת שמסוגלת להתמצא בסביבה על סמך תמונות מעטות בלבד שצילמה בעצמה
ראייה ממוחשבת היא ענף במדעי המחשב העוסק ביכולת של מערכות ממוחשבות לעבד מידע מתמונות, לנתח אותו ולהסיק ממנו מסקנות בצורה אוטומטית. מערכות רבות של ראייה ממוחשבת משלבות בתוכן למידת מכונה – מערכת של כלים שמאפשרים לאמן את המחשב לקבל החלטות על סמך מספר עצום של דוגמאות. כשמדובר בראייה ממוחשבת, מערכת המבוססת על למידת מכונה לזיהוי פנים, למשל, יכולה להשתמש בסיווג ידני של עשרות אלפי תמונות לאלה שמכילות פנים ואלה שלא מציגות פנים. בהמשך, כשהמערכת תצטרך להתמודד עם תמונה חדשה, היא תדע להעריך בסבירות גבוהה אם מופיעים בה פנים.
מדענים מאוניברסיטת טקסס פרסמו לאחרונה מאמר בכתב העת "Science Robotics" שבו תיארו איך הצליחו ללמד בינה מלאכותית להתמצא היטב בסביבתה באמצעות "הצצות חטופות" בלבד. מדובר בפריצת דרך משמעותית, שכן בשונה ממחשבים, עבור בני אדם הסקת המבנה התלת-ממדי של אובייקט על סמך מבטים ספורים היא משימה פשוטה. בני אדם צריכים גם מעט מאוד מבטים כדי להסיק באיזו סביבה הם נמצאים – במטבח, בסופרמרקט או בקולנוע. אנחנו עושים את זה בזכות יכולתנו להסיק מסקנות על סמך דברים שראינו בעבר.
בשונה מאיתנו, היכולת הזאת אינה מובנת מאליה עבור מערכות בינה מלאכותית. הדרך המתבקשת עבור מערכת ממוחשבת שצריכה להתמצא בסביבתה היא לצלם כל אובייקט וכל סביבה מכל זווית אפשרית. עם זאת, בעולם האמיתי זה ידרוש זמן ומשאבים בלתי סבירים עבור מערכת ממוחשבת שצריכה לתפקד באופן עצמאי – למשל רובוטי חילוץ והצלה או כאלה שמסייעים לאנשים בעלי מגבלה גופנית.
מכאן עולה השאלה מהו מספר התמונות הקטן ביותר שצריך לצלם ואיך כדאי לבחור בצורה אופטימלית את התמונות שנצלם כדי לאפשר הבנה מספקת של הסביבה לביצוע משימות מגוונות?
דוגמה לעבודה המערכת | צילום: David Steadman/Santhosh Ramakrishnan/University of Texas at Austin
לחקות את המוח
החוקרים השתמשו ב"למידה עמוקה" – אלגוריתם למידת מכונה שמבוסס על דרך הפעולה של רשתות תאי העצב במוח, כדי לאמן את המערכת שלהם למצוא בצורה מושכלת את מספר הצילומים הקטן ביותר שייתן את המידע הדרוש על סביבתה. בשלב האימון, המערכת מקבלת "תקציב" של מספר תמונות שמותר לה לצלם, והיא משווה לבד, כלומר ללא התערבות אנושית, את התמונות שצילמה עם סריקה תלת-ממדית אמיתית של הסביבה, כלומר עם ה"פתרון".
בניגוד למערכות לומדות רבות אחרות, התמונות שהמערכת לומדת צולמו ונבחרו על ידי המערכת עצמה ולא בידי אדם. כל תמונה שהמערכת מצלמת מגדילה את כמות המידע שיש לרובוט על הסביבה, אך גורעת מתקציב התמונות שמותר לו לצלם. לכן המערכת נדרשת לבחור בצורה מושכלת את התמונה הבאה שתשלים בצורה הטובה ביותר את פערי המידע שיש לה על הסביבה ותספק לה מידע על אזורים בסביבה שקשה לה לנחש לבד. אפשר לדמות את זה לאדם שנכנס לסופרמרקט - הוא יודע שאם הוא רואה מולו ירקות, אזי הפירות יהיו בקרבת מקום, אבל כדי למצוא את מוצרי הניקוי יהיה עליו לחפש במקום אחר.
לאחר שאימנה את עצמה על אלפי תמונות 360 מעלות של סביבות שונות, המערכתהייתה ערוכה להתמודד עם סביבות לא מוכרות. די היה בצילום של פחות מ-20 אחוז מהסביבה כדי שהיא תצליח לשחזר את סביבתה באופן שיאפשר לה לעמוד במגוון משימות, כמו קִטלוג אובייקטים, איתור מקורות אור, הערכת שטח פנים של עצמים ועוד. ברוב המקרים המערכת מילאה את המשימות טוב יותר ממערכות שאומנו לבצע משימה ספציפית בסביבה ספציפית.
למרות ההישגים המרשימים של המערכת, נכון לעכשיו היא אינה מסוגלת להתנייד במרחב, אלא רק לשנות את זווית המצלמה. מערכת ניידת נמצאת כעת בפיתוח. כשתושלם, היא תוכל להיות שימושית למשימות חילוץ והצלה בסביבות מגוונות כמו בניינים בוערים, אתרי רעידת אדמה וכו'. למעשה, היא יכולה לשמש כל רובוט שנדרש לבצע משימות בעלות אופי משתנה תחת מגבלת זמן.