חוקרים מארצות הברית פיתחו אלגוריתם המסוגל לשחזר קולות על פי סרטונים דוממים

כאשר גלי קול פוגעים בעצם כלשהו, הם גורמים לתנודות זעירות בפני השטח שלו. תנודות אלו, שהעין האנושית אינה מסוגלת להבחין בהן, הן למעשה קידוד חזותי של הצלילים. חוקרים השתמשו בסרטוני וידיאו בתדירות צילום גבוהה (כ-5,000 תמונות בשנייה) כדי לשחזר את הצלילים שיצרו תנודות כאלה בחפצים שונים, כגון עציץ, שקית צ׳יפס וכוס מים. על סמך הממצאים הסיקו החוקרים מסקנות מרחיקות לכת. לטענתם, האלגוריתם שפיתחו יכול להפוך כל עצם למעין מיקרופון חזותי כל עוד הוא מתועד במצלמת וידיאו.

גלי קול הם שינויי לחץ הנעים בתווך מסוים, כגון אוויר. כאשר גלי הקול פוגעים במשטח כלשהו, הם גורמים בו לתנודות. בשנים האחרונות כבר נמצאות בשימוש כמה שיטות לשחזור צלילים על פי תנודות אלו. אך עד כה, כל השיטות כללו התערבות אקטיבית, כגון הקרנת קרן לייזר לעבר המשטח. לדברי מנהל GlobalSecurity.org, ארצות הברית הסתייעה במיקרופוני לייזר כדי לוודא את מיקומו של אוסאמה בן לאדן בטרם לכידתו. החידוש שבמחקר זה הוא הדרך הפסיבית לשחזור הקול, המצריכה אך ורק צילום וידיאו של האובייקט שגלי הקול "פגעו" בו.

האלגוריתם שפיתחו אייב דייוויס (Davis) ושותפיו מקבל סרטון וידיאו בתדירות גבוהה ומנתח שינויים זעירים במיקומן של נקודות שונות על פני השטח של עצם כלשהו המופיע בו. הוא עושה זאת בעזרת שיטה קיימת ומורכבת למדי לפירוק תמונה למספר גדול של עותקים, כאשר לכל עותק רזולוציה ואוריינטציה שונות. השיטה מאפשרת לחשב בקירוב את התזוזה של כל פיקסל על גבי המשטח, בכל רזולוציה ואוריינטציה ובכל נקודת זמן. לאחר חישוב ממוצע של כל הפיקסלים בתמונה, וממוצע נוסף של כל הרזולוציות והאורינטציות השונות, מתקבל מספר יחיד בעבור כל נקודת זמן. מספר זה מייצג את "התזוזה הכוללת" של העצם בכל נקודת זמן.

כעת נותרו עוד שני שלבים פשוטים יחסית כדי להגיע לפונקציית הקול המבוקשת. הראשון הוא מעבר מתזוזה פיקסלית לתזוזה מרחבית, והשני הוא מעבר מתזוזה מרחבית לפונקציית הקול. הראשון תלוי במרחק המצלמה, בזווית הצילום ובזום, והשני תלוי ביכולת התנועה של המשטח (לדוגמה, פני השטח של שקית צ׳יפס ריקה נעים בתגובה על קול פי 62 יותר מפני השטח של קנקן תה). לבסוף מפחיתים את רעשי הרקע, ומתקבל התוצר הסופי -– הקלטה משוחזרת של הקולות שנשמעו במקום בזמן צילום הסרטון.

התוכנה מסוגלת לשחזר מסרטונים מגוון קולות, הן של אנשים מדברים והן קולות אלקטרוניים המיוצרים ע"י מחשב. באחד הניסויים ניסו החוקרים לשחזר שיר שנשמע מתוך אוזניות המחוברות למחשב על פי צילום וידיאו של האוזניות. השחזור אמנם לא היה מספיק טוב כדי שאדם יוכל להבין את המילים בו, אך מספיק טוב כדי שגם אנשים וגם אפליקציית "שזאם" יצליחו לזהות באיזה שיר מדובר.

המגבלה העיקרית של השיטה היא התלות שלה באיכות הזום של המצלמה. זיהוי הקול במחקר זה נעשה ממרחק של 4-3 מטרים מהעצם שהושפע ממנו. כדי לזהות קול ממרחק גדול יותר, יידרשו עדשות יקרות בעלות זום גבוה במיוחד.

גם מצלמת טלפון תספיק

לצורך המחקר השתמשו החוקרים במצלמה בעלת תדירות צילום גבוהה במיוחד (כ-5,000 פריימים בשנייה). לבסוף ניסו החוקרים למתוח את גבולות השיטה, וליישם אותה על צילומים בתדירות של מצלמת טלפון רגילה. מצלמות זולות, כגון מצלמת טלפון, הן בעלות מאפיין הנקרא "תריס מתגלגל" (shutter rolling). זוהי טכנולוגיה המאפשרת חשיפה הדרגתית של חיישן המצלמה לאור. כתוצאה מכך, כל שורה בתמונה (פריים יחיד) מצולמת בזמן שונה. מאפיין זה נחשב לרוב לחסרון, אך במקרה זה הפך ליתרון: החוקרים נעזרו בו כדי להפיק מתמונה יחידה מידע על כמה נקודות זמן, וכך להגדיל באופן מלאכותי את תדירות הצילום. בדרך זו יכלו החוקרים לשחזר קולות גם על פי סרטונים שצולמו במצלמת טלפון פשוטה, כמו רבים מהסרטונים המוצגים באתר יוטיוב. בסרטון אפשר לראות את דייוויס מסביר את השיטה שפיתח (אנגלית). 

 

0 תגובות