תוכנה המזהה סרקזם? ממש...

סרקזם הוא הדרך שבה אנחנו אומרים דבר אחד אבל מתכוונים לאחר. מחשבים מתקשים להבין את צורת הביטוי הזו, אבל חוקרים אומרים שהצליחו לפתח מנגנון חדשני שמזהה סרקזם בפרסומים ברשתות חברתיות

סרקזם הוא צורת ביטוי אנושית מיוחדת, שבה הרגש שמביעים במילים שונה מהרגש שאליו מתכוונים. לדוגמה, כשמישהו כותב בפייסבוק "יום קריר ונעים" הוא יכול להתכוון לכך שזה באמת יום מוצלח לפיקניק, אבל האמירה הזו יכולה להיות סרקסטית אם הקוראים יודעים שזה היום הכי חם בשנה.

משתמשים רבים מתבטאים בסרקזם ברשתות חברתיות, וזיהוי אוטומטי של פוסטים וציוצים מהסוג הזה יכול לסייע במגוון דרכים – למשל, לפוליטיקאים שיכולים לבדוק את רמת האהדה כלפיהם, או לחברות מסחריות שמבקשות לדעת אם אנשים משבחים את מוצריהן או מעבירים עליהם ביקורת.

כעת זיהוי הסרקזם יכול להיות פשוט ומהיר יותר: חוקרים מאיטליה שעבדו בשיתוף פעולה עם חברת האינטרנט האמריקאית יאהו! פיתחו תכנת מחשב ייעודית שבוחנת פרסומים (פוסטים) ברשתות החברתיות טמבלר, טוויטר ואינסטגרם ומזהה אם תוכנם סרקסטי או רציני.

בני אדם מבינים סרקזם מפני שהם מתבססים על ידע משותף שיש להם ולכותב, והם יכולים להתייחס להֶקְשֵׁר (קונטקסט) שבו הדברים נאמרים או נכתבים. המשימה הזו מורכבת למדי עבור מחשבים, שאינם מבינים תוכן אלא מזהים את הסימנים שמרכיבים את המילים והמשפטים. התכנה החדשה יכולה לפתור את הבעיה הזו ולהציע כלי חדשני לניתוח טקסט באמצעות מכונה.

חוכמת ההמונים לזיהוי סרקזם

מחשבים יכולים ללמוד על הקשר בטקסטים בכל מיני דרכים, ושיטות קודמות השתמשו במידע על הכותב, בפרסומים ישנים המראים רגש בנושא מסוים ובתגובות על פרסומים. במחקר הנוכחי נעשה שימוש בתמונות המלוות פוסטים בתפקיד הקונטקסט הנדרש. המשפט "איזה מזג אוויר יפה" בליווי תמונה של יום גשום יאפשר אפילו למחשב לזהות את הנימה הסרקסטית.

החוקרים הסבירו שהיה עליהם ליצור אוסף של פוסטים שעליהם מסכימים הכותב והקוראים שהם סרקסטיים או רציניים. אוסף כזה קרוי truth ground ולצורך יצירתו שכרו החוקרים את שירותיה של חברת CrowdFlower המשמשת ללמידת מכונה – השיטה שבאמצעותה מלמדים את המחשב לבצע פעולה על סמך דוגמאות. אנשי החברה לוקחים אוסף של פריטים, במקרה הזה פרסומים מרשתות חברתיות, ומפיצים אותם ברשת כך שמיליוני גולשים מתייגים אותם. זה מאפשר לחוקרים לדעת שהתווית מוסכמת על פי אנשים רבים.

התכנה למדה לזהות פרסומים סרקסטיים על פי כמה פרמטרים בהם הטקסט עצמו, התמונה הצמודה אליו, אימוג'י (emojis) ותגיות (hashtags#). ההצלחה הייתה מרשימה: זיהוי של 89-80 אחוז מההודעות שהייתה בהם נימה סרקסטית. הזיהוי המדויק ביותר היה באינסטגרם.

מחשבים לומדים בלשנות

זיהוי סרקזם הוא דוגמה אחת לפעילות שמתקיימת בעיבוד שפה טבעית ( Natural Language Processing, או בקיצור NLP). זהו תחום במדעי המחשב שבו מלמדים את המחשב להבין באופן אוטומטי היבטים בלשניים ולבצע ניתוח משפטים, תרגום וניתוח של טקסטים שלמים. גם נציגי שירות אלקטרוניים המשוחחים עם הלקוחות בצ'אט הם חלק מהפיתוח בתחום זה.

המחקר החדש עשה משהו שטרם נעשה – שילוב של טקסט ותמונה כך שמחשבים יוכלו להבין את נימת הדברים של הפרסום הכתוב. מדען שלא היה שותף במחקר אמר בעקבות הפרסום "אירוניה וסרקזם מצריכים הקשר. זה שונה מניתוח ספאם או ניתוח רגשות אוטומטי, שאותם מחשבים יכולים לבצע בקלות יחסית". בעתיד, משימות טקסטואליות רבות שנעשות כיום על ידי אדם יוכלו להיעשות על ידי מחשב. אפילו כתיבת כתבות כמו זאת ממש...