במחקר חדש נמצא שכלי בינה מלאכותית לסיוע בפיתוח תוכנה לא העלה את התפוקה או את המהירות של העובדים – אלא דווקא את כמות השגיאות
מאז השקתו בנובמבר 2022 של ChatGPT, או ג'יפיטפוט כפי שכינה אותו עיתונאי הטכנולוגיה רן בר-זיק, נדמה שכלֵי בינה מלאכותית יוצרת (Generative AI) נמצאים בכל מקום ומשמשים אותנו כל העת. אבל כלים דומים פותחו עוד קודם לכן, בתחומים מצומצמים יותר. דוגמה לכך היא מוצרים שמיועדים ספציפית לסיוע בפיתוח תוכנה, ואומצו בשמחה בידי אנשי המקצוע. מכאן עולה שאלה מתבקשת: האם המוצרים האלה באמת מייעלים את פיתוח התוכנה, או מסייעים למפתחים לעבוד מהר יותר? רבים חשים שכן, ביניהם כותב שורות אלה, אך כדי לטעון טענות תקפות אין די בתחושות בטן – דרושים נתונים. לפי מחקר של חברת Uplevel, שמספקת ללקוחותיה תובנות על תהליך הפיתוח שלהם, דווקא ההפך הוא הנכון.
המחקר בחן ארבעה מדדי תפוקה של 775 מפתחי תוכנה בעלי פרופיל דומה, 351 בקבוצת הניסוי ו-434 בקבוצת הביקורת. נמצא שהשימוש בעזרי קוד לא העלה את תפוקת המפתחים או את היעילות שלהם, אלא דווקא את מספר שגיאות התוכנה, המכונות "באגים" בז'רגון המקצועי.
האם מוצרי בינה מלאכותית באמת מייעלים את פיתוח התוכנה, או מסייעים למפתחים לעבוד מהר יותר? אילוסטרציה לעבודת תכנות עם AI | תמונה: Shutterstock, Deemerwha studio
איך מודדים?
כדי להבין את מדדי התפוקה שנמדדו במחקר, הבה נעצור להסבר קצר על אופי העבודה בתחום פיתוח התוכנה. בניהול בסיס קוד של חברה, אחת המטרות היא לאפשר לאנשים שונים לעבוד על הוספת יכולות חדשות במקביל, כשהם תמיד יכולים לחזור אחורה ולתקן אם מתגלה בעיה בעדכון מסוים. לשם כך משתמשים בתוכנה לניהול גרסאות. בעבודה עם תוכנה כזו, למי שרוצה לעדכן את הקוד אין גישה ישירה לבסיס הקוד של החברה, אלא לעותק שלו. מעדכנים את העותק, וכאשר העבודה משביעת רצון, יוצרים בקשת עדכון של בסיס הקוד הראשי בהתאם לשינויים. בקשה כזאת נקראת PR, ראשי תיבות של Pull Request, והיא תיבדק – ותאושר, בתקווה – בידי חברת או חבר צוות אחרים.
במחקר נבדק מספר ה-PR בפרק זמן נתון, ופרק הזמן הממוצע מרגע פתיחת PR ועד סגירתו. החוקרים הניחו שהעבודה עם כלי הסיוע תיצור קוד איכותי יותר, וכך יתקצר הזמן הממוצע לטיפול ב-PR עד שהוא מאושר, וגם תאיץ את כתיבת הקוד – וכך יגדל מספר ה-PR באותו פרק זמן. נבדקו גם מספר השגיאות בקוד, ומספר שעות העבודה הנוספות שבחרו העובדים להשקיע מעבר לשעות הפעילות הרשמיות של מקום העבודה.
הנתונים הרלוונטיים של משתתפי המחקר נבחנו לאורך שלושה חודשים, מ-9 בינואר עד 9 באפריל 2023. לאחר מכן החלו משתתפי קבוצת הניסוי להיעזר בסייען הקוד. המספרים נבחנו שוב במשך אותם שלושה חודשים בשנה העוקבת – מ-8 בינואר עד 7 באפריל 2024. נבחרו תאריכים חופפים בשתי שנים שונות כדי לנטרל שינויים עונתיים. בניגוד לציפיות, התברר שהיו רק הבדלים זניחים במדדי היעילות בין קבוצת הניסוי, זו שב-2024 עבדה עם סייען הקוד, לבין קבוצת הביקורת שמעולם לא עבדה איתו. מצד שני, מספר שגיאות הקוד של משתתפי קבוצת הניסוי היה גדול ב-41 אחוזים ממספרן אצל חברי קבוצת הביקורת.
כאמור, המחקר בחן גם את השינוי במספר שעות העבודה של המשתתפים מחוץ לשעות הפעילות הרגילות, בהתבסס על כמה הנחות יסוד: ראשית, ששעות עבודה נוספות, מעבר לשעות הפעילות השגרתיות, מגדילות את הסיכון לשחיקה; שנית, שעבודה נוספת בהיקף גבוה מעידה על שחיקה רבה; והכי חשוב, בהקשר הנוכחי – ששימוש בסייען הקוד יפיק עבודה יעילה יותר, ולכן שחיקה פחותה. מתברר שמספר השעות היה קטן יותר ב-2024 לעומת 2023 בקרב משתתפי שתי הקבוצות, אך דווקא אצל משתתפי קבוצת הביקורת נרשמה ירידה גדולה יותר.
מספר שגיאות הקוד של משתתפי קבוצת הניסוי היה גדול ב-41 אחוזים ממספרן אצל חברי קבוצת הביקורת. מפתחת תוכנה | Shutterstock, Gorodenkoff
רק מחקר אחד
מחברת GitHub Copilot, היצרנית של כלי הסיוע ששימש במחקר, לא נמסרה תגובה ישירה. הם כן הפנו למחקר שערכו בעצמם, ומראה שביעות רצון רבה של משתמשי הסייען שלהם, ועלייה של עד 55 אחוזים ביעילות לאור השימוש בסייען.
למרות תוצאותיו, חשוב לציין שהמחקר לא שולל את השימוש בסייעני קוד, בעיקר בגלל השיפור המתמיד בהם. בנוסף, זהו מחקר בודד, וייתכן שהחוקרים לא לקחו בחשבון גורמים שעלולים לפגוע בתקפות המסקנות. למשל, סייען קוד הוא כלי ששימוש מושכל בו דורש למידה לאורך זמן, וייתכן שמשתתפי קבוצת הניסוי טרם פיתחו את היכולת הזו במלואה או התאימו את הרגלי העבודה שלהם למצב החדש. אולי לאחר שימוש ממושך יותר כן ייראה שיפור בתפוקתם. גם מודעות לעצם הבדיקה יכולה להטות את התוצאות, כפי שנמצא למשל בניסויי הות'ורן (אם כי גם הם, בדיעבד, מוטלים בספק). זו הסיבה שמחקר בודד בדרך כלל לא מספיק כדי לבסס מסקנה נחרצת; דרושים מחקרים נוספים, בלתי-תלויים, שיתמכו בה. בינתיים אנחנו שומעים דווקא על תוצאות שונות, כמו אלו שמגיעות מחברת Innovative Solutions, שמספקת שירותי ענן – שם מדווחים על עלייה של פי שניים עד פי שלושה בתפוקה מאז החלו מפתחי החברה להשתמש בסייעני כתיבת קוד. עם זאת, צריך לזכור שמדובר בדיווח של החברה ולא במחקר חיצוני.
באופן אישי, כותב שורות אלה כותב קוד למחייתו, משתמש בסייען קוד וחש שיפור בתפוקה שלו. מספר חברים לעבודה, שמשתמשים גם הם בעזרי כתיבת קוד, העלו תחושות דומות. אבל לתחושות אישיות ולדיווחים של חברים אין תוקף מחקרי משום סוג שהוא. על מנת לקבוע אם סייעני הקוד אכן תורמים לעבודה, נצטרך לחכות למחקרים נוספים.