הישג מרשים לדוקטורנט מהטכניון

עידן שוורץ דוקטורנט בפקולטה למדעי המחשב זכה במקום הראשון בתחרות בין-לאומית על פיתוח מערכת לומדת המנהלת שיחה "אנושית". מסקנת המחקר: באמצעות חיקוי תשובות אנושיות, מכונה מסוגלת להסיק קשב הדומה ליכולת ההתמקדות האנושית.

עידן שורץ, דוקטורנט בפקולטה למדעי המחשב, זכה במקום הראשון בתחרות Visual Dialog Challenge שהתקיימה במסגרת  CVPR 2020- כנס בין-לאומי בראייה ממוחשבת, שנערך בתאריכים 18-16 ביוני.

הדוקדורנט עידן שוורץ

הדוקדורנט עידן שוורץ

לתחרות הוגשו 330 מודלים שפיתחו צוותים מאוניברסיטאות מובילות בארה”ב ובאסיה וכן קבוצות מחקר מחברת ענק ובהן פייסבוק ומיקרוסופט.

שורץ, הלומד לתואר דוקטור בהנחיית פרופ’ תמיר חזן מהפקולטה להנדסת תעשייה וניהול ופרופ’ אלכסנדר שווינג, מאוניברסיטת אילינוי עוסק בפיתוח מודלים קוגניטיביים המחקים חשיבה אנושית וזאת באמצעות למידה עמוקה. בתחרות האמורה הוא הציג מערכת ממוחשבת המנהלת שיחה עם בני אדם על מצבים יום-יומיים.

המערכת שזיכתה את שורץ בתחרות היא מערכת קשב (attention) ייחודית, החיונית במיוחד במשימות מורכבות שבהן הקלט מורכב מפרטים רבים ורק חלקם רלוונטיים לקבלת ההחלטה. היא יודעת “לעכל” את האובייקטים הרבים שבתמונות – כאן בדוגמה אלה ממתקים, עוגה, כוסות, ילדים – וגם ללמוד דברים תוך כדי דיאלוג ולייחס רמות חשיבות שונות לאובייקטים שונים. חשיבות זו מדורגת על פי “ציון הקשב” של כל אובייקט – לדוגמה, המילה “עוגה” (cake) תקבל כאן ציון קשב גבוה משום שהיא מופיעה גם בדיאלוג וגם בתמונה. בתרשים הבא אפשר לראות את המילים ואת ציוני הקשב שלהן המיוצגים בצבעים חמים יותר (מפות חום).

 

 

כאשר השאלה היא “האם הילדים לובשים כובעים?” הקשב מתמקד בראשי הילדים בתמונה ובמילה “כובעים” (hats) בשאלה. כשהשאלה היא “האם יש נרות על העוגה?” הקשב מתמקד בעוגה שבתמונה ובמילה “נרות” (candles). התמקדות זאת מזכירה את תשומת הלב האנושית לפרטים מסוימים ואת היכולת לסנן את הפרטים שאינם רלוונטיים. חשוב לציין שהמודל אינו מקבל כקלט מפות קשב אנושיות בהליך הלמידה, אלא מסיק את מפות הקשב באופן אוטומטי באמצעות למידה מתשובות אנושיות קודמות. זוהי אחת המסקנות המעניינות של המחקר: באמצעות חיקוי תשובות אנושיות, מכונה מסוגלת להסיק קשב הדומה ליכולת ההתמקדות האנושית.

שורץ ממשיך בפיתוח המערכת, תוך ניסיון לשלב בה ערוצי קלט חדשים ובהם וידאו, אודיו ותמונות מרובות ולהתאימה ליישומים מגוונים ברפואה, בנהיגה אוטונומית ועוד.