הנדסת מערכות תוכנה ומידע מבוא לעיבוד שפה טבעית 2

לחץ כאן לכל השאלות

נתונים שני מודלים מאומנים: 1. M1: מודל w2v מסוג skip-gram 2. M2: מודל BERT בשני המודלים שיכוני המילים (enbeddings) הם באותו מימד. בהנתן משפט s ומילה w במשפט, המודל מחזיר את x - וקטור השיכון של המילה במשפט. כלומר M;(s, w) = x הפונקציה SIM מקבלת שני ווקטורים ומחזירה את הדימיון הקוסינוסי ביניהם. נתונים הפסוקים הבאים: 1. וישלח ידו ויחזק בו ויהי למטה בכפו (שמות,ד, ד) 2. אם ימדו שמים מלמעלה ויחקרו מוסדי ארץ למטה (ירמיהו, לא, לו) נייצג את המחרוזת 'למטה" על ידי האות μ סמנו את החיווי הסביר ביותר!

1
done
הסבר: מודל word2vec (skip-gram) יוצר embeddings שמבוססים על הקשר סביב המילה במרחב מילים מצומצם. מודל זה יעיל בלכידת יחסים סמנטיים ישירים בין מילים קרובות בטקסט. לעומת זאת, BERT מבוסס על הבנה רחבה יותר של ההקשר, המבוססת על מבנים תחביריים ויחסים בין מילים רחוקות יותר במשפט. בגלל האופי של word2vec המתמקד בקשרים סמנטיים קרובים, הדמיון בין מילים בודדות במודלים אלו (ביחוד כאשר מדובר במילים קרובות סמנטית) יהיה גבוה יותר לעומת BERT.
by
מיין לפי

* השאלה נוספה בתאריך: 20-07-2025