פיתחת בהצלחה אלגוריתם NER לאנגלית. האלגוריתם אומן על משפטים כמו:
Nikola Tesla, the famous inventor, emigrated to the United States at the age of 32
ובבדיקה זיהה בהצלחה את כל הישויות במשפט
Tesla died at 86 in NYC, USA
לעומת זאת, כשאותו אלגוריתם בדיוק אומן על קורפוס עברי, המכיל בדיוק את אותם משפטים כמו קורפוס האימון האנגלי (למשל, "ניקולה
טסלה, הממציא המפורסם, היגר לארצות הברית בגיל 32"), האלגוריתם כשל בזיהוי מלא של הישויות במשפט: "טסלה נפטר בארצות הברית בגיל 86."
מה יכולים להיות הגורמים לכישלון בשימוש באלגוריתם על קורפוס עברי?