מערכות מידע מדעי הנתונים ובינה עסקית

לחץ כאן לכל השאלות

הבעיה שהמדד Information Gain Ratio מנסה לפתור היא

1
done
sentiment_very_satisfied
הבעיה של IG היא שכשיש משתנה עם הרבה ערכים אז הרווח האינפורמטיבי שלו גדול יותר כלומר הוא מעדיף משתנה עם יותר ערכים. אם נפצל לפי משתנה שיש לו הרבה ערכים אז עבור כל ערך יהיה מספר קטן של תצפיות (קבוצה קטנה) וכשיש קבוצה קטנה אז ההסתברות לקבל סיווג זהה לקבוצת התצפיות בקבוצה עולה. כך גם להפך אם יש יותר תצפיות בקבוצה אז ההסתברות שלכולם יהיה סיווג זהה יורדת.
by
מיין לפי

* השאלה נוספה בתאריך: 12-07-2019