[glow=yellow,2,300][size=14pt]טיפים … איך בוצע החיזוי לפי-דמיון ש
דוגמא
?[/size][/glow]
[size=9pt](אפשר לראות את הנתונים בקובץ המצורף למטה)[/size]
צעדים לאיתור הדמיון בין רשומות מבחן לרשומות לימוד:
1. מסווגים את רשומות המבחן לפי השדות - תאריך, מס' קידום-מכירות, ימים מהקידום, ימים מתחילת המבצע.
2. מסווגים את רשומות הלימוד באותה צורה.
3. מחשבים את מס' הלקוחות הממוצע של כל קבוצת רשומות-לימוד, שהן בעלות מאפיני פתיחה זהים.
4. מציבים את הערך הממוצע שחושב ברשומות המבחן אשר יש להן מאפיני פתיחה זהים.
חיזוי לפי 'דמיון' מתבסס על חיפוש של רשומות בקובץ הנתונים, שיש להן מאפיני פתיחה זהים. אינטואיטיבית, ההגיון ברור: רשומות בעלות אותם נתוני פתיחה, צריכות להביא לאותן התוצאות.
נבדוק עוד מעט האם ההגיון הזה הוא שלם.
[img]http://www.dwh.co.il/portal/homepages/home/edit/Inherent data variation.gif[/img] [size=8pt]
תרשים_1 חיזוי לפי דמיון, מגלה שיש 'רעש' מובנה בנתוני הלימוד, סטיית תקן של ±6.1 לקוחות[/size]
החסרונות של חיזוי לפי-דמיון:
הוא לא מוסיף לנו ידע על הגורמים לתופעות. זהו רק חישוב טכני, של העתקת תוצאות שכבר ארעו בעבר, אל סט המבחן.
בעולם האמיתי, ה'מעורפל', לא בטוח שאותם נתוני פתיחה יביאו לאותן תוצאות (בגלל הפרעות שלא נלקחו בחשבון).
חיזוי לפי-דמיון לא יודע להתיחס לרשומות בעלות ערכים חריגים, שאין עליהם מידע בנתוני העבר.
שיטה זו טובה רק לנתונים פשוטים יחסית, בנתונים מסובכים היא עלולה להכניס 'רעש'.
לכן, רואים בתרשים שלהלן, שיש הטייה בתוצאות המבחן, והדיוק שלהן הוא 17%, בכל זאת - שיפור ב-1% ביחס לסגמנטציה.
[img]http://www.dwh.co.il/portal/homepages/home/edit/Similarity results.gif[/img] [size=8pt]
תרשים_2 החיזוי מוטה כלפי מטה[/size]
לסיכום:
ניתוח בעזרת דמיון נותן חיזוי טוב אבל לא מסביר את התנהגות הנתונים. לכן, ס"ך התועלת שלו הוא בינוני בלבד.