[glow=yellow,2,300][size=14pt]טיפים … איך בוצעה הסגמנטציה שב
דוגמא
?[/size][/glow]
[img]http://www.dwh.co.il/portal/homepages/home/edit/Segmentation of data R.gif[/img]
תרשים_1 האירועים מתחלקים לשלושה איזורים
[size=9pt](אפשר לראות את החישובים בקובץ ZIP המצורף למטה)[/size]
בסגמנציה מחפשים מה עושה את ההבדל בין הערכים הגבוהים והנמוכים של המטרה. בדוגמא שלנו מחפשים, מה הגורמים שמאפינים אירועים עם הרבה לקוחות בניגוד לאלה עם מעט לקוחות?
השדות של הסגמנטים מגלים, שקימים שני מאפינים שמבדילים בין 'הרבה לקוחות' ל'מעט לקוחות':
אירועים עם הרבה לקוחות קורים באופן טיפוסי אחרי למעלה מ-3 שבועות מתחילת המבצע ולפחות שני קידומי מכירות, בניגוד לאירועים עם מעט לקוחות אשר קורים ב-10 הימים הראשונים אחרי קידום מכירות אחד או שניים לכל היותר.
האירועים עם מס' בינוני של לקוחות נימצאים בין שני הקצוות האלה, הם אחידים וללא גורם משפיע.
הסגמנטים הגבוה והנמוך מושפעים מאותו גורם - מס' הימים שעברו מקידום המכירות האחרון. הגורם הזה, כפי שרואים בתרשים הבא, מתנהג בצורה לא לינארית, כפונקציה ממעלה שנייה.
[img]http://www.dwh.co.il/portal/homepages/home/edit/Customers as a function of days from last promotions R.gif[/img]
תרשים_2 נתוני כל הסגמנטים יחד, מגלים פונקציה ממעלה שנייה
מה היעילות של הסגמנטציה לצורך חיזוי סט המבחן?להלן תרשים שמראה את התאמת החיזוי לנתונים בפועל, ואחרי כן את מידת הצלחתם בחיזוי על סט המבחן (באדום)
[img]http://www.dwh.co.il/portal/homepages/home/edit/Segmentation results R.gif[/img]
תרשים_3 החיזוי מוטה כלפי מטה
לסיכום:
ניתוח בעזרת סגמנטציה מסביר בצורה די יפה במקרה זה, את התנהגות הנתונים.
אך שימו לב, לא תמיד זה מצליח. כאשר החיזוי מורכב ממספר גורמים משפיעים, סגמנטציה עלולה לתת תוצאות 'אדישות' ואפילו מוטות. לכן, כדאי לבדוק בשבע עיניים, האם לתוצאות יש גם הסבר מתקבל על הדעת.
בהמשך אראה כיצד פתרון GT מתגבר על קלקולי הסגמנטציה. רמז: GT מתיחס למרחב הרב-מימדי של המישתנים, ולא רק לשדה המטרה שאיננו בהכרח דומיננטי בנתונים.