ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: מה שמפחיד אותי זה מסקנות אוטומטיות

מה שמפחיד אותי זה מסקנות אוטומטיות 12 years 3 months ago #3457

  • MatatovNissim
  • MatatovNissim's Avatar
  • Offline
  • Fresh Boarder
  • הודעות: 10
  • קרמה: 0
מה שמפחיד אותי - שמסקנות מופקות אוטומטית. אתן דוגמה ממודל נטישה שחלק מהסיפור מבוסס על פרויקט אמיתי  . נניח הרצת מודל Decision Tree וקיבלת דיוק 92% . אחרי עיון בעץ ראיתי שבעצם 3 חוקים נותנים דיוק של 89% וכל שאר העץ עוד 9%. מתוך שלושה חוקים הנ"ל יש חוק 1 עם דיוק 98% שכל הלקוחות החדשים (עם ותק של לקוח חדש) עוזב. ברור שאת לקוח לא מספק הסבר שכזה . הוא רוצה לדעת למה הלקוחות החדשים עוזבים. קודם כל ברור שחוק כבר נותן איזה שהיא תועלת. אבל כרגע צריך לחפש תכונות שיש סיכוי שיסבירו לה לקוחות חדשים עוזבים.

האם ב GT יש איזה שהיא התייחסות לניתוח מבנה של מודל DM שגם נותן מידע חיוני מעבר לדיוק ?
אמנות - כי בלחשוב על סיבות אפשריות לנטישה של לקוחות חדשים ה DM יכול לתת רמזים בלבדבנושא ועל בסיס זה אפשר לבנות סבב הבא של מודל.
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: מה שמפחיד אותי זה מסקנות אוטומטיות 12 years 3 months ago #3539

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
ניסים,

בענין מסקנות אוטומטיות, מסכימה לחשש שאתה מעלה. אם המחשב טועה, זה בגדול ובלי להשאיר סימנים. לא רואים בפלט מחיקות והערות שהיינו רואים על ניר. הכל יוצא נקי ואחיד, ואין לנו שום סימן שחל שיבוש. הגולם עושה הרבה יותר מהר והרבה יותר עקבי גם טעויות. מכיר את היצירה "שוליית הקוסם"?


מצד שני, בכמויות גדולות פשוט אין ברירה מלבד מחשוב. אבל צריך להשגיח בשבע עיניים, לשים בקרות , ולאפשר למשתמש סימולציה לבדיקת תוצאות.

לשאלתך, המסקנות של GT בנויות אחרת ממה שאתה רגיל בעץ החלטות; הן מביאות את כל דפוסי ההתנהגות עם המאפינים שלהם, בנוסף לסיווג ה"רזה" המקובל ב classification. המאפינים עוזרים להסביר את מה שהתגלה בניתוח, ונותנים כיוון להמשך בדיקה.

בפרויקט שתיארת, של ניתוח נטישת לקוחות, לדוגמא, המאפינים יכולים להיות:
  • משך החשבון בארגון,
  • מספר הפעולות שבוצעו בו, 
  • סכומים וסוגי פעולות בחשבון, 
  • אזורים בארץ, 
  • גילי מחזיקי החשבון, 
  • קרובי משפחה בעלי חשבון בבנק, 
  • תאריך פתיחת חשבון, 
  • תאריך סגירה, 
  • סיבת עזיבה ועוד.
קבוצת נוטשים מסוימת יכולה להתאפין בכך שחבריה מקבלים הטבות של מבצע פרסום מסוים, כלומר הגיעו רק בשביל הצ'ופר. קבוצה אחרת מאופינת נניח בכך שנטשה בתקופה מסוימת שבה ידוע לנו שהמתחרה יצא במבצע גיוס לקוחות אגרסיבי באינטרנט (ניתן להציע דבר מקביל לתפוצת הלקוחות באינטרנט). קבוצה שלישית עשוייה להיות מאוכזבי מבצע שלא הצליח (להציע להם פיצוי אם יחזרו), קבוצה רביעית היא נניח חברי לקוח מוסדי מסויים שמחלק נניח שי לחגים באמצעות הרשת (להציע להם מוצרים אסוציאטיביים למתנות שקיבלו), וכן הלאה.
המאפינים הצפציפיים של כל קבוצת "נטישת לקוחות חדשים", מקשרים אותנו לסיבות ולדרכים למנוע נטישה ולגיס לקוחות חדשים.


ועוד משהו על GT: במהלך אבחון ואפיון הקבוצות, הוא בודק ומבסס את יציבות הממצאים, וגם מוודא שיש ממצאים חדשים שאינם טריויאליים.

יציבות זה כמו תקפות. היציבות מאריכה את תקופת השימוש בידע, ובהתאם מגדילה את התועלת מכריית הנתונים.

טריויאלי זה היקש מובן מאליו. רבים מתיחסים למסקנות טריוויאליות כלדבר מיותר, אבל זה לא בדיוק ככה. כדאי לנצל את המידע הזה ליישור קו עם המשתמש, להראות לו שמה שהוא יודע עולה גם מכריית הנתונים, ולסמן את קו ההתחלה, את הבסיס שמעליו מתחילים ליצר חוקים חדשים.

דוגמא לסיבה טריוויאלית: נטישה שנגרמת ע"י סגירת חשבון לקוח ביזמת הארגון. זוהי פעולה מנומקת שידועה למשתמש ואין כביכול מה לבדוק פה. אבל כאמור, חשוב כאמור שהלקוח ידע ש'עלינו' על הפעולה וסיבותיה, והרבה יותר חשוב להרחיב הידע הזה, להשיג על הבסיס המוסכם והידוע, ידע חדש. לאתר סוגי חשבונות בעלי מאפינים דומים שחמקו מפעולת הסגירה.  למצוא אם יש אירוע טיפוסי, שממנו מתחילה הדרדרות שבסופה נאלצים לסגור חשבון לקוח. לאפין את האירוע והתהליך שבעקבותיו, ולהביא רעיונות להתערבות בתהליך ולשינוי שלו.


מבין המבחנים לביסוס מסקנות, חשוב מאד מבחן ההגיון של המשתמש, כי הוא עוזר לפרשנות וליישום התוצאות.   הפרשנות חיונית לשם איזון המודל הממוחשב, ולהוספת פרטים שלא הוגדרו במערכת מסיבות שונות, והנשק הפשוט שבידי המשתמש נגד מסקנות אוטומטיות גרועות.

בנוסף, פרשנות היא השורה התחתונה של ה-BI, השלב האחרון בניתוח, שבו מחליטים מה רלוונטי ליישום. זו החולייה האחרונה והקריטית בין כריית נתונים לקבלת ROI בפועל.
אולי אפרט את הנקודה בהמשך.



מקווה שזה עונה למה שהתכוונת.

אדית

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.199 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning