ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: טעויות בבחינת תוצאות

טעויות בבחינת תוצאות 13 years 1 week ago #1987

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
בכל יישום מגיע רגע האמת, בסוף ניתוח הנתונים, של בחינת מסקנות...
מנסיון, בשלב המכריע הזה, כאשר מנתחי הנתונים מרגישים שגמרו את העבודה העיקרית, והם מותשים ורוצים כבר למסור את התוצאות, נעשות לא מעט טעויות, ולכן חשבתי להעלות פה את הנושא. וסליחה מכל מי שזה נראה לו טריוויאלי.

שגיאות בבחינת תוצאות שקורות לעיתים קרובות:
  • רשומות המבחן מעורבבות עם רשומות הלימוד
  • שדות שנכללים בקובץ הלימוד נעדרים מקובץ המבחן
  • שדות חדשים שלא נכללו בלימוד צצים בקובץ המבחן
  • הגדרות לא עקביות, ערכי קודים שמשנים את תכנם, הגדרות חסרות
  • נתוני המבחן מיצגים מקרים "פשוטים"
      או להיפך - המבחן דוגם קטע קשה יותר לפענוח, ששיך לקצוות.

בלי מבחן מלא של התוצאות, יש סכנה למסקנות מוטעות. כדי להימנע מכך, צריך לשים לב לבחינת השערות ולמימד הפסיכולוגי שבה. הבעיה היא, שהמבחן דורש שנהיה במצב נפשי הפוך ממה שהיה לנו בזמן הניתוח. עד לרגע המבחן, אנחנו בראש יצירתי של המצאת הסברים. פתאם, בבת אחת, עוברים לפאזה אחרת של עבודה ביקורתית במתכונת קבועה וקשוחה. והכי גרוע, אנחנו נדרשים להיות מוכנים לשלול את פרי עבודתנו במשך תקופה ארוכה לפעמים. כאן המוקש. קשה להפרד מהתיאוריות היפות, במיוחד אחרי ששכנענו את כולם ואת עצמינו שהן נכונות.

מצד שני, אין ברירה, ויש תועלת רבה גם במבחן שנכשל, אם מגיעים בעזרתו לשורש ההסבר. שלילת תיאוריה "בטוחה" מעלה אותנו לדרגה גבוהה יותר בהבנת מנגנון הנתונים, והמבחן יכול להיות במובן זה מאיר עיניים ושווה לא פחות מתיאוריות שקולעות למטרה בלי בעיות.
בהמשך אנסה להביא דוגמא למקרה של כשלון במבחן שתרם להצלחת הפרויקט.

יום טוב,
אדית


בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: טעויות בבחינת תוצאות 12 years 11 months ago #2190

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
הבטחתי להביא דוגמא מניתוח נתונים, שממחיש את הכדאיות בתיקון השערות שגויות.

הנה הסיפור.

בניתוח נתונים זיהיתי מישתנה חדש שמסביר בצורה יפה את התופעה שהלקוח מעונין בה.
המישתנה החדש נתן חיזוי טוב, עם פיזור קטן, וכולם היו מרוצים ובטוחים שגילינו תופעה חדשה. אפילו מצאו לה הסברים. הכל הלך כשורה. הפרויקט היה יכול להגמר בשלב זה.

בכל אופן הטריד אותי משהו בתופעה הסדירה מאד שזוהתה.
ביצעתי ניסוי נוסף, בו השמשתי בסט נתונים מתקופה אחרת. התוצאה היתה בעלת סטייה עקבית ממה שצריך להיות. כאשר גודל הסטייה הוא בדיוק כמו הפרש הזמן של הסט הזה מהסט המקורי...
לפני כן, התגלו תקלות איכות בקלט (תמיד יש בעיות בנתוני תפעול), ולכן היינו בטוחים שהסטייה נובעת מאיזו הגדרה קלוקלת של דוח המחשב שיצר את הקלט.
התעקשתי לברר גם את זה. זה לא היה זה.

בסוף התגלה, שהתופעה שזוהתה כביכול נובעת מהגדרת "חלון" של זמן בנתונים, אשר חוסם את כל הרשומות בעלות הערכים השונים מלבד אלה המתאימים למישתנה הזה!
הלכתי להגדרת שדות הקובץ, וראיתי שלא צוין "חלון" זמן בנתונים. בצדק סברנו, לפיכך, שהקלט לקוח משנה שלמה של פעילות (ולא מטווח של חודשיים).
אחרי תיקון הקלט ע"י הרחבתו, מה שבטוח, לשנתיים של פעילות, התנדף המישתנה החדש והיה כלא היה. במקומו, נחשפו שלוש תופעות, בעלות דפוס התנהגות מוגדר ומוסבר היטב.

זו דוגמא לכך שמישתלם להודות בטעות, ולסלק מהדרך תאוריות חשודות, לא משנה כמה התאהבנו ברעיון. בשורה התחתונה, ההסבר הפיקטיבי לא מחזיק מעמד, וככל שמקדימים לסלק אותו מהדרך כך גדל הסיכוי להגיע לחשיפת עובדות שיש להן ערך.



דוגמאות נוספות, אם יש, יתקבלו בברכה.

אדית

users.actcom.co.il/~edit#GT





בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.213 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning