ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: איך זה שהניתוח מצליח אבל החיזוי מת?

איך זה שהניתוח מצליח אבל החיזוי מת? 5 years 1 week ago #8331

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
השיטה הטכנית הנפוצה ללימוד סט נתונים באמצעות ניתוח שיירי הוריאנס שלו וחיפוש חוזר של משתנים מסבירים, מובילה בהכרח לרשימת גורמים ממצה שיכולה להסביר כאילו כל דבר, אך עד כמה ההסברים הטכניים הללו הינם ממשיים ובעלי אחיזה במציאות? על שאלה זו אמור היה לענות מבחן סטטיסטי של חיזוי תוצאות שנערך על סט נתונים נפרד ואוביקטיבי. לפי הגיון המבחן הסטטיסטי, אם הגורמים מצליחים לחזות את התוצאות ברמה טובה, סימן שהם נכונים. הבעיה, שבעזרת המחשב ניתן היום לעשות כך שהגורמים המסבירים יתאימו לשני הסטים - זה של הלימוד וגם לסט המבחן, כך שיחזו היטב את תוצאותיו. במילים אחרות - אפשר בעזרת כח מחשוב "לבלף" ולעבור את המבחן עם תוצאות שגויות.
לטענתי הנ"ל מצאתי עד השבוע רק שותף אחד, פרופ' יוסף אגסי לפילוסופיה של המדע שדבריו לרע המזל לא נשמעו בחוגי מנתחי הנתונים המתיצבים מנגד רושפי אש בטענה שהמבחן הסטטיסטי-מתמטי הוא מחוץ לכל ויכוח. "נכון", הזדרזתי להודות בעליונות הלוגית של המתמטיקה, אבל לא ביישום שלה שזה דבר נפרד. מודל מתמטי יכול ועוד איך להיות שגוי כאשר הגדרותיו אינן מתקימות. בכל אופן, הסתיגויותי עלו בתוהו מול הררי היישומים הקימים, כאמור עד השבוע. מה קרה השבוע? - נתקלתי סוף סוף במקרה מהחיים שבו נאלצו עורכי תחרות באתר InnoCentive לתקן תוך התנצלויות את המבחן הסטטיסטי שימש באחת התחרויות ולהגדירו מחדש, כאשר כל המהומה נובעת מכך שפתרונות בעלי ציונים גבוהים התבררו כנחותים, וכך מבלי שהמילה overfitting תיאמר בפירוש, נשלחו הפותרים אחר כבוד לעשות את כל העבודה מחדש. לא שעורכי התחרות הסיקו מכאן לקח יסודי, לא צריך להיגרף, הם רק הוסיפו תנאי למבחן התוצאות, שדפוסי ההתנהגות בנתונים, התת-קבוצות, חיבים גם להיות בעלי תכונות מאפינות ברורות, ולא סתם אוספי רשומות בעלי תוצאות דומות. בכך קבעו InnoCentive לראשונה למיטב ידיעתי, תנאי מחיב לפיו מנתחי הנתונים צריכים להצביע על תכונות מסוימות ידועות מראש שמשפיעות על פרשנות התוצאות. זהו ללא ספק צעד הכרחי חשוב בהגדרת כל מודל מעשי שעוסק בנתוני שטח, ועל כך יש לשמוח.
עכשיו לא נותר אלא לראות אם יהיה המשך לעבר הדרישה העוד יותר מעשית, אשר הסטטיסטיקה לא מכירה בקיומה, הלא היא הדרישה להגדיר קשרי סיבה-תוצאה ולא רק זיקה בין משתנים.

למתענינים מדובר בתחרות "Predictive Subgroup Identification"
www.innocentive.com/ar/challenge/9933623

חג שמח ושבת שלום

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.204 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning