הצטרפו לקבוצות שלנו לקבלת עדכונים מרוכזים פעם בשבוע:

ווטסאפ:
http://wa.dwh.co.il
טלגרם:
http://telegram.dwh.co.il

איך זה שהניתוח מצליח אבל החיזוי מת?

More
10 years 1 month ago #8331 by Edith Ohri
השיטה הטכנית הנפוצה ללימוד סט נתונים באמצעות ניתוח שיירי הוריאנס שלו וחיפוש חוזר של משתנים מסבירים, מובילה בהכרח לרשימת גורמים ממצה שיכולה להסביר כאילו כל דבר, אך עד כמה ההסברים הטכניים הללו הינם ממשיים ובעלי אחיזה במציאות? על שאלה זו אמור היה לענות מבחן סטטיסטי של חיזוי תוצאות שנערך על סט נתונים נפרד ואוביקטיבי. לפי הגיון המבחן הסטטיסטי, אם הגורמים מצליחים לחזות את התוצאות ברמה טובה, סימן שהם נכונים. הבעיה, שבעזרת המחשב ניתן היום לעשות כך שהגורמים המסבירים יתאימו לשני הסטים - זה של הלימוד וגם לסט המבחן, כך שיחזו היטב את תוצאותיו. במילים אחרות - אפשר בעזרת כח מחשוב "לבלף" ולעבור את המבחן עם תוצאות שגויות.
לטענתי הנ"ל מצאתי עד השבוע רק שותף אחד, פרופ' יוסף אגסי לפילוסופיה של המדע שדבריו לרע המזל לא נשמעו בחוגי מנתחי הנתונים המתיצבים מנגד רושפי אש בטענה שהמבחן הסטטיסטי-מתמטי הוא מחוץ לכל ויכוח. "נכון", הזדרזתי להודות בעליונות הלוגית של המתמטיקה, אבל לא ביישום שלה שזה דבר נפרד. מודל מתמטי יכול ועוד איך להיות שגוי כאשר הגדרותיו אינן מתקימות. בכל אופן, הסתיגויותי עלו בתוהו מול הררי היישומים הקימים, כאמור עד השבוע. מה קרה השבוע? - נתקלתי סוף סוף במקרה מהחיים שבו נאלצו עורכי תחרות באתר InnoCentive לתקן תוך התנצלויות את המבחן הסטטיסטי שימש באחת התחרויות ולהגדירו מחדש, כאשר כל המהומה נובעת מכך שפתרונות בעלי ציונים גבוהים התבררו כנחותים, וכך מבלי שהמילה overfitting תיאמר בפירוש, נשלחו הפותרים אחר כבוד לעשות את כל העבודה מחדש. לא שעורכי התחרות הסיקו מכאן לקח יסודי, לא צריך להיגרף, הם רק הוסיפו תנאי למבחן התוצאות, שדפוסי ההתנהגות בנתונים, התת-קבוצות, חיבים גם להיות בעלי תכונות מאפינות ברורות, ולא סתם אוספי רשומות בעלי תוצאות דומות. בכך קבעו InnoCentive לראשונה למיטב ידיעתי, תנאי מחיב לפיו מנתחי הנתונים צריכים להצביע על תכונות מסוימות ידועות מראש שמשפיעות על פרשנות התוצאות. זהו ללא ספק צעד הכרחי חשוב בהגדרת כל מודל מעשי שעוסק בנתוני שטח, ועל כך יש לשמוח.
עכשיו לא נותר אלא לראות אם יהיה המשך לעבר הדרישה העוד יותר מעשית, אשר הסטטיסטיקה לא מכירה בקיומה, הלא היא הדרישה להגדיר קשרי סיבה-תוצאה ולא רק זיקה בין משתנים.

למתענינים מדובר בתחרות "Predictive Subgroup Identification"
www.innocentive.com/ar/challenge/9933623

חג שמח ושבת שלום


בברכה
אדית

Please התחברות to join the conversation.

Moderators: Edith Ohri
Time to create page: 0.227 seconds