השיטה הטכנית הנפוצה ללימוד סט נתונים באמצעות ניתוח שיירי הוריאנס שלו וחיפוש חוזר של משתנים מסבירים, מובילה בהכרח לרשימת גורמים ממצה שיכולה להסביר כאילו כל דבר, אך עד כמה ההסברים הטכניים הללו הינם ממשיים ובעלי אחיזה במציאות? על שאלה זו אמור היה לענות מבחן סטטיסטי של חיזוי תוצאות שנערך על סט נתונים נפרד ואוביקטיבי. לפי הגיון המבחן הסטטיסטי, אם הגורמים מצליחים לחזות את התוצאות ברמה טובה, סימן שהם נכונים. הבעיה, שבעזרת המחשב ניתן היום לעשות כך שהגורמים המסבירים יתאימו לשני הסטים - זה של הלימוד וגם לסט המבחן, כך שיחזו היטב את תוצאותיו. במילים אחרות - אפשר בעזרת כח מחשוב "לבלף" ולעבור את המבחן עם תוצאות שגויות.
לטענתי הנ"ל מצאתי עד השבוע רק שותף אחד, פרופ' יוסף אגסי לפילוסופיה של המדע שדבריו לרע המזל לא נשמעו בחוגי מנתחי הנתונים המתיצבים מנגד רושפי אש בטענה שהמבחן הסטטיסטי-מתמטי הוא מחוץ לכל ויכוח. "נכון", הזדרזתי להודות בעליונות הלוגית של המתמטיקה, אבל לא ביישום שלה שזה דבר נפרד. מודל מתמטי יכול ועוד איך להיות שגוי כאשר הגדרותיו אינן מתקימות. בכל אופן, הסתיגויותי עלו בתוהו מול הררי היישומים הקימים, כאמור עד השבוע. מה קרה השבוע? - נתקלתי סוף סוף במקרה מהחיים שבו נאלצו עורכי תחרות באתר InnoCentive לתקן תוך התנצלויות את המבחן הסטטיסטי שימש באחת התחרויות ולהגדירו מחדש, כאשר כל המהומה נובעת מכך שפתרונות בעלי ציונים גבוהים התבררו כנחותים, וכך מבלי שהמילה overfitting תיאמר בפירוש, נשלחו הפותרים אחר כבוד לעשות את כל העבודה מחדש. לא שעורכי התחרות הסיקו מכאן לקח יסודי, לא צריך להיגרף, הם רק הוסיפו תנאי למבחן התוצאות, שדפוסי ההתנהגות בנתונים, התת-קבוצות, חיבים גם להיות בעלי תכונות מאפינות ברורות, ולא סתם אוספי רשומות בעלי תוצאות דומות. בכך קבעו InnoCentive לראשונה למיטב ידיעתי, תנאי מחיב לפיו מנתחי הנתונים צריכים להצביע על תכונות מסוימות ידועות מראש שמשפיעות על פרשנות התוצאות. זהו ללא ספק צעד הכרחי חשוב בהגדרת כל מודל מעשי שעוסק בנתוני שטח, ועל כך יש לשמוח.
עכשיו לא נותר אלא לראות אם יהיה המשך לעבר הדרישה העוד יותר מעשית, אשר הסטטיסטיקה לא מכירה בקיומה, הלא היא הדרישה להגדיר קשרי סיבה-תוצאה ולא רק זיקה בין משתנים.