השאלה הזאת על חיזוי, עולה כל פעם שמדברים על כריית נתונים. זוהי כנראה הנקודה הכי מאכזבת את רוכשי מערכות BI. היא מחדדת גם את שאלת אמינות התוצאות המתקבלות בניתוח נתוני העבר, כי אם אי אפשר לאמת את התוצאות בעתיד, איך אפשר לסמוך עליהן בכלל?
התשובה שלי בנושא (ויידרשו בה ללא ספק הבהרות) היא שינוי פראדיגמה. הרעיון הוא עקרוני: כל תחום כריית נתונים קם בגלל מגבלות הסטטיסטיקה וחסרונותיה הרבים בסביבת IT, לכן דרושה פראדיגמה לא-סטטיסטית כנקודת מוצא.
GT data mining מבוסס על תפיסה חדשה ואחרת מסטטיסטיקה. התוצאות שלו מגיעות למקומות שנחשבים סתומים. אך לא אגרור את הקוראים ליישומים שפרטיהם לא ידועים. קל ובריא יותר לדבר על העקרון שהוא גלוי לעין כל. ואציג שוב את השאלה מזוית אחרת: האם אפשר לסמוך על תוצאות כריית נתונים (או BI) לצורך קבלת החלטות רצינית?
למתענינים, לפני שבועיים הנושא עלה לדיון ברשת באתר LinkedIn - למי שיש גישה, חפשו תחת Data Mining את שאלתו של Pascal Sesques.