למה מתעלמים מהפיל שבחדר? כי הוא מה שנקרא an outlier – תופעה חריגה קיצונית וחסרת הסבר, שמייצרת שונות גבוהה שמכשילה את המבחן הסטטיסטי.
(REF דיון בפורום כריית מידע: "חוק מס' 20 - התמקדות בחריגים".
בספרות של ניתוח נתונים נדרש לנקות outliers ממדגם הנתונים...
הבעיה שבניקוי נזרקים החוצה גם פרטים שהיו יכול לשפוך אור על אירועים בלתי צפויים. הניקוי למעשה סותם את הגולל על אפשרות ניתוח יסודי של חריגים, ומשאיר אותם בהגדרה הסתמית "אירועים של פעם במאה שנה".
* הפתרון של מדע הנתונים החדש (New Data Science) הוא מודל קלאסטרינג כללי לניתוח נתונים בלתי מפוקחים.
המודל מוסיף שלב שהיום אינו קים בניתוח נתונים, של ייצור השערות אובייקטיבי (על סמך נתונים ולא על פי השערות מומחים). יש לכך יתרון ענקי בלימוד מכונה.