החריגים מענינים לא פחות מאירועים רגילים. חשיבות החריגים גדולה בהרבה ממספרם היחסי בנתונים, ונובעת מכך שביכולתם להפריך השערות ולתקן אותן.
ניתוח חריגים הוא הענין העיקרי בתחומים כגון: בקרה, אחזקה, חיזוי, תחקור כשלים, Fraud Detection, Cyber Attacks ועוד.
אפיון דפוסי התנהגות בכלל וגם של דפוסים חריגים, לפי מדע הנתונים החדש, מזהה את התנאים להיוצרות כל דפוס ואת גורמי המפתח שלו, ומאפשר במקרים רבים להשפיע עליהם באופן שיטתי.
הגדרה:
חריג הוא אירוע בלתי צפוי וחסר הסבר, או אירוע שקורה בתנאים שמחוץ למחקר הנדון. הגדרת חריגים תלויה, לפיכך, בתיאוריה שבידי החוקרים.
הערה: ככל שמגדילים את הרזולוציה כך יש לצפות לגידול בכמות החריגים.
דוגמא: ניתוח אירועים של מצלמות אבטחה שמכילות אנליטיקה.
האם אפשר ללמוד משהו מלוג האירועים?
האירועים כוללים אזעקות אמת, אזעקות שוא, מקרים שמצלמה לא זיהתה, וכן אירועים של אחזקה ותפעול שוטף כגון הדלקה וכיבוי.
ייתכן שיש קשר בין מקרים שלא זוהו ואירועי אחזקה זמן קצר אחר כך, שכללו ניקוי המצלמה וסביבתה, ומכאן ניתן להמליץ להגדיל את תדירות ניקוי המערכת וסילוק עצמים שמפריעים לה. ייתכן שיש קשר בין אזעקות שוא למקרים לא מזוהים שבאו אחריהם, כנראה בגלל הורדת רגישות המצלמה – במקרה זה ניתן להמליץ על הצלבת התראות עם מצלמה סמוכה לפני הפעלת האזעקה. ייתכן שאירועים רבים קורים בזמנים מסוימים שמספקים הסבר אפשרי. ייתכן שהוראות ההפעלה אינן ברורות ולכן התקלות, וכו'.
לסיכום, ניתוח האירועים מוסיף לאנליטיקה עוד דרגה של אבטחה ע"י שגרת שימוש נכון.
כל תופעה חדשה מתחילה כחריג.
זו סיבה טובה להבין חריגים ולקבל התראה מוקדמת, והשערות לגבי הכיוון שאליו הענינים הולכים.
בנושא אבטחה לדוגמא, זה עשוי להקדים את הפורצים בזמן שהם עוד מתעסקים בלימוד וניסויים, ולהקדים או להיות צעד אחד לפניהם, שלא לדבר על הכנת מענה הולם עבורם
אדית
חריגים מהווים מבחן השערה. זה
עקרון מספר 1 במדע הנתונים החדש
.
העקרון נדון בהרחבה בכתבי הפילוסופים של המדע - קארל פופר, ואחריו פרופ' יוסף אגסי ייבדל לחיים ארוכים.
מבחן ההשערה במדע הנתונים החדש אוסר, בניגוד למודל הסטטיסטי, על ניקוי רשומות חריגות, ומחיב לכלול אותן בניתוח הנתונים.
הכללת חריגים בקלט מתאפשרת במדע הנתונים החדש, בזכות ההבדלה בין קבוצות בעלות דפוסי התנהגות שונים, והאפשרות להוציא חריגים ולשיכם לתופעות שמנותחות בנפרד.
דוגמא:
בניתוח של תנובת פרות שהשתמש במודל GT המבטא את מדע הנתונים החדש, התברר שכמחצית הרשומות שיכות לדפוס ייחודי של פרות שמאפין אותן הפר האב שהיה בעל גנטיקה שונה מאד. קבוצת הרשומות האלה נותחה בנפרד.
עוד קבוצה של רשומות בעלות ערכים חריגים התבררה כתוצאות שגויות של מעבדה שתוצאותיה נפסלו. קבוצת התוצאות השגויות הופרדה גם היא, וכצפוי - לא נמצא בה אף גורם משפיע.
יתר הרשומות התגבשו לקבוצות עקביות עם גורמי איכות חלב ברורים, שלא היה ניתן להבחין בהם לפני הפרדת נתוני הפר החריג.