הצטרפו לקבוצות שלנו לקבלת עדכונים מרוכזים פעם בשבוע:

ווטסאפ:
http://wa.dwh.co.il
טלגרם:
http://telegram.dwh.co.il

חוק מס' 20 - התמקדות בחריגים

More
3 years 10 months ago #8503 by Edith Ohri
(בהמשך לדיון " אבחון דפוסים חריגים לפי New Data Science ")

החריגים מענינים לא פחות מאירועים רגילים. חשיבות החריגים גדולה בהרבה ממספרם היחסי בנתונים, ונובעת מכך שביכולתם להפריך השערות ולתקן אותן.

ניתוח חריגים הוא הענין העיקרי בתחומים כגון: בקרה, אחזקה, חיזוי, תחקור כשלים, Fraud Detection, Cyber Attacks ועוד.
אפיון דפוסי התנהגות בכלל וגם של דפוסים חריגים, לפי מדע הנתונים החדש, מזהה את התנאים להיוצרות כל דפוס ואת גורמי המפתח שלו, ומאפשר במקרים רבים להשפיע עליהם באופן שיטתי.

הגדרה:
חריג הוא אירוע בלתי צפוי וחסר הסבר, או אירוע שקורה בתנאים שמחוץ למחקר הנדון. הגדרת חריגים תלויה, לפיכך, בתיאוריה שבידי החוקרים.
הערה: ככל שמגדילים את הרזולוציה כך יש לצפות לגידול בכמות החריגים.

דוגמא: ניתוח אירועים של מצלמות אבטחה שמכילות אנליטיקה.
האם אפשר ללמוד משהו מלוג האירועים?
האירועים כוללים אזעקות אמת, אזעקות שוא, מקרים שמצלמה לא זיהתה, וכן אירועים של אחזקה ותפעול שוטף כגון הדלקה וכיבוי.
ייתכן שיש קשר בין מקרים שלא זוהו ואירועי אחזקה זמן קצר אחר כך, שכללו ניקוי המצלמה וסביבתה, ומכאן ניתן להמליץ להגדיל את תדירות ניקוי המערכת וסילוק עצמים שמפריעים לה. ייתכן שיש קשר בין אזעקות שוא למקרים לא מזוהים שבאו אחריהם, כנראה בגלל הורדת רגישות המצלמה – במקרה זה ניתן להמליץ על הצלבת התראות עם מצלמה סמוכה לפני הפעלת האזעקה. ייתכן שאירועים רבים קורים בזמנים מסוימים שמספקים הסבר אפשרי. ייתכן שהוראות ההפעלה אינן ברורות ולכן התקלות, וכו'.
לסיכום, ניתוח האירועים מוסיף לאנליטיקה עוד דרגה של אבטחה ע"י שגרת שימוש נכון.


בברכה
אדית

Please התחברות to join the conversation.

More
3 years 7 months ago - 3 years 7 months ago #8512 by Edith Ohri
כל תופעה חדשה מתחילה כחריג.
זו סיבה טובה להבין חריגים ולקבל התראה מוקדמת, והשערות לגבי הכיוון שאליו הענינים הולכים.
בנושא אבטחה לדוגמא, זה עשוי להקדים את הפורצים בזמן שהם עוד מתעסקים בלימוד וניסויים, ולהקדים או להיות צעד אחד לפניהם, שלא לדבר על הכנת מענה הולם עבורם :)
אדית


בברכה
אדית
Last edit: 3 years 7 months ago by Edith Ohri.

Please התחברות to join the conversation.

More
2 years 9 months ago #8522 by Edith Ohri
חריגים מהווים מבחן השערה. זה עקרון מספר 1 במדע הנתונים החדש .
העקרון נדון בהרחבה בכתבי הפילוסופים של המדע - קארל פופר, ואחריו פרופ' יוסף אגסי ייבדל לחיים ארוכים.
מבחן ההשערה במדע הנתונים החדש אוסר, בניגוד למודל הסטטיסטי, על ניקוי רשומות חריגות, ומחיב לכלול אותן בניתוח הנתונים.
הכללת חריגים בקלט מתאפשרת במדע הנתונים החדש, בזכות ההבדלה בין קבוצות בעלות דפוסי התנהגות שונים, והאפשרות להוציא חריגים ולשיכם לתופעות שמנותחות בנפרד.

דוגמא:
בניתוח של תנובת פרות שהשתמש במודל GT המבטא את מדע הנתונים החדש, התברר שכמחצית הרשומות שיכות לדפוס ייחודי של פרות שמאפין אותן הפר האב שהיה בעל גנטיקה שונה מאד. קבוצת הרשומות האלה נותחה בנפרד.
עוד קבוצה של רשומות בעלות ערכים חריגים התבררה כתוצאות שגויות של מעבדה שתוצאותיה נפסלו. קבוצת התוצאות השגויות הופרדה גם היא, וכצפוי - לא נמצא בה אף גורם משפיע.
יתר הרשומות התגבשו לקבוצות עקביות עם גורמי איכות חלב ברורים, שלא היה ניתן להבחין בהם לפני הפרדת נתוני הפר החריג.


בברכה
אדית

Please התחברות to join the conversation.

More
3 months 2 days ago #8550 by Edith Ohri
האם התמקדות בחריגים מחלישה או מחזקת את המסקנות?

מקובל לחשוב שחריגים מפריעים לאבחון התופעות המשמעותיות ולכן יש לנקות אותם לפני שניגשים לניתוח הנתונים. בספרות המקצועית של ניתוח נתונים ומבחן השערות, מקובלים שני שלבים התחלתיים - הכנת מדגם וניקוי נתונים. שני שלבים אלה מתקצרים במודל GT שבנוי על עקרונות מדע הנתונים החדש. GT משתמש בקלט זמין ללא סינון (מלבד סילוק רשומות ושדות כפולים).

היתרונות של ביטול הצורך בהכנת מדגם וניקוי נתונים:
1. חסכון עבודה.
2. קלט אותנטי.
3. תוצאות אוביקטיביות יותר.
4. מסקנות משופרות בזכות גילוי תופעות בלתי צפויות. לציין שבמדעי הטבע, גילוי תופעה חדשה עשוי לשנות תיאוריה שלמה שהיתה קימת עד לאותו רגע.

השאלה, כיצד ניתן להגיע ליתרונות אלה, כשמשתמשים בקלט לא-מפוקח (unsupervised) שמכיל בהכרח מידע רב שאינו רלוונטי שמפריע להתכנסות למסקנות?

המפתח לפתרון טמון בעקרון ה-clustering של GT, הפרדת הנתונים לדפוסי התנהגות במבנה היררכי, שבראשו דפוסי-על ובתחתיתו "מוטציות". במקום לנקות מראש מידע עודף, GT מנפה החוצה בשלמותם דפוסים שאינם נוגעים למטרת הפרויקט. זה יכול להיות דפוסים שמאפיניהם זרים למטרה, שגויים, דפוסים ידועים שכבר נחקרו, וכו'.

יתרונות ה-clustering:
1. אפשרות לצפות בכל דפוס בפני עצמו.
2. חידוד הגדרת התופעות עקב הפרדתן.
3. הצפת דפוסים סמויים.
4. חשיפת קשרים רב מימדיים.
5. יכולת לבצע פעולות לוגיות בין דפוסים, כגון השוואה ואנלוגיה.
6. תמיכה בהגדרת סיבה-תוצאה וייצור תובנות.

לסיכום השאלה, האם התעסקות עם חריגים עוזרת או מפריעה, התשובה היא חיובית, בהחלט עוזרת. חשיפת מבנים חריגים שופכת אור על הידע הקים וגבולותיו. יתר על כן, חריגים הם לעתים התחלה של תופעות, וגילוים נותן איתות מוקדם. זה "הגביע הקדוש" של ניתוח נתונים. הדפוסים החריגים מדייקים את הדפוסים הרגילים ומאפשרים למנתח הנתונים לחדור למכניזם של התפתחות תופעות ולהציע דרכים לשיפור שליטה.


בברכה
אדית

Please התחברות to join the conversation.

Moderators: Edith Ohri
Time to create page: 0.376 seconds