הצטרפו לקבוצות שלנו לקבלת עדכונים מרוכזים פעם בשבוע:

ווטסאפ:
http://wa.dwh.co.il
טלגרם:
http://telegram.dwh.co.il

חוק מס' 20 - התמקדות בחריגים, מזה חריג?

More
5 years 1 month ago #8503 by Edith Ohri
(בהמשך לדיון " אבחון דפוסים חריגים לפי New Data Science ")

החריגים מענינים לא פחות מאירועים רגילים. חשיבות החריגים גדולה בהרבה ממספרם היחסי בנתונים, ונובעת מכך שביכולתם להפריך השערות ולתקן אותן.

ניתוח חריגים הוא הענין העיקרי בתחומים כגון: בקרה, אחזקה, חיזוי, תחקור כשלים, Fraud Detection, Cyber Attacks ועוד.
אפיון דפוסי התנהגות בכלל וגם של דפוסים חריגים, לפי מדע הנתונים החדש, מזהה את התנאים להיוצרות כל דפוס ואת גורמי המפתח שלו, ומאפשר במקרים רבים להשפיע עליהם באופן שיטתי.

הגדרה:
חריג הוא אירוע בלתי צפוי וחסר הסבר, או אירוע שקורה בתנאים שמחוץ למחקר הנדון. הגדרת חריגים תלויה, לפיכך, בתיאוריה שבידי החוקרים.
הערה: ככל שמגדילים את הרזולוציה כך יש לצפות לגידול בכמות החריגים.

דוגמא: ניתוח אירועים של מצלמות אבטחה שמכילות אנליטיקה.
האם אפשר ללמוד משהו מלוג האירועים?
האירועים כוללים אזעקות אמת, אזעקות שוא, מקרים שמצלמה לא זיהתה, וכן אירועים של אחזקה ותפעול שוטף כגון הדלקה וכיבוי.
ייתכן שיש קשר בין מקרים שלא זוהו ואירועי אחזקה זמן קצר אחר כך, שכללו ניקוי המצלמה וסביבתה, ומכאן ניתן להמליץ להגדיל את תדירות ניקוי המערכת וסילוק עצמים שמפריעים לה. ייתכן שיש קשר בין אזעקות שוא למקרים לא מזוהים שבאו אחריהם, כנראה בגלל הורדת רגישות המצלמה – במקרה זה ניתן להמליץ על הצלבת התראות עם מצלמה סמוכה לפני הפעלת האזעקה. ייתכן שאירועים רבים קורים בזמנים מסוימים שמספקים הסבר אפשרי. ייתכן שהוראות ההפעלה אינן ברורות ולכן התקלות, וכו'.
לסיכום, ניתוח האירועים מוסיף לאנליטיקה עוד דרגה של אבטחה ע"י שגרת שימוש נכון.


בברכה
אדית

Please התחברות to join the conversation.

More
4 years 10 months ago - 4 years 10 months ago #8512 by Edith Ohri
כל תופעה חדשה מתחילה כחריג.
זו סיבה טובה להבין חריגים ולקבל התראה מוקדמת, והשערות לגבי הכיוון שאליו הענינים הולכים.
בנושא אבטחה לדוגמא, זה עשוי להקדים את הפורצים בזמן שהם עוד מתעסקים בלימוד וניסויים, ולהקדים או להיות צעד אחד לפניהם, שלא לדבר על הכנת מענה הולם עבורם :)
אדית


בברכה
אדית
Last edit: 4 years 10 months ago by Edith Ohri.

Please התחברות to join the conversation.

More
4 years 16 hours ago #8522 by Edith Ohri
חריגים מהווים מבחן השערה. זה עקרון מספר 1 במדע הנתונים החדש .
העקרון נדון בהרחבה בכתבי הפילוסופים של המדע - קארל פופר, ואחריו פרופ' יוסף אגסי ייבדל לחיים ארוכים.
מבחן ההשערה במדע הנתונים החדש אוסר, בניגוד למודל הסטטיסטי, על ניקוי רשומות חריגות, ומחיב לכלול אותן בניתוח הנתונים.
הכללת חריגים בקלט מתאפשרת במדע הנתונים החדש, בזכות ההבדלה בין קבוצות בעלות דפוסי התנהגות שונים, והאפשרות להוציא חריגים ולשיכם לתופעות שמנותחות בנפרד.

דוגמא:
בניתוח של תנובת פרות שהשתמש במודל GT המבטא את מדע הנתונים החדש, התברר שכמחצית הרשומות שיכות לדפוס ייחודי של פרות שמאפין אותן הפר האב שהיה בעל גנטיקה שונה מאד. קבוצת הרשומות האלה נותחה בנפרד.
עוד קבוצה של רשומות בעלות ערכים חריגים התבררה כתוצאות שגויות של מעבדה שתוצאותיה נפסלו. קבוצת התוצאות השגויות הופרדה גם היא, וכצפוי - לא נמצא בה אף גורם משפיע.
יתר הרשומות התגבשו לקבוצות עקביות עם גורמי איכות חלב ברורים, שלא היה ניתן להבחין בהם לפני הפרדת נתוני הפר החריג.


בברכה
אדית

Please התחברות to join the conversation.

More
1 year 5 months ago #8550 by Edith Ohri
האם התמקדות בחריגים מחלישה או מחזקת את המסקנות?

מקובל לחשוב שחריגים מפריעים לאבחון התופעות המשמעותיות ולכן יש לנקות אותם לפני שניגשים לניתוח הנתונים. בספרות המקצועית של ניתוח נתונים ומבחן השערות, מקובלים שני שלבים התחלתיים - הכנת מדגם וניקוי נתונים. שני שלבים אלה מתקצרים במודל GT שבנוי על עקרונות מדע הנתונים החדש. GT משתמש בקלט זמין ללא סינון (מלבד סילוק רשומות ושדות כפולים).

היתרונות של ביטול הצורך בהכנת מדגם וניקוי נתונים:
1. חסכון עבודה.
2. קלט אותנטי.
3. תוצאות אוביקטיביות יותר.
4. מסקנות משופרות בזכות גילוי תופעות בלתי צפויות. לציין שבמדעי הטבע, גילוי תופעה חדשה עשוי לשנות תיאוריה שלמה שהיתה קימת עד לאותו רגע.

השאלה, כיצד ניתן להגיע ליתרונות אלה, כשמשתמשים בקלט לא-מפוקח (unsupervised) שמכיל בהכרח מידע רב שאינו רלוונטי שמפריע להתכנסות למסקנות?

המפתח לפתרון טמון בעקרון ה-clustering של GT, הפרדת הנתונים לדפוסי התנהגות במבנה היררכי, שבראשו דפוסי-על ובתחתיתו "מוטציות". במקום לנקות מראש מידע עודף, GT מנפה החוצה בשלמותם דפוסים שאינם נוגעים למטרת הפרויקט. זה יכול להיות דפוסים שמאפיניהם זרים למטרה, שגויים, דפוסים ידועים שכבר נחקרו, וכו'.

יתרונות ה-clustering:
1. אפשרות לצפות בכל דפוס בפני עצמו.
2. חידוד הגדרת התופעות עקב הפרדתן.
3. הצפת דפוסים סמויים.
4. חשיפת קשרים רב מימדיים.
5. יכולת לבצע פעולות לוגיות בין דפוסים, כגון השוואה ואנלוגיה.
6. תמיכה בהגדרת סיבה-תוצאה וייצור תובנות.

לסיכום השאלה, האם התעסקות עם חריגים עוזרת או מפריעה, התשובה היא חיובית, בהחלט עוזרת. חשיפת מבנים חריגים שופכת אור על הידע הקים וגבולותיו. יתר על כן, חריגים הם לעתים התחלה של תופעות, וגילוים נותן איתות מוקדם. זה "הגביע הקדוש" של ניתוח נתונים. הדפוסים החריגים מדייקים את הדפוסים הרגילים ומאפשרים למנתח הנתונים לחדור למכניזם של התפתחות תופעות ולהציע דרכים לשיפור שליטה.


בברכה
אדית

Please התחברות to join the conversation.

More
1 year 1 month ago #8551 by Edith Ohri
ככל שהוודאות גבוהה יותר, כך החריגים משמעותיים יותר!

ככל שבטוחים יותר בחוקיות כך, בניגוד למקובל, גדלה חשיבות החריגים.


לדוגמא, עד ראשית המאה ה-20 נחשבה האנרגיה לתופעה פיזיקלית חסרת מסה. כאשר אלברט איינשטיין רצה להוכיח שלאור יש מסה, הזדקק לניסוי אחד בלבד להוכיח זאת - הניסוי המפורסם שנערך באי פירנסיפה שבמפרץ גיניאה אפריקה, בעת ליקוי חמה 29-05-1919, ע"י הפיזיקאי הבריטי ארתור אדינגטון, שבו נראה מסלול קרן אור מתעקם ליד השמש ומוטה לעברה בשיעור שצפה איינשטיין לפי הנוסחא E=mc².

לכן, יש לשים לב בכל פעם ששומעים "אין דבר כזה", ייתכן שלא רק שיש דבר כזה, אלא שמכלול שלם של תופעות נעלמו מהמפה, ולא במקרה. תחקור החריג עשוי לגלות את הסיבה להעלמותן.


בברכה
אדית

Please התחברות to join the conversation.

More
8 months 1 week ago #8554 by Edith Ohri
איך לנתח חריגים?
נשאלתי, אם המטרה היא התמקדות בחריגים, בשביל מה צריך לבזבז מאמצים על הכנה וניתוח של כמויות נתונים עצומות? האם לא עדיף מראש להתמקד בנתונים החריגים?

התשובה, לפי מדע הנתונים החדש (מנ"ח), נדרש לנתח ולזהות קודם כל את היררכית הקבוצות בנתונים.
הדרישה נובעת מעצם ההגדרה של חריגים:
חריגים הם אירועים או דפוסים בעלי אפיון שונה באופן משמעותי מזה של התופעות הסמוכות.
לפני שמזהים את דפוסי ההתנהגות בנתונים לא ידוע איזה אפיון נחשב לחריג ואיזה לא, ולכן לא ניתן להפריד את החריגים.
מנ"ח הוא מודל כללי לניתוח נתונים, גם אם הם לא-מפוקחים, מרובי תופעות או סבוכים. לא ניתן להניח בו מראש אחידות כלשהי שתאפשר לדעת מראש ולסנן נתונים חריגים!
יתר על כן, בעקרון, הסינון נחשב בו להתערבות שמקלקלת את אוביקטיביות הקלט ועלולה לגרום לטעויות כגון "הנחת המבוקש",

לשים לב, בתורת הסטטיסטיקה החריגים – outliers מוגדרים בפשטות כנתונים שסוטים באופן משמעותי משאר הנתונים במדגם, הפישוט במודל הסטטסטי מתאפשר בזכות הדרישה לאיסוף נתונים מייצגים של תופעה אחת בלבד.


בברכה
אדית

Please התחברות to join the conversation.

More
2 months 1 week ago #8558 by Edith Ohri
חריגים ישנם תמיד במציאות.
הכרחי להבין אותם כדי לדעת את גבולות ההסברים שלנו, במה הם תלויים והנקודות הפגיעות בהבנתינו, ומצד שני - לתת לנו מושג מבעוד מועד על מהלכים אפשריים של הצד הנגדי שכל הסיכויים ינסה לנצל אותם.
את כל הטוב הזה מקבלים מקומץ עובדות, שנמצאות בידינו ממש מתחת לאף, אך לא זוכות להתיחסות מאחר ואין להן משמעות סטטיסטית! לתשומת לב אנשי האנטליגנציה הלא-מלאכותית.

לפי תפיסת מדע הנתונים החדש, חריגים הם איתות למה שמוסתר מאיתנו, הם הזנב של השוליים של תופעות גדולות יותר שאינן כלולות בקלט, או שאנחנו לא שיערנו או לא ידענו לנסח.
במילים אחרות וסליחה על ההשוואה, מכירים את חוק הג'וקים ש"אם ראית ג'וק אחד במטבח סימן שישנם עשרה"?
על החוק הוסיף סימנים מחזקים, הכומר אל שרפטון, מהווי נעוריו בהארלם - כשאתה נכנס למטבח ומדליק את האור, אתה רואה את הקקרוצ'ס האלה בורחים. ניתן להוסיף מהווי קרוב יותר בישראל – במקרה הבלתי צפוי שהם לא בורחים, להיפך, באים נוספים, סימן שמשמיד החרקים ביקר בחצר הבית וחיטא את הביוב.


בברכה
אדית

Please התחברות to join the conversation.

More
1 month 21 hours ago #8561 by Edith Ohri
חריגים זה כל הסיפור.

יום אחד ישבתי עם רופא מומחה מנהל מחלקה בבית חולים גדול, לדון על דוח סיכום ניתוח הנתונים שנתן לי לבדיקה. זה היה רגע חגיגי, עם לא מעט מתח, שכן מדגם הנתונים שקיבלתי היה מעוט רשומות ומרובה משתנים, מהסוג שאינו מספיק לניתוח בכלים הרגילים. כידוע אסור להוציא מבית חולים מידע מטופלים. כך ששמחתי כשהתאפשר לי לקבל נתונים שאסף סטודנט לרפואה בתזה לדוקטוראט שלו, על גורמים טיפוליים שעשויים להסביר הופעת מחלה מסוימת במחלקה. המטופלים היו בעלי רקע אישי, חברתי וסביבתי דומה, ובכל זאת מקצתם חלו בעוד שהיתר נשארו בריאים.
זה היה אתגר לא קטן, למצוא משהו חדש במדגם הנתונים שהועבר אלי, אחרי שנחרש לאורך ולרוחב ע"י רופאים ופרופסורים. בדקתי שוב ושוב את המסקנות, אבל נשאר בי חשש. גמי שאינה מתמצאת בנושא.
עכשיו הגיע הרגע הגדול של אימות המסקנות. ראש המחלקה הרכיב את משקפיו, עבר איתי אחת אחת על המסקנות:
"את זה אני יודע, לא חידשת לי." אמר כשהוא קורא בזריזות מהדוח.
"גם את זה אני יודע, לא חידשת לי."
"את זה אני יכול להסביר, זו תופעה ידועה." וכן הלאה, הוא עבר על הסעיפים ונעצר באחרון, סעיף שהגדיר קבוצה חריגה של מבוגרים ואלמנים, שרובם לקו במחלה. "את זה אני לא מכיר", פסק, "כנראה היתה לך טעות".

לקח לי כמה שנים למצוא רופא גריאטר שהכיר את התופעה החריגה מעבודתו בבית אבות, אישר אותה, הסביר וסגר לי מעגל.

ההגדרה הנפוצה לחריגים היא outliers - רשומות עם ערכים קיצוניים, שבשולי ההתפלגות.

במדע הנתונים החדש הגדרתי זאת אחרת, לא כנקודות קיצון. חריגים הם דפוסים או ארועים חסרי גורם משותף עם יתר הדפוסים.

חריגים הם שטח-מת מבחינה סטטיסטית, לא ברור מה גורם להם. הם נכנסים לוואריאנס, מנפחים אותו, ועלולים להכשיל מבחני השערה עקב חוסר מובהקות.
לכן מנחים בכל ספרי הלימוד לנקות את הקלט מ-outliers.

ניקוי נתונים אינו מתישב עם כללי שמירת האותנטיות של הקלט והאוביקטיביות שלו. הבעיה, שהניקוי מאפשר לבחור קלט כך שיתאים למבוקש במבחן השערה, דבר שהוא פסול בהחלט. אף אם ניקוי הנתונים אינו מנוצל לרעה, הוא עלול לגרום לאיבוד מידע חשוב על קשרים סמויים, ותופעות חדשות ובלתי צפויות שהם לעיתים החלק הכי מענין בניתוח נתונים.

מאז 2007 שבה יצא ספרו של נאסים ניקולס טאלב "הברבור השחור" יש שמכנים את החריגים "ברבורים שחורים", כלומר תופעות שיש לשים אליהן לב.

כיצד להגדיר חריגים באופן מועיל?
- קודם כל למצוא את דפוסי התנהגות הקלט, כולל חריגים;
- לבדוק האם הגורמים החריגים רלוונטיים למטרה, ואם לא – להוציאם ולצמצם את תחום (scope) המסקנות;
- אם הגורמים החריגים רלוונטים, לתקן את הערכים החריגים או להתעלם מהם.

לדוגמא, בניתוח נתונים נמצאה קבוצה של רשומות שנלקחו בדיוק באותו זמן והיה להם משתנה בעל ערך יחיד. התברר שהיתה תקלה בחיישן שממנו נלקחו הנתונים כך שאין לרשומות שלו משמעות והן הוצאו מהקלט.
לעומת זאת, נכללו בקלט רשומות חריגות מהייצור, מתקופה ההסבה למערכת מחשב חדשה, שחסרו בהם דיווחי שלבים מסוימים בתהליך הייצור. החסרים הושלמו ידנית מתוך הרישום במחלקות בקרת איכות, Re-work, אחזקה, והזמנות.


בברכה
אדית

Please התחברות to join the conversation.

More
3 weeks 21 hours ago #8562 by Edith Ohri
האם חריגים יכולים להיות קבוצה גדולה?

התשובה היא כן! לפי מדע הנתונים החדש, קבוצה חריגה יכולה להיות גדולה ואפילו רוב. חריגים מוגדרים רק על פי מאפיניהם שהם ייחודיים, כאמור בפוסט הקודם, ואינם בהכרח אירועים שוליים.
במקרה שהחריגים הם קבוצה גדולה, מתעוררת ביתר שאת השאלה, מה לעשות איתם – להכליל אותם בקלט או להוציאם ממנו. ההחלטה בענין תלויה רק ברלוונטיות של החריגים למטרת ניתוח הנתונים.

דוגמא לחריגים רלוונטים:
בלימוד נתוני המעקב על איכות מיים של מאגר מי שתייה, התגלתה קבוצה חריגה על פי הגדרת מדע-הנתונים המכילה אצה רעילה. כמות האצה גדלה בשנים האחרונות, בעוד שיתר הקבוצות היו באיכות מיים גבוהה ואינווריאטית לאורך השנים. לאור זה, הוחלט להתמקד בקבוצה החריגה.
ניתוח נתוני מעקב איכות המיים העלה שישנו קשר בין הופעת האצה הרעילה לעונה גשומה בחורף האחרון. ההסבר במקרה זה הגיע מחוץ לנתונים – ידוע שגשם בכמות גדולה גורם לסחף מוגבר מאזור שמזוהם בחומר המאיץ את גידול האצה הרעילה.
(הפתרון היה חסימת הסחף הבעייתי והשקעתו באגן ניקוז. )


דוגמא לחריגים בלתי רלוונטים.
בלימוד נתונים מרפתות ברחבי הארץ, במטרה למצוא פרי הרבעה שהפרות הנולדות להם מניבות חלב באיכות גבוהה, נמצא שלמעלה ממחצית הרשומות שיכות לפר בעל מאפינים חריגים. ההסבר לחריגה היה, ששיטת הבדיקה הגנטית השתנתה. לפיכך, אותו פר אינו ניתן להשוואה לאחרים והוחלט להוציאו מהקלט. לאחר הוצאתו, הקשר בין גנטיקה ואיכות התבהר והיה אפשר לדרג את פרי ההרבעה. הדירוג שנמצא בניתוח היה זהה לחלוטין לדירוג השנתי שמפרסם איגוד מגדלי הבקר..


בברכה
אדית

Please התחברות to join the conversation.

More
2 weeks 5 days ago #8563 by Edith Ohri
כיצד לאתר מבחן סטטיסטי שיש בו הונאה?  כמו בהונאות בכלל (ראה גם "הפיל של מקלטי המס"), מנסיוני, גם במקרה של הונאה במבחן סטטיסטי, צפוי שהנוכלים ינקטו בצעדים הבאים:
 1. הסוואה, טשטוש עקבות, הסחה, שיבוש והטעיה – העלמת פרטים מסגירים, הסרת תיוג מסביר של שדות קלט כביכול מטעמי חסיות מידע, הכנסת שיבושים ושגיאות "אנוש", או הרחקת עצמם מקשר לנושא הנבדק, כדי שמידע רגיש מבחינתם לא ייכלל בקלט.
 2. השתקת מתנגדים –  הרתעת מתנגדים בדרכים שונות וצמצום המידע הנגיש, במטרה להוריד את משמעות (significance) המבחן הסטטיסטי ויכולתו להציג מסקנות ברורות.
 3. מתן הסבר אלטרנטיבי –  הכנת "אליבי" או סיפור המפחית את הערך של ממצאי הבדיקה הסטטיסטית.
המודל הסטטיסטי אינו מוגן מפני הטייה וחבלה מכוונת. הוא מודל קשיח שנתפס בעקרון כאמין ואוביקטיבי. לכן, כשהוא נכשל קשה להגיע להסכמה בדבר הצורך במבחן חוזר מהתחלה, כולל השערה ונתונים חדשים. עריכת מבחן סטטיסטי חוזר עקב ביקורת על תקינותו היא די נדירה.
 במודל מדע-הנתונים-החדש, הכשל, הפגם הנ"ל, אינו קים! ראשית כל, משום שהוא מכיל שלב לימוד, שנועד מראש לחיפוש השערות כך שאינו כבול להשערה ראשונית. שנית, התוצר המרכזי של המודל הוא הגדרה של דפוסי התנהגות ומאפיניהם; אם ישנם דפוסי הונאה, הם יכילו מאפינים הרומזים על כך, כגון: תחום פעילות אופיני שהוא רחוק מהעין וידוע שהפיקוח בו רופף, או כמות גדולה של תיקונים ושדות קלט ריקים שהם טיפוסיים לטשטוש עקבות, או ריבוי שיבושים שעשוי לסיע למבצעי הונאה.סימנים מחשידים כאלה, כאשר הם מתרכזים בדפוס חריג, מספקים לחוקרים תובנה חדשה לגבי תופעות סמויות, חלקן לא כל כך תמימות.  


בברכה
אדית

Please התחברות to join the conversation.

Moderators: Edith Ohri
Time to create page: 0.288 seconds