יש הרואים בנתונים כאוס של פרטים, שלא בהכרח יש להם משמעות.
אני מאלה שסבורים שלמצבורי הנתונים יש משמעות, ביותר ממובן אחד, ובד"כ במספר דרגות הכללה או היררכיה.
לדוגמא, בא נסתכל על מצבור נתוני חיובים וזיכויים בחשבון הבנק:
השוללים קיומו של סדר של קבוצות טבעיות יטענו, שאין בנתונים דבר מעבר לתיעוד פעולות בנקאיות ברורות מה עוד שחלקן מבוצעות ביזמת בעל החשבון.
.
המצדדים בקיום סדר יצביעו על אפשרות להפיק משמעות מתוך השווה בין תקופות, תפיסת מגמות, אבחנה בתכיפות של סוגי פעולות חשבון מסוימים, מופע של חשבונות נגדיים ספציפיים, שינויים ביחס בין תקבולים והוצאות, וכו'. ניתוח פרטי החשבון נותן הסברים לנזילות החשבון, לדוגמא ויש להם כמובן ערך רב.
למה היררכיה?
- בלי היררכיה, מיחסים את כל הגורמים בצורה ישירה לתוצאה.
עם היררכיה, לוקחים בחשבון צירופי גורמים מסוימים המשפיעים על התוצאה בעקיפין, דרך פעולות הגומלין שביניהם.
- בהמשך הדוגמא: בלי היררכיה, ההסברים שנמצא לנזילות, עשויים להיות "קצב הזיכויים והחיובים והיקפם".
זה יהיה ממצא נכון אבל חלקי.
אפשר להגיע להרבה יותר. עם היררכיה, אפשר יהיה להבחין בתופעות של מספר גורמים משולבים, כגון: יצירת עודף בתקופות מסוימות, עקב תנועות 'זכות' של חשבונות נגדיים ממקור מסוים, ולעומתם, ירידת היתרה מתחת לגבול האשראי בתקופות אחרות, שבהן מגיעים חיובים ממגוון פעולות של סליקה אוטומטית.
המסקנה במקרה זה עשוייה להיות, שניהול התזרים בחשבון יכול להיות טוב יותר... אפשר לזרז תקבולים, לצמצם את היקף הסדרי החיובים מרובי התשלומים, לקנות ביטוח אשראי, או להרחיב את קו האשראי למניעת החריגות היקרות המכאיבות.
ההיררכיה נותנת עומק לניתוח, ומחזקת את התובנות שמצטרפות ממספר כיוונים למסקנה ברורה יותר. הבטחון בממצאים עולה, והיכולת לשלוט במצב משתפרת. זה כל הסיפור.
~~~~~~~
מה שמענין לצורך כריית נתונים הוא לדעת, שיד נעלמה מיצרת לנו "דפוסי ההתנהגות". במילים אחרות, שהדפוסים ההיררכיים קימים תמיד, ואם לא מצאנו כאלה, סימן שצריך להמשיך ולחקור