ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: טיפים לכריית נתונים בחוסר

טיפים לכריית נתונים בחוסר 10 years 9 months ago #5598

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 352
  • קרמה: 0
כשאומרים "כריית נתונים" מתכוונים לרוב לניתוח סטים גדולים של נתונים. ההנחה היא בד"כ שסטים קטנים אינם מהווים בעיה, הם כביכול פשוטים, ואפשר לחקור אותן בדרכים נוספות, כולל באופן ידני פרטני באקסל, ואפילו ללכת אל מקור הנתונים, ללמוד את התנהגותם, ולהבין כל רשומה.
מהנסיון, זה לא בדיוק כך.

בפועל יש מקרים רבים של שאלות חשובות במצב של מיעוט נתונים, שבו קשה ליצר הסבר אמין, כזה שמחזיק מעמד בחיזוי. אפילו נדמה שמבינים כל רשומה, השאלה היא מה מסתתר מאחוריה, האם היא משקפת מופע מקרי או התחלה של משהו חדש?

מיעוט נתונים לא בהכרח אומר שהתופעה שולית. בתקופת משבר כמו עכשיו, יש לחץ לבצע "גילוי מוקדם", בלי לחכות עד שיתאסף מידע, כדי לאפשר לארגון תגובה בזמן אמיתי. שינוי קטן במכירות, עשוי ללמד על פוטנציאל לשוק חדש, ותקלות בתפעול יכולות להעיד על קלקול בתהליך, שמוטב לתקן כשהוא עוד קטן.

הגדרה: מיעוט נתונים יכול לנבוע ממיעוט רשומות, מיעוט שדות מתארים, ומיעוט רשומות ביחס למספר גדול של שדות מתארים.
כאן אתיחס למצב שבו עדיין לא הצטברו מספיק רשומות.

טיפים:

1.
לנסות להעשיר את הנתונים, ע"י הוספת רשומות ממאגרים אחרים.
2.
להרחיב את הגדרת סוג האירועים כדי שתכלול רשומות של אירועים דומים מתקופות אחרות.
3.
למקד את הניתוח בגורמים לסטייה של המטרה מהערך החזוי, זאת ע"י הוספת עמודות שמשקפות את התוצאות כפי שנחזו. התמקדות משפרת את ההתכנסות לפתרון.
4.
לנתח את מה שנקרא הבעיה ההופכית. זה טיפ שלא קל ליישם (הוא השאוב ממודל תכנות-לינארי של חקר ביצועים, או תכנון-על-פי-אילוצים). הרעיון הוא, להוסיף שדות רבים מתוך המידע של מחלקות סמוכות, ואז לסובב את הטבלא על ציר העמודות-שורות.
לדוגמא, נניח הנתונים הם של מכירות שבוע אחרון. למתארים המקוריים מוסיפים מאות שדות מתארים, כגון: נתוני שנים קודמות, פירוט המוצרים, פירוט נקודות מכירה, פירוט ספקים, מאפיני נקודות המכירה, פירוט מצבת עובדים, מאפיני עובדים, מאפינים פיננסיים כמו שיעור הריבית הפנימית, ועוד.
אחרי הוספת המתארים נוצרת טבלא רחבה מאד וקצרה; הופכים אותה כך שתהיה טבלא צרה וארוכה.
מטרת הניתוח מישתנה עכשיו, במקום השאלה הרגילה "איך השדות המתארים משפיעים על המכירות?", נוסח השאלה כעת הוא "איך המכירות מנצלות את המשאבים הנתונים?" .



אדית

users.actcom.co.il/~edit#GT

בברכה
אדית
עריכה אחרונה: 10 years 9 months ago  ע''י Edith Ohri.
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.230 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

אירועים קרובים

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning