ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: קידוד וסיווג

קידוד וסיווג 12 years 8 months ago #956

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 340
  • קרמה: 0
כמו זה שלא ידע שהוא כותב פרוזה... רבים משתמשים בטכניקה של קידוד וסיווג - Coding & Classification, C&C בלי לדעת שזה שמה. זוהי אחת הטכניקות העתיקות והכי טבעיות לשימוש.
היא בנוייה על הרעיון של חיתוך הנתונים על פי מישתנים מוגדרים. לדוגמא, חיתוך של נתוני מכירות לפי תאריך, גובה הקנייה, אמצעי תשלום, שמות מוצרים, וכד'.

החסרון של שיטת C&C הוא ברגישות הגבוהה שלה לאיכות הנתונים. אם נניח יש שדה שגוי, הרשומה שלו תעוף מהחיפוש. חסרון נוסף הוא התלות שלה בהגדרות הקבועות של השדות. לדוגמא, מכירות מוצרים במבצע שקבלו קוד זמני לצורך המבצע, עלולים להישמט מדוח המכירות. אפשר לפתור את הבעיה הזאת ע"י קידוד מסודר, אבל ערפל נתונים מסוים תמיד קים בכל ארגון, כולל ארגוני התקינה בכבודם ובעצמם  :-X  ככה זה, העולם הוא כבר לא מה שהיה פעם - קטן, היררכי ופשוט לשליטה. בעולם של היום, עדיין מקבלים ב-C&C דוחות יפים, כמו דוח המכירות דלעיל שמתיחס רק לחלק מהנתונים, אבל השד יודע מה הם אומרים. 

לפני משהו כמו 15 שנים הכניסו לשימוש את המושג fuzzy logics, כדי לתת "גמישות" לערכי השדות, ולהתגבר על הרעש בנתונים. אבל פאזי-לוג'יקס לא ממש סיפק את הסחורה, למיטב ידיעתי, אם לשפוט לפי מיעוט היישומים שלו.

נזכרתי בכל זה, כי עצי החלטות, SQL, ומנגנוני השאילתות כולם, בנויים למעשה על הרעיון של C&C, של סיווג הנתונים על פי ערכים דטרמינסטיים. החולשה בפתרון מסוג זה היא הרגישות לרעש בנתונים, והיא עולה ביוקר. הארגונים משקיעים בפרויקטים אדירים, כדי לספק את דרישות הקדם לנתונים איכותיים וחד-משמעיים שאין בהם רעש. לא עדיף בהרבה להגמיש את ההגדרות ולהתפטר מדרישות קדם כאלה?




בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.180 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

אירועים קרובים

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning