ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: חוק GIGO הרבה פחות אימתני ממה שנהוג לחשוב

חוק GIGO הרבה פחות אימתני ממה שנהוג לחשוב 4 years 4 months ago #8352

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 352
  • קרמה: 0
ביג דטה מפר לא רק חוקים סטטיסטיים מכובדים כגון חוק המספרים הגדולים. הוא מפר גם את חוק גיגו - Garbage In Garbage Out, או כפי שהגדירו הפיזקאי הידוע הוקינס: "if you put lousy data in, you will get lousy predictions out".
הסיבה ש GIGO לא מתקים בביג דטה: קילקולי איכות הנתונים באים על תיקונם בדפוסי ההתנהגות הקבוצתיים. הקבוצות משלימות מידע שחסר ברשומות בודדות, מתקנות פרטים שגויים, ומאזנות את הרעשים. יתר על כן, אי-תקינות ורעש מהווים חלק חשוב במידע על אירועים (attributes) ולכן הכרחי לכלול אותם במדגם, ולא "לנקות" אותם. לאנחנו דוגמא, מחקר על הצלחתו של טיפול רפואי, צריך לכלול מטופלים בעלי רקע מורכב, שיטות טיפול שונות, וגם מקרי מוות שבהם הופסק הטיפול באמצע. אם לא כוללים את הפרטים האלה, עלולים להפסיד מידע דווקא על המקרים הקשים שהסתימו במוות, להטות את התוצאות לכיוון החיובי, ולהחמיץ את גילוי השפעתם של טיפולים לא סטנדרטיים.
בכלל, צריך קצת כבוד כלפי הנתונים :) ראשית הרי הם עובדות, שנית - השגיאות שבנתונים מלמדות הרבה, שלישית – כידוע, גם הנתונים שנראים כביכול תקינים מכילים שגיאות, ורביעית והכי חשוב – את המדגם אולי אפשר לנקות אך לא את המציאות שאליה חוזרים עם מסקנות הניתוח, ועדיף שאלה יהיו מסקנות מלאות שמתיחסות לכל המצבים, אלה שמתחת לפנס ואלה שבחושך.

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.186 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

אירועים קרובים

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning