הצטרפו לקבוצות שלנו לקבלת עדכונים מרוכזים פעם בשבוע:

ווטסאפ:
http://wa.dwh.co.il
טלגרם:
http://telegram.dwh.co.il

חוק GIGO הרבה פחות אימתני ממה שנהוג לחשוב

More
9 years 8 months ago #8352 by Edith Ohri
ביג דטה מפר לא רק חוקים סטטיסטיים מכובדים כגון חוק המספרים הגדולים. הוא מפר גם את חוק גיגו - Garbage In Garbage Out, או כפי שהגדירו הפיזקאי הידוע הוקינס: "if you put lousy data in, you will get lousy predictions out".
הסיבה ש GIGO לא מתקים בביג דטה: קילקולי איכות הנתונים באים על תיקונם בדפוסי ההתנהגות הקבוצתיים. הקבוצות משלימות מידע שחסר ברשומות בודדות, מתקנות פרטים שגויים, ומאזנות את הרעשים. יתר על כן, אי-תקינות ורעש מהווים חלק חשוב במידע על אירועים (attributes) ולכן הכרחי לכלול אותם במדגם, ולא "לנקות" אותם. לאנחנו דוגמא, מחקר על הצלחתו של טיפול רפואי, צריך לכלול מטופלים בעלי רקע מורכב, שיטות טיפול שונות, וגם מקרי מוות שבהם הופסק הטיפול באמצע. אם לא כוללים את הפרטים האלה, עלולים להפסיד מידע דווקא על המקרים הקשים שהסתימו במוות, להטות את התוצאות לכיוון החיובי, ולהחמיץ את גילוי השפעתם של טיפולים לא סטנדרטיים.
בכלל, צריך קצת כבוד כלפי הנתונים :) ראשית הרי הם עובדות, שנית - השגיאות שבנתונים מלמדות הרבה, שלישית – כידוע, גם הנתונים שנראים כביכול תקינים מכילים שגיאות, ורביעית והכי חשוב – את המדגם אולי אפשר לנקות אך לא את המציאות שאליה חוזרים עם מסקנות הניתוח, ועדיף שאלה יהיו מסקנות מלאות שמתיחסות לכל המצבים, אלה שמתחת לפנס ואלה שבחושך.


בברכה
אדית

Please התחברות to join the conversation.

Moderators: Edith Ohri
Time to create page: 0.263 seconds