ביג דטה מפר לא רק חוקים סטטיסטיים מכובדים כגון חוק המספרים הגדולים. הוא מפר גם את חוק גיגו - Garbage In Garbage Out, או כפי שהגדירו הפיזקאי הידוע הוקינס: "if you put lousy data in, you will get lousy predictions out".
הסיבה ש GIGO לא מתקים בביג דטה: קילקולי איכות הנתונים באים על תיקונם בדפוסי ההתנהגות הקבוצתיים. הקבוצות משלימות מידע שחסר ברשומות בודדות, מתקנות פרטים שגויים, ומאזנות את הרעשים. יתר על כן, אי-תקינות ורעש מהווים חלק חשוב במידע על אירועים (attributes) ולכן הכרחי לכלול אותם במדגם, ולא "לנקות" אותם. לאנחנו דוגמא, מחקר על הצלחתו של טיפול רפואי, צריך לכלול מטופלים בעלי רקע מורכב, שיטות טיפול שונות, וגם מקרי מוות שבהם הופסק הטיפול באמצע. אם לא כוללים את הפרטים האלה, עלולים להפסיד מידע דווקא על המקרים הקשים שהסתימו במוות, להטות את התוצאות לכיוון החיובי, ולהחמיץ את גילוי השפעתם של טיפולים לא סטנדרטיים.
בכלל, צריך קצת כבוד כלפי הנתונים :) ראשית הרי הם עובדות, שנית - השגיאות שבנתונים מלמדות הרבה, שלישית – כידוע, גם הנתונים שנראים כביכול תקינים מכילים שגיאות, ורביעית והכי חשוב – את המדגם אולי אפשר לנקות אך לא את המציאות שאליה חוזרים עם מסקנות הניתוח, ועדיף שאלה יהיו מסקנות מלאות שמתיחסות לכל המצבים, אלה שמתחת לפנס ואלה שבחושך.