ביג דטה מציג למנתח הנתונים אתגר שונה לגמרי ממה שנהוג לחשוב. זה לא כמות הנתונים הגדולה בפני עצמה, אלא הצורך לנתח תערובת דינאמית של נתונים לא מפוקחים ממקורות שונים. בתנאים כאלה זה לא מעשי לשפר את הנתונים ולא ניתן להכין מדגם מיצג. אפילו חוק המספרים הגדולים לא מסיע בביג דטה, בכמויות גדולות של נתונים מהירים ומגוונים אין לצפות להתכנסות משמעותית של הנתונים לשום תוצאה שתחדש משהו. מכאן מתחילה הבעיה של כל הכלים המקובלים; גם מי שמתגבר על הכמות הגדולה, עדיין צריך להתמודד עם מגוון גדול מאד של מצבים לא מוגדרים, ולכך אין בהם פתרון.
מנתח הנתונים שפועל לפי הספר, ומנקה את הנתונים, נשאר בסוף עם מעט מדי קלט שלא מוביל למסקנות. לדוגמא, בניתוח קניות מחנות ברשת, צריך לנקות תקופות קודמות של תכנות שירות אחרות, להוריד את תקופת ההסתגלות לתכנה הנוכחית, לסלק את החריגים, מבצעים מיוחדים, כניסות שגויות, תהליכי קנייה קטועים, תקלות עקב קשיי נגישות, תקלות בתכנות תשתית, וכו'. מה שנשאר ביד לאחר כל הניקוי, הוא מועט מגוון ולא מיצג. אפילו אם יוצאת מסקנה ממדגם לא אותנטי כזה שאחרי ניקוי, ספק אם ניתן להתבסס עליה. סביבה אינטגרטיבית כמו של ה-IT היא דינאמית. עד שמישמים את המסקנות, בינתיים הכל זז.
אדית
Home of GT data mining
בברכה
אדית
עריכה אחרונה: 6 years 1 month ago  ע''י Edith Ohri. סיבה: תיקון