Forum
  • Register
תנו לנו לייק וקבלו עדכונים ישירות לפיד
ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: הסיבה לכשל ביג דטה אנליטיקס - unsupervised data

הסיבה לכשל ביג דטה אנליטיקס - unsupervised data 11 months 23 hours ago #8382

  • Edith Ohri
  • Edith Ohri's Avatar
  • מנותק
  • Moderator
  • הודעות: 295
  • תודות שהתקבלו 1
  • קרמה: 0
בניתוח ביג דטה ישנה הנחה סמוייה, שלא זוכה למספיק תשומת לב, בדבר היותם של הנתונים מפוקחים - supervised data. במאמר מוסגר - ההנחה של נתונים מפוקחים הינה חיונית להבטחת איכות הנתונים, ותכונות חשובות כגון ייצוג, אחידות הגדרות, אורתוגונליות, ועוד. זה המקום להעיר, שביג דטה שונה מהנתונים של פעם (שאפשרו לקים את ההנחה הזאת), בכך שהוא לא נאסף בהכרח למטרת החוקרים אלא נוצר משימושים שונים של מכשירים דיגיטליים, ומזרים כמויות נתונים גדולות ומגוונות שאינם ניתנות לשליטה. לכן קל להבין, מדוע ההנחה של נתונים מפוקחים אינה מעשית בביג דטה. הענין הוא, שאי התקימות הנחת יסוד הינה הרסנית למודל החישוב ולא ניתן לתקן אותו אפילו ע"י מיטב העזרים, וויזואליזציה, מערכות מתקדמות וכו', בשורה התחתונה, המבחן הסטטיסטי שלו מאבד את האחיזה במציאות וגורם לשגיאות רבות מסוגים אלפא ביתא וגמא (על כך אולי אכתוב בנפרד).
יש להניח שחלק מהקוראים לא מסכימים עם קביעה כה נחרצת, של כשל גורף בניתוח ביג דטה במודל הסטטיסטי. לאלה ביכולתי רק לענות, שלולא זה היה כשל אמיתי ובסיסי, תיאורטי ומעשי גם יחד, היה אפשר בקלות לעקוף את הבעיה, ע"י בחירת מדגם, מתוך שפע הנתונים של ביג דטה, מדגם שכן מתאים להנחת הנתונים המפוקחים. עובדה שלא עושים זאת...
המסקנה ההגיונית (היחידה שהכרתי עד כה) לפתרון ביג דטה, שבמהותו מורכב מנתונים לא מפוקחים, היא לשחרר אותו מהצורך בהנחה, ולבנות אותו למציאות של נתונים לא מפוקחים, שמערבבים תופעות לא מוגדרות, רעשים, וכיו"ב, והפתרון הזה יהיה לא סטטיסטי.


Edith
- Home of GT data mining

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
המשתמש(ים) הבא(ים) אומרים לך תודה: Daniel Huli

הסיבה לכשל הססטטיסטי בביג דטה אנליטיקס 7 months 6 days ago #8403

  • Edith Ohri
  • Edith Ohri's Avatar
  • מנותק
  • Moderator
  • הודעות: 295
  • תודות שהתקבלו 1
  • קרמה: 0
למה אני בטוחה שאין לסטטיסטיקה שום פתרון לביג דטה?
הנימוק העקרי הוא, שסטטיסטיקה נועדה מלכתחילה לשימוש בהשערות ולא ליצירתן. ישנו עוד נימוק, שהוא עקיף ונסיבתי, אבל מצד שני - פשוט ומעשי, שפטו בעצמכם, להלן:
אילו לסטטיסטיקה היה פתרון, היה אפשר לישם אותו בנקל באמצעות פרוצדורה פשוטה, שהופכת את הביג-דטה לסט נתונים תקין שניתן לטיפול רגיל.
הפרוצדורה היא בת שלב אחד בלבד - בוחרים מתוך הביג דטה מדגם סטטיסטי. זה הכל. יתר הפתרון יתבצע כרגיל. אחרי בחירת מדגם תקני אפשר להפעיל פתרונות מבוססי סטטיסטיקה כמאז ומתמיד, ולהמשיך לבדוק בהדרגה את יתר הנתונים עד למיצויים, כאשר בכל בדיקה מרחיבים את הידע אודות דפוסי התנהגות וקשרים פנימיים. המודל הזה קל ליישום, ואם היה נכון, חוקרים רבים ודאי היו מאמצים אותו בשתי ידיים.
מדוע, אם כך, לא שומעים על הפתרון הזה?
– כי הוא לא עובד.
אז מה באמת גורם לכשל* בניתוח הנתונים (שהרי כאמור, הסיבה לא טמונה במאפיני ביג דטה**)?

לפעמים נדמה שניתן לעקוף את בעית הסטטיסטיקה ע"י בחינה מהירה מאד במחשב של הרבה השערות, או הפעלת שיטה רקורסיבית, שבה מוצאים את גורמי שארית הסטיות, שוב ושוב עד שלא נשארות סטיות. שיטות אלה משפרות את החיזוי, אך לטווח קצר בלבד, ואינן תומכות בגילוי דפוסים סמויים או קבלת תבנות. גרוע לא פחות הוא המחיר שלהן. השיטות האלה צורכות משאבים כבדים לעיבוד ולעדכון שוטף (כדי להאריך בעוד קצת את הטווח הקצר). בנוסף לכל, החיזוי בשיטות אלה מותנה בהמשכיות התופעות – בזמני שינוי או משבר, דווקא כשצריך אותן לקבלת החלטות קריטית, הן טועות בגדול (אז מה הן שוות?).
אפילו Watson המפורסם של IBM נופל בפח הזה, אמנם הוא מנצל היטב את חכמת ההמונים של ביג דטה, ומסוגל לאחזר במהירות מידע רלוונטי מתוך אירועי עבר רבים מאד, אך אינו מיצר ידע חדש, שזה המטרה העליונה הנכספת בניתוח ביג דטה.

הכשל בניתוח סטטיסטי של ביג דטה, עלול להיווצר גם בנתונים מעטים, אם לחוקרים אין השערות מוקדמות לגביהם (כפי שמוכר היטב למנהלי איכות). הגורם לכשל ניתוח ביג דטה נעוץ לפיכך לא בכמויות הנתונים אלא ביכולת ליצר השערות שיסבירו ויחזו אירועים של תופעה נבדקת. המפתח להצלחה בניתוח נמצא בייצור השערות, ולא בעבודה הסיזיפית המושקעת היום בהאחדה וניקוי של נתונים.

_______
* הגדרת כשל בניתוח נתונים: אירועים בתופעה הנחקרת שצצים בהפתעה גמורה.
** ארבעת ה-V שמאפינים ביג דטה – Volume, Velocity, Variability and Veracity.

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.309 שניות

Sap

Oracle

Informatica

SAS

Microstrategy

IBM

Microsoft

Qlikview

Teradata

Webfocus

קליק אחד ואתם מחוברים. מהיר .קל .מאובטח.

מעניין? שתפו דף זה באמצעות הטלפון הנייד

DWH :: דיון: הסיבה לכשל ביג דטה אנליטיקס - unsupervised data (1/1) - QR Code Friendly
Powered by QR Code Friendly

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

הדף שלנו בפייסבוק

התחברות

כניסות למאמרים
6656188