ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: מדוע מתעלמים מהפיל שבחדר

מדוע מתעלמים מהפיל שבחדר 6 months 3 weeks ago #8510

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
מדוע מתעלמים מהפיל שבחדר?
זו שאלה שיכולה להביא את המתבונן לכדי יאוש. איך יכול להיות שהמומחים לא מתיחסים לדבר המונח לפניהם באופן כל כך ברור. האם הם בכלל מומחים? האם נפלנו למלכודת פתאים שבה עושי-שוק מסבירים דבר אחד ועושים דבר אחר?
ובכן, לכשל הגדול מסתבר יש, בין היתר, שני מנגנונים פרוזאים לגמרי. האחד הוא, שעובדות חזקות ובולטות כמו פיל בחדר, הן לא חדשה תקשורתית, ואין כביכול מה לחפש בהן דבר מעבר למה שכבר גלוי לעין כל. המנגנון השני, הוא המהומה המפחידה שמעורר פיל בחדר - מהומה שגורמת לנוכחים לברוח בפאניקה בלי לחשוב.

דיון זה הוא פתיח לסדרה על המשבר הכלכלי העולמי שאנחנו בתוכו, ושאלת החיזוי וגם היכולת האישית להתכונן ולפעול נכון ולפעמים נגד הזרם.
אם כריית נתונים יכולה להאיר מקומות חשוכים שאנחנו לא מכירים, מענין יהיה להשתמש בה להנחיה בימים אלה.


הערה: הדיון ממשיך במידה מסוימת את הדיון על "ה-BI של Lehman Brothers, Merrill Lynch, AIG" - הענקיות שנפלו בהפתעה במשבר 2008
www.dwh.co.il/forum/4-DataMining/2814-%D...,-merrill-lynch,-aig.

בברכה
אדית
עריכה אחרונה: 2 months 1 week ago  ע''י Edith Ohri. סיבה: ניסוח
הנהלת האתר ביטלה גישת כתיבה ציבורית.

מדוע מתעלמים מהפיל שבחדר 6 months 1 week ago #8513

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
ניתוח הנתונים אדיש למשתנים שהם קבועים בכל הרשומות (אינווריאנטים).
משתנים קבועים נחשבים לנתוני רקע בלתי מתערבים, היות ובתור קבועים אינם יכולים להסביר שינויים במערכת.
לדוגמא: במחקר התאידות מיים ממאגר שבוצע בעונה שבה הטמפרטורה כמעט ללא שינוי, הטמפרטורה האחידה לא תהיה יכולה להסביר את השינויים בכמות המיים שמתאידת.

במשתנים שהם דומיננטיים (כמו "פיל בחדר") קשה להפיק מסקנות לגבי השפעתם על המטרה, מאחר והשפעתם נרחבת, וכמעט אין תחומים שנקיים מהם ויוכלו לשמש להשוואה.

במודל המקובל, ייתכן שמישהו יזהיר על פיל בחדר, וישיבו לו בספקנות, שיש הסברים אחרים או שמומחים סבורים שזה בכלל תופעה מחזורית ואין מה לעשות נגדה.

*מדע הנתונים החדש נבדל מסטטיסטיקה במטרה שלו שהיא ליצר השערות. ראה עקרונות מדע הנתונים סעיף 6. מטרה זו משחררת משחררת מחובת הנחות המודל הסטטיסטי ומאפשרת בכך להפיק מסקנות גם ממשתנים דומיננטים.

© כל הזכויות שמורות Edith Ohri

בברכה
אדית
עריכה אחרונה: 2 months 1 week ago  ע''י Edith Ohri. סיבה: ניסוח
הנהלת האתר ביטלה גישת כתיבה ציבורית.

מדוע מתעלמים מהפיל שבחדר 2 months 1 week ago #8518

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
המשך –

מדוע לא נאמין לתיאוריה שהיא תקינה מבחינה סטטיסטית, שטענת שהגשם מכבה את מדורת השמש ומקשה על האלים להדליקה מחדש בגלל הקרשים הרטובים ולכן קר בחורף?
- לא נאמין לתיאוריה כזאת כי יש לנו הסבר כללי יותר, כזה שאינו תלוי בירידת גשם, וחוזה בדיוק רב לא רק קור וחום אלא מזג אויר בכלל.

הטענה היא שאנו רגילים לפסול תוצאות שלא מתישבות עם הנסיון וההגיון, אפילו שעברו מבחן סטטיסטי. יתרה מזאת - יודעים מראש לא לצפות להצלחה בחזוי של חריגים, או של תופעות חדשות או נדירות, או כאלה שמסיבה טכנית לא צברו מספיק נתונים.
כזה הוא המקרה של התחממות כדור הארץ, שהוא תהליך באמצע התרחשות ולכן דל בנתונים וקשה להוכחה סטטיסטית. הבעיה, שהגולם קם על יוצרו. דורות של בני אדם שחונכו לסמוך על סטטיסטיקה, לא יודעים מה לעשות עכשיו באין נתונים. חלקם מכחישים את התופעות, חלקם מכחישים את המדע, חלקם מקבלים תיאוריות קונספירציה וכו'. באין הוכחה סטטיסטית כאילו הכל בא בחשבון.

מדובר בכשל קבוע במודל הסטטיסטי ורעיון "האינדוקציה" שבבסיסו, לפיו הופעה חוזרת ונשנית של צירופי משתנים מעידה על קשר מהותי ביניהם.
צריך לתקן את הכשל. דרוש מנגנון הוכחה שעומד על רגליים חזקות יותר, של לוגיקה!

מדע הנתונים החדש מציג פתרון לוגי. הצעד הראשון שלו הוא הפרדת תערובת הנתונים לקבוצות דמיון (ראה עקרון 4). הקבוצות מספקות את הרכיבים הדרושים לבניית השערות ולמבחן הלוגי שלהן.
לסטטיסטיקה נשמר מקום בפתרון החדש, רק בקבוצות שעברו את המבחן הלוגי ומקימות את התנאים הסטטיסטיים למדגם אקראי, מפוזר שווה (IDD), וגדול מספיק שהמשתנים שלו בלתי תלויים.

בברכה
אדית
עריכה אחרונה: 2 months 6 days ago  ע''י Edith Ohri. סיבה: ניסוח
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.199 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning