bi analyst

ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: סטטיסטיקה לצורך כריית נתונים?

סטטיסטיקה לצורך כריית נתונים? 12 years 9 months ago #2906

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 354
  • קרמה: 0
קיבלתי עוד הודעה על כנס של סטטיסטיקה ל data mining, ושוב ברצוני להדגיש שסטטיסטיקה זה בפרוש לא כריית נתונים. רבים מערבבים את התחומים האלה, זו טעות נפוצה שגורמת ללא מעט אכזבות. אלה הם שני תחומים זרים ומנוגדים כבר ביעוד שלהם: סטטיסטיקה מיועדת לבדיקת השערות, ואילו כריית נתונים נועד ליצר השערות באותם מקרים שבהם עקב "שטפון המידע" או מסיבות אחרות, לא ניתן להשתמש בכלים סטטיסטיים.

הנה מספר סימני הכר והבדלים:
  • בכריית נתונים מגלים קשרים חדשים. בסטטיסטיקה מטפלים רק בקשרים ידועים מראש, שניתן לבטא באופן כמותי.
  • ב DM מנצלים נתונים שנצברו במערכות שונות; בסטטיסטיקה מכינים מדגם מיצג (במצבים מורכבים זו משימה כמעט בלתי אפשרית).
  • ב DM מבחינים בשונות שמיחדת פלחים באוכלוסיה; בסטטיסטיקה מנתחים את לכל האוכלוסייה ביחד...


לסטטיסטיקה יש תפקידים רבים וחשובים בניהול ידע, אך לא במה שקרוי Analytics, בניתוח מצבים שלא ידוע עליהם מספיק בשביל להקים השערות.
עקב הלחץ להביא פתרונות, יש הסתערות על הנושא. חלק מהפתרונות מנסים מטבע הדברים למצות את השיטה הקודמת, חלק משתמשים בטכנולוגיות מחשוב מענינות, ולמי שמחפש פתרון יש חיים לא קלים בבחירה ביניהם. בשביל זה, שווה לנסות כאן לגבש מספר כללים, ולישר קצת את הציפיות.

הקו המנחה הברור ביותר הוא, להבדיל בין כלים סטטיסטיים וכאלה של כריית נתונים. הראשונים מתאימים לבדוק השערות, והשניים לחיפוש קשרים לא ידועים.


- אדית

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: סטטיסטיקה לצורך כריית נתונים? 12 years 6 months ago #3458

  • MatatovNissim
  • MatatovNissim's Avatar
  • Offline
  • Fresh Boarder
  • הודעות: 10
  • קרמה: 0
מסכים עם כל מילה . בואי אני אתן לך טיפ בויכוח עם סטאטיסטיקאים שטוענים ש DM זה סטאטיסטיקה. היה לי ויקוח כזה עם סטאטיסטיקאית עם תוארים מכובדים. אמרתי לה שנניח רשתות נירוניות - זה לא סטאטיסטיקה וכל אלגוריתמים מגיעים מתחום AI. ברור , שהיא שמעה על זה בפעם הראשונה ונורא ריתק אותה הסבר איך זה עובד.

ייחודיות של DM בחיבור של כל מני תחומים למטרה אחת ואף תחום "סמוך" לא יכול להגיד שהוא כולל DM. זה אחד ההסברים שראיתי בספרות.
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: סטטיסטיקה לצורך כריית נתונים? 12 years 6 months ago #3460

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 354
  • קרמה: 0
ניסים, תודה על התוספת. טוב לראות דיעה בכיוון החדש, שהוא קשה כי אין בו פתרונות מוצקים, ולכן רבים דוחים אותו, למרות שהשתכנעו שהישן לא עובד.

אם להמשיך את הקו שלך, אפשר לראות אותו על ציר הזמן. כללית, תיאוריות חדשות נוצרות כדי לפתור מה שלא נפתר בקודמות. לכן, תיאוריה ישנה לא יכולה לכלול את החדשה. ועובדה היא ש- DM בא אחרי הסטטיסטיקה.
אך זו לא הוכחה ניצחת. לפעמים צומחים עשבים שוטים גם בתיאוריה -  אפנה חולפת, ספין, הכתבת פתרון ע"י חברה חזקה, וכו'. מכל מקום, עשבים כאלה קמלים ואחרי מספר שנים לא נשאר מהם כלום. עובדה היא ש GT קים עשרות שנים, למיטב זכרוני 21 שנה, ובצורה ממשית כ-15 שנה.  אם לשפוט לפי הזמן הרב שהוא בכותרות, אי אפשר לנפנף אותו בתור תרגיל שיווק, והוא משקף צורך אמיתי שמחפש פתרון.

בדבר אחד, עמדתי קצת קיצונית משלך: להבנתי גם רשתות נוירוניות שיכות לפרדיגמה הסטטיסטית. זאת, כי מוצאים בהן את דפוסי ההתנהגות ומאשרים או דוחים את הדפוסים, בעזרת סטטיסטיקה.
אחת האינדיקציות לכך היא בשאלה, האם אפשר לאתר תופעה מעוטת אירועים, או חריגה, באמצעות רשת ניוטרונית? - אם התשובה שלילית, זה ככל הנראה פתרון סטטיסטי.

כ"כ בעיני, AI מגלם חוקי מומחה בלבד. ז"א הוא מוגבל למה שבן אדם יכול להעלות בדעתו, שזה לא יותר מקומבינציה של 5 מישתנים.
במציאות מישתנה יש הרבה יותר מישתנים, ונסיון העבר לא תמיד ניתן ליישום כמו שהוא. 
בקיצור, צריך משהו אחר.
שוב, הדבר שאני מציעה הוא פתרון GT, שאינו מתבסס על סטטיסטיקה. (אין עליו חומר לימודי, אך ניתן להראות דוגמאות שבוצעו איתו. )


אדית

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.208 שניות

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

מעניין? שתפו דף זה באמצעות הטלפון הנייד

הדף שלנו בפייסבוק

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning