התחברות

התחברות
x
או
x
הרשמה
x

או

קליק אחד ואתם מחוברים. מהיר .קל .מאובטח.

חדש בפורומים

מעניין? שתפו דף זה באמצעות הטלפון הנייד

אירועים קרובים

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

הדף שלנו בפייסבוק

ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: א-ב של כריית נתונים מול סטטיסטיקה

א-ב של כריית נתונים מול סטטיסטיקה 7 years 11 months ago #6835

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 315
  • קרמה: 0
מענה לשאלה הפרובוקטיבית של וינסנט גרנדוויל "ההבדל בין חישובים סטטיסטיים לכריית נתונים?" ב- LinkedIn ובאתר שלו Analyticbridge

כריית נתונים הוא כל מה שסטטיסטיקה לא. התחום החדש הומצא בדיוק למטרה זו - כדי למלא את החסר במודל הסטטיסטי. ד"א, מלכתחילה היו לגבי המודל הסטטיסטי השגות רציניות של הפילוסוף הידוע קארל פופר (לא התעמקתי בטח יש נוספים)

מספר אמיתות בחזקת עובדות:

1. כריית נתונים היא שלב לפני סטטיסטיקה, השלב של ייצור השערות.

2. הבסיס של כריית נתונים זה אלגוריתמים, בעוד בסטטיסטיקה זה נוסחאות מתמטיות.

3. כריית נתונים נועדה לחקור נתונים מכל מקור; סטטיסטיקה מוגבלת לנתונים מתוכננים בלבד.

4. התפקיד של כריית נתונים הוא ליצר ידע, סטט' דורשת שיביאו אותו מבחוץ.

5. כריית נתונים יכולה להסתדר גם בלי שיגדירו לה מטרה מראש! סטטיסטיקה מחיבת הגדרת פונקצית מטרה אחרת לא תעבוד.

6. אותו דבר לגבי הגדרת קשרים בין מישתנים: כריית נתונים לא מחיבת לדעת מראש מה הקשרים, בסטטיסטיקה הכרחי, שיוגדר אם יש קשר - מהו.

7. לכריית נתונים אין יומרה למצוא את הקשרים הטובים ביותר, אלא רק קשרים טובים וסבירים; סטטיסטיקה טוענת לפתרון אופטימלי.

8. כריית נתונים יודעת לטפל בסיבוכיות, מידע לא שלם, מצבים דינאמיים, וקלט מעורב; סטטיסטיקה מוגבלת בכל אלה.

9. מודלים חזקים לכריית נתונים כמו GT data mining יודעים לפענח קורלציות נדירות (כמו חריגים ומוטציות); סטטיסטיקה היא עיוורת מהגדרתה לתופעות נדירות (אלא אם כן החוקר הגדיר אותן בדיוק מראש).

...לכן המציאו את כריית נתונים.
הגיע הזמן להכיר במגבלות הסטטיסטיקה ולהפסיק עם השאלה האנכרוניסטית הזאת. סטטיסטיקה היתה טובה לזמנים שלפני המחשב, כשלא היה צורך לנצל מאגרי נתונים, הרבה לפני עידן טכנולוגיות המידע...


אדית

בברכה
אדית
עריכה אחרונה: 7 years 11 months ago  ע''י Edith Ohri.
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.428 שניות

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning