הכתבה שמתחת לכותרת מתארת את גלגולי מדע הנתונים דרך שמות מתחלפים, בחיפוש אחרי מודל מתאים. הערה: לדעתי המודל המתאים הוא פשוט קבוצות. ראה כאן בפורום "מדע הנתונים החדש" או ב
New Data Science
.
Summary: A little history lesson about all the different names by which the field of data science has been called, and why, whatever you call it, it’s all the same thing.
למי שאין לו זמן לתיאוריות, ההבדל בין ML AI ופתרונות מדע-הנתונים הישן והחדש, מתרכזים בדבר אחד - איתור השערות (היפותזות) מועילות. פתרון נכון יחפש את הגורמים האפקטיביים, ולא יגדיר אותם מראש. כל פתרון שכן מגדיר גורמים כאלה, בא בחשבון ליישום רק בשלב השני, לאחר זיהוי הגורמים, כשמתבקשים לדיק את הגדרת המשתנים והקשרים ביניהם.
למה יש כשל ובלבול מושגים?
- בעבר הנתונים נאספו בצורה מתוכננת ומבוקרת, כך שההגדרות היו ידועות מראש. בימינו, כמעט שאין "מותרות" של ידיעה מראש וברוב המקרים (ובעיקר בביג דטה), לא יודעים כלום בהתחלה. מניחים לפנינו הר ענק של נתונים, ושואלים אותנו מה זה אומר! השאלה מציבה בעיה לוגית חסרת מוצא - לך תמצא תשובה לאין-שאלה!!! בעיני פילוסופים של המדע, דרישה כזאת תחשב לאבסורד גמור, אבל במציאות זה בדיוק מה שמנתחי ביג דטה מתבקשים לספק. אגב, אם מישהו כן ימצא לאבסורד החביב דלעיל פתרון לוגי, אשמח מאד לדעת. edith@datalert.co.il. בינתיים, הפתרון היחיד שנותן מענה לניתוח נתונים ללא הגדרת מטרה, כתוב כאן בפורום כריית-מידע של DWH, ובפרסומים של פרויקט "new data science" או GT.
בברכה
אדית
Last edit: 4 years 11 months ago by Edith Ohri. Reason: ציטוט קטע לא נכון בטעות
התפיסה המקובלת נשענת על הנחות שמתאימות לסביבה מבוקרת בלבד, ולמקרים שבהם יודעים מה התנהגות האוביקטים. במקרה הכללי של לימוד או במקרים שאינם מבוקרים (שהם רוב מקרי ביג דטה) התפיסה המקובלת שגוייה. הכשל של כריית ביג דטה הוא גם סיפור הכשל של לימוד-מכונה. הנושא הועלה לפני למעלה משלוש שנים, ב- 30-09-2016, כאן בפורום כריית-מידע של DWH בדיון "MACHINE LEARNING רודף אחרי הזנב" #8347