חוק מס' 18 במדע הנתונים החדש – הפישוט הכרחי בביג דטה.
פתרון חיב להיות רזה, כדי לאפשר פיתוח קוהורנטי, במיוחד בביג דטה שבאופיו הוא בלתי אחיד ואינו כפוף לפיקוח מרכזי (unsupervised). .
גם שילוב הפתרון בתפעול מחיב פתרון רזה.
מהו פתרון "רזה"?
מכיל מעט משתנים.
לפחות אחד מהמשתנים קשור להסבר סיבה-תוצאה.
מאפשר ניווט נוח בנתונים.
ניתן לעדכן אותו בזמן אמיתי, לפני שהמצב ישתנה.
השאלה העקרונית היא, איך לארגן מציאות כאוטית למסגרת עקבית של פתרון קבוע מראש? התשובה טמונה באבחון דפוסי התנהגות היררכיים בנתונים.
הכרת דפוסי ההתנהגות עוזרת להתמקד בנתונים ובקשרים ספציפיים, ולהעלות השערות לגביהם. הערה: מדע הנתונים החדש ממומש כרגע רק בפתרון GT data mining.
הגדרה - דפוסי התנהגות:
הדפוסים הם קבוצות נתונים בעלות מכנה משותף רחב, המבדיל אותן מקבוצות אחרות. הקבוצות מורישות בד"כ (לא בהכרח) את תכונותיהן לתת-קבוצות.
בברכה
אדית
Last edit: 3 years 8 months ago by Edith Ohri. Reason: ניסוח
Occam's razor
מתוך ויקיפידיה:
הכלל שנקרא תערו של אוקאם, או חוק אוקאם: כאשר קיימים הסברים שונים לאותה תופעה יש לבחור בהסבר הפשוט ביותר, הכולל את המספר המועט ביותר של מושגים וחוקים.
מטרת הכלל היא להדריך מדענים בנושא פיתוח היפותזות ומודלים, וכן לסייע להם בבחירה בין היפותזות שונות
.
מענין לציין שכשש מאות שנה אחרי הנזיר הפרנציסקני האנגלי אוקאם בן המאה ה-14, צידד הפילוסוף-של-המדע קרל פופר בטענתו, שיש לבחור בתאוריות הפשוטות יותר, אך לא מסיבה מעשית, אסתטית או פרגמטית (כפי שנימקו אותו עד אז), אלא בגלל הטענה הבסיסית שתאוריות פשוטות קלות יותר להפרכה!
בהמשך לדיון כאן, הוספתי עדכון לערך "
תערו של אוקאם
" בויקיפידה, בקטע שאחרי התיחסותו של קרל פופר לצורך בהשערות פשוטות למען תהליך ההפרכה. להלן התוספת:
הצדקת הכלל תערו-של-אוקאם לפי מדע הנתונים
"במאה ה-21 עם התהוות מדע הנתונים, נוצרה הצדקה נוספת לכלל התער של אוקאם, והיא הצורך לצמצם את הסיכון ל- over-fitting (התאמת-יתר שמתאפינת ע"י מיתאם סטטיסטי גבוה למדגם הלימוד יחד עם מיתאם נמוך למדגם המבחן, כלומר כשל בחיזוי שבא לאמת את ההשערה).
מתמטית, ככל שמוסיפים ישויות או גורמים מסבירים, כך עולה הסיכון להתאמת-יתר, ובמצב הקיצוני שבו מספר הישוות שווה-גדול למספר תצפיות הלימוד, ניתן להוכיח כל דבר בלי קשר לאמיתותו.
מדע הנתונים החדש
מגביל בעקרון את השימוש בישויות מסבירות רק לכאלה הניתנות לביסוס על סמך נתונים חופשיים (unsupervised) ומידע-העל (meta data) אודותם. "
תוספת לפירוש של תער: "השימוש במילה "תער" הוא גם במובן של להב סכין שחותך לכאן או לכאן, ומשמעותו שהכלל של אוקאם הינו "חד כתער" (Razor sharp)."
הערה:
אם יש קושי להגיב בפורום, אפשר לשלוח אלי edith שטרודל datalert.co.il
בברכה
אדית
Last edit: 3 years 10 months ago by Edith Ohri. Reason: במקום הפניה - ציטוט
פתרון מסובך נגרם בד"כ מזה, שבמקום לחפש סיבות שורש, מסתמכים על הידע הקים, ועליו מוסיפים "טלאים" של השלמות שיטפלו בכביכול החריגים. אבל, בביג דטה יש הרבה חריגים. כידוע הוא מטיבו בלתי-מפוקח, ולכן לא יעזרו המאמצים לסדר ולנקות אותו, בהמשך הוא תמיד יפתיע עם חריגים שהטלאים לא מכסים.
הפתרונות המסובכים מוּעדים לטעויות, הם קשים ליישום וגם עולים ביוקר. השאלה היא, איך לפשט אותם?
הפישוט מושג במדע הנתונים החדש, קודם כל, ע"י איתור סיבות שורש, ובמקום שני – בניית היררכיה של גורמים, שבראשם גורמי-מפתח ותחתיהם שילובי משתנים ו"טריגרים". השילובים מאפשרים הגדרת תופעות מורכבות וחריגות.
פרופסור סר ג'ון ברבידג' מאוניברסיטת קרנפילד באנגליה, שזכיתי להכיר בביקוריו בארץ, אשר הקים דורות של מנתחי נתונים ברצפת הייצור (זה קדם לכריית נתונים הכללית המוכרת לנו היום), ראה כבר לפני 30 שנה את מכשול הסיבוכיות של נתוני שטח, וסיכם זאת כך בהרצאתו: אם הבעיה מסתבכת והולכת וגדלה יותר ויותר, אין ברירה, צריך לעשות את זה פשוט! בהפסקה הוא נטל מפית שולחן וצייר עליה אטום בסיסי עם אלקטרונים סביבו, ואחר כך גרעין DNA בתוך תא ביולוגי, ואחרי כן השמש וסביבה כוכבי לכת, ואמר לי – הכל אותו מודל, לא משנה כמה זה גדול.