התחברות

התחברות
x
או
x
הרשמה
x

או

קליק אחד ואתם מחוברים. מהיר .קל .מאובטח.

מעניין? שתפו דף זה באמצעות הטלפון הנייד

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

הדף שלנו בפייסבוק

ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: Overfit - מתמקדים בהתאמת-יתר

Overfit - מתמקדים בהתאמת-יתר 8 years 6 months ago #6736

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 322
  • קרמה: 0
Overfit - התאמת יתר, היא הקללה של כריית הנתונים האוטומטית.
מקור הקללה הוא בגורו הראשון שאמר שאם נבצע אינסוף נסיונות לקלוע למטרה, אמנם נקלע.



יש ברעיון הנ"ל משהו מפתה, צריך להודות, אפילו מבחינה מתמטית: כאשר מרחב הפתרון קטן יותר ממספר הנסיונות, הרי שהם מכסים את כל האפשרויות ובתוכן האפשרות הנכונה. אז מה לא בסדר כאן?
- הכל לא בסדר.

ראשית כל, מרחב הפתרון המיוצג ע"י סט נתונים, הוא חלקי למציאות.
שנית, במציאות קימים גורמים סמויים שלא נלקחו בחשבון ואינם מוגדרים כלל.
לכן, לא ניתן להתיחס לכריית נתונים כלניתוח מספר סופי של אפשרויות או של מישתנים. אף פעם!

אבל את זה אי אפשר להסביר לאנליסט שבידיו מערכת עם כוח מיחשוב אימתני ובאפו ריח פסגות משכר. לכן מוצאים כל כך הרבה אנליסטים שעשו את הדרך של מיצוי כל האפשרויות, הגיעו לתוצאה מדויקת כביכול. רק מה, פתאום בעיה, כושר הניבוי של הנוסחאות שהפיקו בעמל וכסף רבים, לא עומד במבחן הניסוי.

אז מה נשאר לעשות, איך לצאת בכבוד מכשלון במבחן הניסוי? פשוט, ממציאים שם של בעיה חדשה, מדעית כאילו, סוגייה תיאורטית מהספרים.
קחו למשל, דוגמא יוצאת מהכלל, התאמת יתר.
מצלצל ממש טוב. אבל אגיד לכם מה מסתתר מתחתיו... מתחת למונח המצוחצח תמצאו הרבה אמונה בכח, שחצנות, וחוסר הבנה, שמאפשרים לקבל את הרעיון, שאם רק נאפשר למחשב ללהג מספיק זמן, הוא יצליח לחבר יצירה של שקספיר!

לי נראה, שהתאמת יתר היא העונש הטבעי לכל מי שמנסים לעקוף את המתמטיקה בעזרת brute force, ומגיע להם.



מי שמתענין בשאלה, מוזמן לקרוא את התחרות החדשה של Kaggel באתר www.heritagehealthprize.com/c/hhp
שכותרתה: Don't Overfit!

בברכה
אדית
עריכה אחרונה: 8 years 6 months ago  ע''י Edith Ohri. סיבה: הפונצקיה של קישור לא פועלת. וגם תיקונים מילוליים
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.177 שניות

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning