בכתבה ב bit.ly/2v8yA0T שנושאה "Predicting Car Prices .. Using Neural Network" מציג דר' וינסנט גראנוויל, פתרון מתמטי מתקדם לחיזוי מחירי מכוניות שמבוסס על רשתות נירוניות.
לכתבה מצורף תרשים התפלגות מחירי המכוניות, שבו נראה "זנב" ארוך עם קפיצות, שאומר דרשני. ספרתי 4 קפיצות חריגות, ומתוכן במיוחד דורשת הסבר הקפיצה בקצה הרחוק של הסקאלה.
מקרים כאלה קשה לנרמל או לנקות. בעקרון, החריגות הן לא טעויות, הן מקרי אמת שמצביעים על תופעות לא מצופות. על כן, לפי עקרונות מדע הנתונים החדש, אין לנקות אותן. להיפך, יש לאפין את החריגות (כאן ה"הקפיצות") ולערוך ניתוח משווה ביניהן וביחס ליתר. הפתרון פשוט, לא מצריך כלים מיוחדים, אפילו לא סטטיסטיקה, מספיק ארבע פעולות האלגברה :)
בנוסף לפשטות, היבול של ניתוח לפי מדע הנתונים החדש, הינו גדול יותר, שכן יש בו מסקנות מלימוד הנתונים והדפוסים שמתגלים במהלכו. בדוגמא של ניתוח מחירי מכוניות, המחירים שבזנב שם גבוהים מהצפוי עשויים ללמד די הרבה. דוקא הקפיצה בקצה הרחוק של הסקאלה, קלה לניחוש, היא כנראה שיכת לדפוס של מכוניות עתיקות שהפכו לפריטי אספנים ומכאן מחירם הגבוה יחסית. ומה בקשר לשלוש הקפיצות האחרות שבזנב הארוך? ובכן, לימוד של החריגות האלה יכול להצביע, נניח, על שוק לדגמים ישנים שעברו הסבה לשימוש אחר, או על דגמי מכוניות מצוינים שמאריכים חיים ויש להם ביקוש גדול יחסית, או על שווי גבוה של חלקי חילוף שמעלה את מחירן של מכוניות ישנות מסוימות, ועוד תכונות שעושות שוק מענין!
חוק התער של אוקאם (Ockham's razor) אומר שהפתרון הפשוט יותר הוא נכון יותר. אך גם בלי חוק אוקאם ניתן להבין מדוע הפתרון הפשוט הוא אוביקטיבי יותר -- הוא לא מקלקל את הנתונים ע"י פעולות ניקוי, דגימה מכוונת השערות, התערבות של הנחות ושל כלים לבדיקה.
יש לפתרון רזה כזה עוד יתרון, ואולי החשוב מכל בעיני חוקרים, והוא האפשרות שהוא משאיר ללימוד ולגילויים.
מעבר לתהליך הבדיקה המחויב, יש ערך גדול לגילויים חדשים וליצירת השערות משופרות, וצריך שהכלים שבהם משתמשים לא יקלקלו את החומר.