התחברות

התחברות
x
או
x
הרשמה
x

או

קליק אחד ואתם מחוברים. מהיר .קל .מאובטח.

חדש בפורומים

מעניין? שתפו דף זה באמצעות הטלפון הנייד

אירועים קרובים

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

הדף שלנו בפייסבוק

ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: Data science analysis - a long tail cut short

Data science analysis - a long tail cut short 3 weeks 6 days ago #8466

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 315
  • קרמה: 0
26-04-2019

בכתבה ב bit.ly/2v8yA0T שנושאה "Predicting Car Prices .. Using Neural Network" מציג דר' וינסנט גראנוויל, פתרון מתמטי מתקדם לחיזוי מחירי מכוניות שמבוסס על רשתות נירוניות.
לכתבה מצורף תרשים התפלגות מחירי המכוניות, שבו נראה "זנב" ארוך עם קפיצות, שאומר דרשני. ספרתי 4 קפיצות חריגות, ומתוכן במיוחד דורשת הסבר הקפיצה בקצה הרחוק של הסקאלה.
מקרים כאלה קשה לנרמל או לנקות. בעקרון, החריגות הן לא טעויות, הן מקרי אמת שמצביעים על תופעות לא מצופות. על כן, לפי עקרונות מדע הנתונים החדש, אין לנקות אותן. להיפך, יש לאפין את החריגות (כאן ה"הקפיצות") ולערוך ניתוח משווה ביניהן וביחס ליתר. הפתרון פשוט, לא מצריך כלים מיוחדים, אפילו לא סטטיסטיקה, מספיק ארבע פעולות האלגברה :)
בנוסף לפשטות, היבול של ניתוח לפי מדע הנתונים החדש, הינו גדול יותר, שכן יש בו מסקנות מלימוד הנתונים והדפוסים שמתגלים במהלכו. בדוגמא של ניתוח מחירי מכוניות, המחירים שבזנב שם גבוהים מהצפוי עשויים ללמד די הרבה. דוקא הקפיצה בקצה הרחוק של הסקאלה, קלה לניחוש, היא כנראה שיכת לדפוס של מכוניות עתיקות שהפכו לפריטי אספנים ומכאן מחירם הגבוה יחסית. ומה בקשר לשלוש הקפיצות האחרות שבזנב הארוך? ובכן, לימוד של החריגות האלה יכול להצביע, נניח, על שוק לדגמים ישנים שעברו הסבה לשימוש אחר, או על דגמי מכוניות מצוינים שמאריכים חיים ויש להם ביקוש גדול יחסית, או על שווי גבוה של חלקי חילוף שמעלה את מחירן של מכוניות ישנות מסוימות, ועוד תכונות שעושות שוק מענין!

חוק התער של אוקאם (Ockham's razor) אומר שהפתרון הפשוט יותר הוא נכון יותר. אך גם בלי חוק אוקאם ניתן להבין מדוע הפתרון הפשוט הוא אוביקטיבי יותר -- הוא לא מקלקל את הנתונים ע"י פעולות ניקוי, דגימה מכוונת השערות, התערבות של הנחות ושל כלים לבדיקה.
יש לפתרון רזה כזה עוד יתרון, ואולי החשוב מכל בעיני חוקרים, והוא האפשרות שהוא משאיר ללימוד ולגילויים.
מעבר לתהליך הבדיקה המחויב, יש ערך גדול לגילויים חדשים וליצירת השערות משופרות, וצריך שהכלים שבהם משתמשים לא יקלקלו את החומר.

Edith Ohri
Home of GT data mining
צירופים:

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.307 שניות

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning