התחברות

התחברות
x
או
x
הרשמה
x

או

קליק אחד ואתם מחוברים. מהיר .קל .מאובטח.

מעניין? שתפו דף זה באמצעות הטלפון הנייד

אירועים קרובים

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

הדף שלנו בפייסבוק

ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: Unsupervised learning and big data האתגר

Unsupervised learning and big data האתגר 6 years 7 months ago #8005

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 322
  • קרמה: 0
האתגר של לימוד מקורות מידע ענקיים ממשיך לרתק מוחות רבים.
בהמשך לדיון על לימוד UNSUPERVISED, לפני 5 שנים במדור זה,
נושא זה עלה שוב לאחרונה, הפעם מכיוון אקדמי -- כנס CODATA של האקמיה למדעים, שנערך בחודש שעבר בת"א.

השאלה: האם UNSUPERVISED הוא תהליך לימוד ללא קבוצת השוואה, או מעבר לזה?

הטענה שלי היא שלמידה לא מבוקרת (unsupervised) היא הגדרה רחבה שכוללת את כל המקרים שבהם אין לנו אפשרות (או ענין) לתכנן ניסוי לצורך מבחן סטטיסטי תקני. כגון: מקרה שבו הנתונים לא מיצגים, או שאין לנו דרך לוודא שהם מיצגים כהלכה את התופעות השונות, אם המידע נניח מגיע ממקורות מגוונים שלא נחקרו, בכל אלה קשה מאד לעמוד בדרישות המודל הסטטיסטי, ולשמור על סביבה מבודלת לניסוי שבה ניתן להתמקד במבחן ההשערה; על אחת כמה וכמה, כאשר אין בידינו מראש מבחן השערה - כמו שקורה כאשר הלקוח מבקש שנבדוק מאגר מידע ונחפש בו דפוסי התנהגות מועילים, בהשאירו לנו לשבור את הראש על הגדרת המטרה והפתרון ביחד.

להלן דוגמא מכנס CODATA הנ"ל, שבו אחת משאלות המפתח שהועלו היא כיצד לזהות דפוסי התנהגות מתוך זרם נתונים שמגיע מחיישנים המותקנים בביתם של קשישים, כדי לאבחן שינויים במצבם הבריאותי...

ההצעה שלי היתה לוותר על כל ניקוי הנתונים מאחר ואין אפשרות מעשית לבצע זאת מחוסר ידע-מוקדם מספיק, יתר על כן - התערבות בקלט פוגעת באיכות הנתונים. במקום לנקות, אני מציעה לאפין את הקבוצות (CLUSTERS) וכך להבדיל ולאפשר ניתוח נפרד של חריגים אם ישנם.
הערה: OUTLINERS הם לא בהכרח חריגים, לעיתים הם פשוט נקודות קצה של פונקציות מקובלות ושל מצבים תקינים, והחריגים עצמם מסתתרים בשילוב מסויים של ערכים לא קיצוניים בכלל.

האחרים בכנס CODATA, היו סקפטיים בנקודה זו. כל המודלים דורשים היום ניקוי נתונים.

מה דעתך כמי שבצד היישום המעשי, בשאלת ניקוי הנתונים ורעיון החלופה ללא ניקוי?
אשמח לקבל תגובות.

אדית

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.127 שניות

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning