Forum
  • Register
תנו לנו לייק וקבלו עדכונים ישירות לפיד
ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: לא להתבלבל - Classificaton, Slice & Dice בביג דטה

לא להתבלבל - Classificaton, Slice & Dice בביג דטה 2 months 4 weeks ago #8422

  • Edith Ohri
  • Edith Ohri's Avatar
  • מנותק
  • Moderator
  • הודעות: 297
  • תודות שהתקבלו 1
  • קרמה: 0
לא להתבלבל – קלסיפיקציה, סלייס & דייס וטכניקות דומות בביג דטה

עוד הרבה לפני הביג דטה היתה קימת הפרקטיקה של איתור קשרי נתונים, ע"י מיונם ובחינתם מכל הצדדים. אז מדוע בביג דטה פתאום אומרים שזה לא עובד? טוב, לא כולם אומרים :) וצריך להסביר באמת מה קרה פה ולמה.
נתחיל מהתחלה. מזה בעצם קלסיפיקציה ו Slice & Dice?

קלסיפיקציה זה המיון הפשוט המוכר, שמפריד פריטים (או בהכללה "ישויות") לפי תכונות או התנהגות מסוימות. לדוגמא, קלסיפיקציה של פירות לקבוצות איכות לפי גודל ושלמות הקליפה - נניח איכות א' תהיה פרי גדול וללא-פגם, איכות ב' תהיה פרי קטן או פגום, ואיכות ג' פרי קטן ופגום. בקלסיפיקציה, הקריטריונים להחלטה על שיוך הפרי לקבוצה, יהיו חד משמעיים. קלסיפיקציה היא פעולה דטרמיניסטית, וכאן קבור הכלב, כי ביג דטה הכאוטי(!) כולל הכל חוץ מדטרמיניזם...
ולהמשך הדוגמא - איך להחליט מה איכות הפרי כאשר לסרט הנע של המיון מגיעים פתאום פירות לא נקיים, החזרי עודפים, חבילות, ספקים חדשים, דוגמיות של זנים חדשים, ושאר ירקות? הרי אפילו אם הפירות ממשיכים להגיע כמתוכנן, קשה לנסח כללי החלטה למיון לאיכויות (ולכן קשה למכן) לאור הדרישות המגוונות והמשתנות של השוק; דרישות כגון: טריות, צבע, קושי, יופי, תנאי הובלה טובים, בית גידול אורגני, או תו-תקן של מגדל הפרי.
הוספת דרישות/תכונות היא בעייתית מבחינת אספקת הנתונים. לעתים חסרים פרטים, אמינות המידע לא אחידה, והכנסת כל האפשרויות למערכת מסבכת ומיקרת את הפתרון. אז איך יוצאים מזה? מארגנים קבוצות דמיון! זה החידוש של מדע הנתונים. בדוגמא שכאן, קבוצת איכות א' תוגדר, נניח, כקבוצת הפירות הטריים, יפים, וללא ופגמים. קבוצת איכות ב' יכולה להיות פירות גדולים עם פגם אחד בלבד, וקבוצת איכות ג' כל היתר.
המתבונן ברשימת התכונות אולי תפס כאן כאילו שגיאה לוגית – הקבוצות הוגדרו לפי קריטריונים בלתי-אחידים! (בקבוצה 2 נוסף קריטריון הגודל, ונעדרים הקריטריונים של טריות ויופי).
ובכן, זו איננה טעות, כאן טמון אחד ההבדלים המרכזיים בין קלסיפיקציה להקבצה של ביג-דטה. המיון בקבוצות ביג דטה הוא מרובה-משתנים ולא חד-משמעי, החיתוך של הקבוצות איננו ריק (החיתוך של הקבוצות איננו ריק), אך מצד שני הוא מאפשר לשיך לקבוצות את כל הפריטים/ישויות, כולל השגויים למיניהם, השונים והמשונים, אמנם לשיוך בלתי-מושלם אך קרוב מספיק. בדוגמא דלעיל, פרי טרי יפה שהגיע ממגדל טוב יכול להכנס לקבוצת איכות א' אפילו אם הוא קצת רך, ופרי לא גדול עם פגם אחד יכול להכנס לקבוצת איכות ב' בזכות מוניטין המגדל.

המונח Slice & Dice נכנס למילון מנתחי הנתונים כדי לתאר שלל פעולות חלוקה וחישובי קורלציות בין משתנים. בביג דטה היבול של זה הוא די מוגבל, בגלל כמויות המשתנים העצומות והסיכון הגבוה להגיע במחשב ל "overfitting" (המחשב מסוגל לעשות הרבה יותר חזק ומהר מבני אדם גם טעויות).
לפי מדע הנתונים החדש, הסיכוי למצוא תשובה נכונה בטכניקה של סלייס & דייס בפני עצמה הינו זעיר, בגלל מספר המשתנים הגדול, כמתואר בחוק #1. במקום זה מוצע תהליך של ייצור תבנות ומסקנות לוגיות, שבהם דנים החוקים #2,3,4. אם למישהו יש השגות בענין, אשמח להתיחס.

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.176 שניות

Sap

Oracle

Informatica

SAS

Microstrategy

IBM

Microsoft

Qlikview

Teradata

Webfocus

קליק אחד ואתם מחוברים. מהיר .קל .מאובטח.

מעניין? שתפו דף זה באמצעות הטלפון הנייד

DWH :: דיון: לא להתבלבל - Classificaton, Slice & Dice בביג דטה (1/1) - QR Code Friendly
Powered by QR Code Friendly

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

הדף שלנו בפייסבוק

התחברות

כניסות למאמרים
6695593