ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: חוק מס' 2 של מדע הנתונים החדש - קבוצות ומטרות

חוק מס' 2 של מדע הנתונים החדש - קבוצות ומטרות 4 years 2 weeks ago #8406

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
של מדע הנתונים החדש - קבוצות ומטרות

כל אוסף נתונים מתפצל באופן מלא, בהתאם למטרה, לקבוצות (דפוסי התנהגות) היררכיות שהן הומוגניות יותר (בעלות מספר רב יותר של מאפינים).

הגדרה - מטרה:
מטרה היא וקטור של תוצאות הנגרמות מפעילויות, תופעות ותנאים ספציפיים.

לדוגמא - מטרה של הגדלת רווחי חברה, כפונקציה של פעילויות הייצור והשיווק, השקעות, תנאי מימון, רווחי תקופה קודמת ויחס הון-עצמי להון-חוזר.
המטרה הכללית עשוייה להתבטא, בנוסף לשורה התחתונה של הרווח, גם בהגדלת ערך הנכסים ונתח השוק, והקטנת הוצאות מימון והתחיבויות – סה"כ 4 מטרות.

הערה: אפשרות זו, לנתח את הנתונים לפי מספר מטרות בלי לקבוע אותן מראש ובלי לשקלל ביניהן, עושה הבדל גדול ביחס למודלים מבוססי סטטיסטיקה, בכך שהיא מרשה להשתמש באופן לגיטימי באותו מדגם לבחינת מטרות חדשות, ולנתח יחד (meta-analysis) מדגמים שתוכננו למטרות אחרות.


הגדרה - מאפיני קבוצות:
מהות הגורמים שמאפינים קבוצות הינם פרטיים לכל קבוצה. הערה: זה ההבדל העיקרי בין הגדרת קבוצות במדע הנתונים לבין השיטה הישנה של קלסיפיקציה Coding & Classification.

דוגמא:
לקוחות של חברת שיווק מתחלקים נניח לשתי קבוצות על, שהאחת מהן מאופינת ע"י סוג לקוח ותדירות הקניות והשנייה מאופינת ע"י צירוף המשתנים "מיקום" ו"מועד קנייה". הקבוצות מהסוג הראשון עשויות להיות "חברי מועדון", "מוסדיים", "פרטיים שקונים לפחות פעם בחודש", ו"לקוחות מזדמנים"; קבוצות מהסוג השני בדוגמא זו עשויות להיות "קניות בתל-אביב בתחילת החודש", "חנויות-נוחות בחגים", ו"קניות באמצע השבוע בכל הארץ".

בברכה
אדית
עריכה אחרונה: 1 month 1 week ago  ע''י Edith Ohri. סיבה: ניסוח
הנהלת האתר ביטלה גישת כתיבה ציבורית.

חוק מס' 2 של מדע הנתונים החדש - דוגמא 4 years 1 week ago #8408

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
אחזור על עיקרו של חוק 2. החוק אומר שכל הרשומות מתחלקות לקבוצות היררכיות, בהתאם למטרה. הבעיה המיוחדת היא שהמטרה כוללת מספר דרישות שלא מתישבות ביניהן. הפתרון לפי חוק #2 הוא בשני צעדים: הגדרת קבוצות, התמקדות וניתוח פרטני של קבוצה מענינת.

להלן דוגמא:
נניח שהמטרה היא להקים אלגוריתם להמלצה על קניית מכוניות, על סמך מידע פרסומי של יצרני מכוניות ואתר "מחירוני שוק של מכוניות".
1. הצעד הראשון יהיה הגדרת קבוצות של מכוניות בעלות תכונות משותפות מבחינת המטרה, כאשר המטרה שמכילה דרישות שונות, כגון: דרישה למחיר נמוך, אמינות גבוהה, עלויות אחזקה נמוכות, בטיחות, הרבה ק"מ לליטר בנזין, ירידת ערך קטנה במשך השימוש, ועוד. מתוך הקבוצות, האלגוריתם יתמקד בקבוצה או תת-קבוצה שמקימות את הדרישות במידה בינונית ומעלה. נניח ששם הקבוצה הוא "מכוניות משפחתית מיצרן מומלץ.
2. הצעד השני קל יותר. מה שנותר לאלגוריתם לעשות, זה (נניח) לחפש את המכונית שמחירה הוא הנמוך ביותר ביחס למחיר-מחירון.
~~~

רבים מהקוראים ודאי בצעו את התהליך הנ"ל בלי לחשוב על המשמעות הכללית לביג-דטה. אני מקווה שהסברתי את הפוטנציאל שלו.

בברכה
אדית
עריכה אחרונה: 4 years 1 week ago  ע''י Edith Ohri. סיבה: טייפו
הנהלת האתר ביטלה גישת כתיבה ציבורית.

חוק מס' 2 של מדע הנתונים החדש - שונה מקלסיפיקציה 4 years 1 week ago #8409

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
הקבוצות או דפוסי ההתנהגות של ביג דטה עשויים להיות בעלי תכונות אחרות לגמרי, זאת בניגוד לקלסיפיקציה, שבה מסווגים את הרשומות לפי אותן תכונות לכל אורך הרשומות.

למה חשוב לאפין כל קבוצה בנפרד, לא לפי קריטריון אחיד לכולם?

1. בביג דטה אין הרבה שדות משותפים לכל הרשומות. האפיון הנפרד מאפשר לשיך את כל(!) הרשומות לקבוצות טיפוסיות.

2. הגדרה גמישה של הקבוצות מאפשרת להתגבר על רעשים וטעויות, ולחסוך בניקוי ותיקון נתונים.

3. אפיון נפרד לכל קבוצה מאפשר הגדלת רזולוציה.

4. אפיון נפרד הוא ניצול נכון של כח המחשוב. הקלסיפיקציה התאימה לאילוצים מלפני יותר מחצי מאה שנים.

בברכה
אדית
עריכה אחרונה: 1 month 1 week ago  ע''י Edith Ohri.
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.250 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning