ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: חוק מס' 2 של מדע הנתונים החדש - קבוצות ומטרות

חוק מס' 2 של מדע הנתונים החדש - קבוצות ומטרות 3 years 10 months ago #8406

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 352
  • קרמה: 0
ניסוח ראשוני של החוק השני בניתוח נתונים.
חוק 2
כל אוסף נתונים מתפצל באופן מלא, בהתאם למטרה, לקבוצות (דפוסי התנהגות) היררכיות שהן הומוגניות יותר.

מאפיני הקבוצות אינם חיבים להיות אחידים לכל הקבוצות.
לדוגמא: בניתוח נתוני חברת שיווק ישראלית, תיתכן קבוצה אחת שמאפינים אותה לקוחות מזדמנים קטנים בכל הארץ, וקבוצה שנייה שמאפינים אותה איזור השפלה וקניות באמצע החודש - כלומר המשתנים המאפינים בשתי הקבוצות עשויים להיות שונים.

הגדרה:
המטרה מתארת צדדים מגוונים של תוצאה רצוייה, ועשוייה להכיל בהתאם מספר משתנים.
לדוגמא: בנוסף למטרה של הגדלת רווחים, החברה מעונינת גם בהגדלת ערך הנכסים ונתח השוק. תוך כדי לימוד הנתונים, החברה עשוייה להחליט להתמקד בהגדרת המטרה ובמקום "נכסים" ו"ערך שוק" להציב במטרה את המשתנים "היקף הזמנות נמשכות", "מספר מוצרים משווקים למגזר הביתי" ו"הוצאות מימון". הערה: ניתן להחליף משתני מטרה על בסיס אותו מדגם, בתנאי שחוזרים ומבצעים את אפיון הקבוצות.

בברכה
אדית
עריכה אחרונה: 1 year 1 month ago  ע''י Edith Ohri.
הנהלת האתר ביטלה גישת כתיבה ציבורית.

חוק מס' 2 של מדע הנתונים החדש - דוגמא 3 years 10 months ago #8408

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 352
  • קרמה: 0
אחזור על עיקרו של חוק 2. החוק אומר שכל הרשומות מתחלקות לקבוצות היררכיות, בהתאם למטרה. הבעיה המיוחדת היא שהמטרה כוללת מספר דרישות שלא מתישבות ביניהן. הפתרון לפי חוק #2 הוא בשני צעדים: הגדרת קבוצות, התמקדות וניתוח פרטני של קבוצה מענינת.

להלן דוגמא:
נניח שהמטרה היא להקים אלגוריתם להמלצה על קניית מכוניות, על סמך מידע פרסומי של יצרני מכוניות ואתר "מחירוני שוק של מכוניות".
1. הצעד הראשון יהיה הגדרת קבוצות של מכוניות בעלות תכונות משותפות מבחינת המטרה, כאשר המטרה שמכילה דרישות שונות, כגון: דרישה למחיר נמוך, אמינות גבוהה, עלויות אחזקה נמוכות, בטיחות, הרבה ק"מ לליטר בנזין, ירידת ערך קטנה במשך השימוש, ועוד. מתוך הקבוצות, האלגוריתם יתמקד בקבוצה או תת-קבוצה שמקימות את הדרישות במידה בינונית ומעלה. נניח ששם הקבוצה הוא "מכוניות משפחתית מיצרן מומלץ.
2. הצעד השני קל יותר. מה שנותר לאלגוריתם לעשות, זה (נניח) לחפש את המכונית שמחירה הוא הנמוך ביותר ביחס למחיר-מחירון.
~~~

רבים מהקוראים ודאי בצעו את התהליך הנ"ל בלי לחשוב על המשמעות הכללית לביג-דטה. אני מקווה שהסברתי את הפוטנציאל שלו.

בברכה
אדית
עריכה אחרונה: 3 years 10 months ago  ע''י Edith Ohri. סיבה: טייפו
הנהלת האתר ביטלה גישת כתיבה ציבורית.

חוק מס' 2 של מדע הנתונים החדש - שונה מקלסיפיקציה 3 years 10 months ago #8409

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 352
  • קרמה: 0
הקבוצות או דפוסי ההתנהגות של ביג דטה עשויים להיות בעלי תכונות אחרות לגמרי, זאת בניגוד לקלסיפיקציה, שבה מסווגים את הרשומות לפי אותן תכונות לכל אורך הרשומות.
למה חשוב לאפין כל קבוצה בנפרד, לא לפי קריריון אחיד לכולם?
1. בביג דטה אין הרבה שדות משותפים לכל הרשומות. האפיון הנפרד מאפשר גמישות בהתאמה לנתונים, ושיוך כל(!) הרשומות לקבוצות טיפוסיות.
2. עצמת המחשבים כיום משחררת את מנתחי הנתונים מאילוצים שהיו בזמנו (שיטת הקלסיפיקציה קנתה פרסום בשנות השישים-שבעים).
3. ההגדרה הגמישה של הקבוצות מאפשרת להתגבר על רעשים וטעויות, שקלסיפיקציה רגישה להם. יש לזה ערך גדול מאד בחסכון של ניקוי ותיקון נתונים.
4. אמנם קלסיפיקציה היא קלה יותר לביצוע, אך קים פתרון אחד לפחות (GT) להפרדת קבוצות טיפוסיות בלי צורך להקריב שום דבר. כך שלא חיבים להמשיך בשיטה המיושנת.

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.221 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

אירועים קרובים

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning