Forum
  • Register
תנו לנו לייק וקבלו עדכונים ישירות לפיד
ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: חוק מס' 2 של מדע הנתונים החדש - קבוצות ומטרות

חוק מס' 2 של מדע הנתונים החדש - קבוצות ומטרות 2 months 4 weeks ago #8406

  • Edith Ohri
  • Edith Ohri's Avatar
  • מחובר
  • Moderator
  • הודעות: 286
  • תודות שהתקבלו 1
  • קרמה: 0
זה ניסוח ראשוני של החוק השני בניתוח נתונים.
חוק 2
כל אוסף נתונים מתפצל באופן מלא, בהתאם לנושא המטרה, לקבוצות היררכיות שהן הומוגניות יותר.

מאפיני הקבוצות אינם חיבים להיות לפי אותם משתנים. לדוגמא: מאפיני קבוצה אחת יכולים לתאר סוג לקוחות והרגלי הקנייה שלהם בכל הארץ, מאפיני קבוצה שנייה יהיו גיאוגרפיים ודמוגרפיים לכל סוגי הלקוחות, וכו'.

הגדרה:
נושא המטרה מגדיר מספר אספקטים שונים של התוצאה הרצוייה.
המושג "נושא מטרה" הכרחי בשלב החיפוש ולימוד הנתונים, לפני שיודעים להגדיר "פונקצית מטרה".
לדוגמא: נניח שנושא המטרה הוא שיפור ביצועים. הנושא מתבטא ב-5 משתנים מקובלים, כגון: תפוקה, ערך חברה, היקף הזמנות, מגמת ההון העצמי, ומספר המוצרים החדשים. אחרי לימוד, המטרה מתמקדת ועשוייה להשתנות ל"יחס הון חוזר להון עצמי בהזמנות מוסדיות".

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

חוק מס' 2 של מדע הנתונים החדש - דוגמא 2 months 3 weeks ago #8408

  • Edith Ohri
  • Edith Ohri's Avatar
  • מחובר
  • Moderator
  • הודעות: 286
  • תודות שהתקבלו 1
  • קרמה: 0
אחזור על עיקרו של חוק 2. החוק אומר שכל הרשומות מתחלקות לקבוצות היררכיות, בהתאם למטרה. הבעיה המיוחדת היא שהמטרה כוללת מספר דרישות שלא מתישבות ביניהן. הפתרון לפי חוק #2 הוא בשני צעדים: הגדרת קבוצות, התמקדות וניתוח פרטני של קבוצה מענינת.

להלן דוגמא:
נניח שהמטרה היא להקים אלגוריתם להמלצה על קניית מכוניות, על סמך מידע פרסומי של יצרני מכוניות ואתר "מחירוני שוק של מכוניות".
1. הצעד הראשון יהיה הגדרת קבוצות של מכוניות בעלות תכונות משותפות מבחינת המטרה, כאשר המטרה שמכילה דרישות שונות, כגון: דרישה למחיר נמוך, אמינות גבוהה, עלויות אחזקה נמוכות, בטיחות, הרבה ק"מ לליטר בנזין, ירידת ערך קטנה במשך השימוש, ועוד. מתוך הקבוצות, האלגוריתם יתמקד בקבוצה או תת-קבוצה שמקימות את הדרישות במידה בינונית ומעלה. נניח ששם הקבוצה הוא "מכוניות משפחתית מיצרן מומלץ.
2. הצעד השני קל יותר. מה שנותר לאלגוריתם לעשות, זה (נניח) לחפש את המכונית שמחירה הוא הנמוך ביותר ביחס למחיר-מחירון.
~~~

רבים מהקוראים ודאי בצעו את התהליך הנ"ל בלי לחשוב על המשמעות הכללית לביג-דטה. אני מקווה שהסברתי את הפוטנציאל שלו.

בברכה
אדית
עריכה אחרונה: 2 months 3 weeks ago  ע''י Edith Ohri. סיבה: טייפו
הנהלת האתר ביטלה גישת כתיבה ציבורית.

חוק מס' 2 של מדע הנתונים החדש - שונה מקלסיפיקציה 2 months 3 weeks ago #8409

  • Edith Ohri
  • Edith Ohri's Avatar
  • מחובר
  • Moderator
  • הודעות: 286
  • תודות שהתקבלו 1
  • קרמה: 0
הקבוצות או דפוסי ההתנהגות של ביג דטה עשויים להיות בעלי תכונות אחרות לגמרי, זאת בניגוד לקלסיפיקציה, שבה מסווגים את הרשומות לפי אותן תכונות לכל אורך הרשומות.
למה חשוב לאפין כל קבוצה בנפרד, לא לפי קריריון אחיד לכולם?
1. בביג דטה אין הרבה שדות משותפים לכל הרשומות. האפיון הנפרד מאפשר גמישות בהתאמה לנתונים, ושיוך כל(!) הרשומות לקבוצות טיפוסיות.
2. עצמת המחשבים כיום משחררת את מנתחי הנתונים מאילוצים שהיו בזמנו (שיטת הקלסיפיקציה קנתה פרסום בשנות השישים-שבעים).
3. ההגדרה הגמישה של הקבוצות מאפשרת להתגבר על רעשים וטעויות, שקלסיפיקציה רגישה להם. יש לזה ערך גדול מאד בחסכון של ניקוי ותיקון נתונים.
4. אמנם קלסיפיקציה היא קלה יותר לביצוע, אך קים פתרון אחד לפחות (GT) להפרדת קבוצות טיפוסיות בלי צורך להקריב שום דבר. כך שלא חיבים להמשיך בשיטה המיושנת.

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.177 שניות

Sap

Oracle

Informatica

SAS

Microstrategy

IBM

Microsoft

Qlikview

Teradata

Webfocus

קליק אחד ואתם מחוברים. מהיר .קל .מאובטח.

מעניין? שתפו דף זה באמצעות הטלפון הנייד

DWH :: דיון: חוק מס' 2 של מדע הנתונים החדש - קבוצות ומטרות (1/1) - QR Code Friendly
Powered by QR Code Friendly

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

הדף שלנו בפייסבוק

התחברות

כניסות למאמרים
6442715