התחברות

התחברות
x
או
x
הרשמה
x

או

קליק אחד ואתם מחוברים. מהיר .קל .מאובטח.

מעניין? שתפו דף זה באמצעות הטלפון הנייד

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

הדף שלנו בפייסבוק

ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: חוק מס' 14 במדע הנתונים- פעימה לסירוגין של הגורמים

חוק מס' 14 במדע הנתונים- פעימה לסירוגין של הגורמים 7 months 3 weeks ago #8468

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 332
  • קרמה: 0
חוק מס' 14 במדע הנתונים - פעימה לסירוגין של גורמים משפיעים (או חוקים) בהיררכיה

הגורמים המשפיעים בדפוס לא יופיעו בתת-דפוסים (תת הקבוצות) ממדרגה ראשונה, ועשויים לחזור ולהופיע בפירוק לתת-קבוצות המפרטות אותן, ממדרגה שנייה ומעלה. החוק נקרא חוק הפעימה, עקב הופעת גורמים משפיעים לסירוגין בקבוצה ובתת-קבוצות שלה.

הסבר החוק נמצא באופן החישוב וההגדרה של תת קבוצות: ההגדרה ממצה את הסיבתיות של הקבוצה העליונה, ומחלקת ע"י כך את הנתונים בהתאם לגורמים בדיוק. כתוצאה, נוצרות תת-קבוצות אחידות-סטוכסטית מבחינת הגורמים של חוקי הקבוצה העליונה, ולכן אדישות לגורמים אלה. בהמשך הפירוק של תת-הקבוצות לרזולוציה גבוהה יותר, הגורמים עשויים להופיע שוב, עקב תכונת הסטוכסטיות.

לדוגמא:
נניח שבמחקר נמצא שמשקלם של אנשים מושפע מהגורמים - גיל, גובה, השכלה, ומצב כלכלי ומשפחתי.
נניח שבמחקר הוגדרו דפוסי התנהגות המשקל דלהלן (שם הדפוס ניתן לפי התכונה הבולטת שלו):
י*ילדים למשפחות חד הוריות, * חילים וסטודנטים, *הורים שעובדים במספר משרות, *קשישים בודדים, *בעלי נכסים בשווי מיליון שקל ומעלה, *נתמכים, *עובדים בשכר גדול מפי 3 של המינימום במשק.
אם נסתכל בדפוס (קבוצה) של החילים והסטודנטים, לא נמצא בתוכה קשר בין גיל למשקל, מאחר והדפוס אחיד פחות או יותר מבחינת הגיל. אך אם נמשיך לפרק את הדפוס הזה לתת-הקבוצות שלו, ייתכן שיהיו בינהן תת-קבוצות עם גילים מגוונים כגון "עולים חדשים שהתגיסו לשירות" או "סטודנטים לתארים גבוהים". מגוון הגילאים בתת-קבוצות אלה מאפשר למשתנה הגיל להופיע שוב (זו הפעימה) כמשתנה משפיע על המשקל.


פרויקט מדע הנתונים מתבסס על
GT data mining - כל הזכויות שמורות

בברכה
אדית
עריכה אחרונה: 7 months 2 weeks ago  ע''י Edith Ohri. סיבה: הדיון נעלם, שחזרתי אותו, ואז הופיע מחדש בכפילות. מחקתי את המיותר.
הנהלת האתר ביטלה גישת כתיבה ציבורית.

חוק מס' 14 במדע הנתונים- פעימה לסירוגין של הגורמים 7 months 3 weeks ago #8469

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 332
  • קרמה: 0
צירוף המילים "אחידות-סטוכסטית" מתכוון להגיד שהדפוס אחיד פחות או יותר מבחינת המשתנה הנבדק, לא אחיד במובן הדטרמיניסטי.
בסטטיסטיקה מניחים שהנתונים הם IDD - identically distributed data, שהם בלתי תלויים זה בזה ומפוזרים באופן אקראי במרחב הפתרון שמשתקף במדגם.
יש על כך הרבה השגות במדע הנתונים החדש. אחת מהן בהקשר זה היא, שההנחה הנכונה צריכה להיות, שהנתונים מתקבצים לדפוסים (על פי חוקים שיש לגלותם). מאחר והם מתקבצים הם לא מפוזרים שווה במדגם וייתכן למצוא אותם מרוכזים בדפוסים נבדלים ובאזורים מסוימים בתוכם.
חשוב לצין בנוסף - ייתכן שאותו גורם ישפיע אחרת בערכים שונים שלו. לפיכך יש לבחון כל קשר שנמצא ביחס לקונטקסט שבו הוא מופיע. משמעות המשפט האחרון היא שחלקי משתנים עשויים להופיע כמשתנים נפרדים, ולפיכך קימים הרבה יותר משתנים ממה שהחוקרים סבורים, ותיאורטית - אינסוף משתנים.

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

חוק מס' 14 במדע הנתונים- פעימה לסירוגין של הגורמים 1 month 1 week ago #8488

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 332
  • קרמה: 0
בהמשך לחוק מס' 14 - נקודה פילוסופית בפעימה לסירוגין

נקודה מענינת בתכונה של פעימה לסירוגין, שהיא נמצאת ב"ראש" של הצופה, כלומר – בהגיון שבעזרתו הצופה מגדיר ישויות. הפעימה לסירוגין נובעת אם כך, מאופן הסתכלות הצופה ולא מהדבר הנצפה עצמו. אגב הדבר הנצפה עשוי אפילו לא להכיל את התכונה שמאפינת את הקבוצה ובכל זאת להשתיך אליה.
לדוגמא, קבוצת הספורטאים הגבוהים שמשחקים כדורסל, מכילה קבוצות נשים ושחקנים שאינם גבוהים אך מצטינים בזריזות וכושר גופני, וכן קבוצות של ספורטאים נכים או קבוצות נוער, שאינם גבוהים ואינם מצטינים-יחסית מבחינה פיזית.

אבחנת ישויות לפי מאפינים משותפים של התנהגותן, משאירה בידי המגדיר חופש החלטה, ומבוצעת לא בהכרח על סמך זיהוי המהות האוביקטיבית – מהות אשר במקרים רבים נשארת בגדר נעלם. ההיבט הפילוסופי בדבר חמקמקות המהות האוביקטיבית, מתאשר ועולה כאן מתוך מדע הנתונים החדש.
המשמעות שלו מרחיקת לכת. תצפיות אמפיריות במדע אמורות להוביל לגילוי עובדות מהותיות ואוביקטיביות, אך באותה העת, מעצם הגדרתן ע"י הצופה הן סוביקטיביות ומגבילות בכך את האפשרות לגילויים אוביקטיביים.
שחרור המחקר המדעי ממגבלת הסוביקטיביות, מחיב נקודת מוצא אחרת לביצוע הגדרות סמנטיות. נקודת מוצא כמו זו של מדע הנתונים החדש, שמזהה דפוסי התנהגות (היררכיים) כצעד ראשון לפני ניתוח נתונים.

בברכה
אדית
עריכה אחרונה: 1 month 6 days ago  ע''י Edith Ohri. סיבה: ניסוח
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.145 שניות

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning