הצטרפו לקבוצות שלנו לקבלת עדכונים מרוכזים פעם בשבוע:

ווטסאפ:
http://wa.dwh.co.il
טלגרם:
http://telegram.dwh.co.il

חוק מס' 14 במדע הנתונים- פעימה לסירוגין של הגורמים

More
4 years 9 months ago - 4 years 9 months ago #8468 by Edith Ohri
חוק מס' 14 במדע הנתונים - פעימה לסירוגין של גורמים משפיעים (או חוקים) בהיררכיה

הגורמים המשפיעים בדפוס לא יופיעו בתת-דפוסים (תת הקבוצות) ממדרגה ראשונה, ועשויים לחזור ולהופיע בפירוק לתת-קבוצות המפרטות אותן, ממדרגה שנייה ומעלה. החוק נקרא חוק הפעימה, עקב הופעת גורמים משפיעים לסירוגין בקבוצה ובתת-קבוצות שלה.

הסבר החוק נמצא באופן החישוב וההגדרה של תת קבוצות: ההגדרה ממצה את הסיבתיות של הקבוצה העליונה, ומחלקת ע"י כך את הנתונים בהתאם לגורמים בדיוק. כתוצאה, נוצרות תת-קבוצות אחידות-סטוכסטית מבחינת הגורמים של חוקי הקבוצה העליונה, ולכן אדישות לגורמים אלה. בהמשך הפירוק של תת-הקבוצות לרזולוציה גבוהה יותר, הגורמים עשויים להופיע שוב, עקב תכונת הסטוכסטיות.

לדוגמא:
נניח שבמחקר נמצא שמשקלם של אנשים מושפע מהגורמים - גיל, גובה, השכלה, ומצב כלכלי ומשפחתי.
נניח שבמחקר הוגדרו דפוסי התנהגות המשקל דלהלן (שם הדפוס ניתן לפי התכונה הבולטת שלו):
י*ילדים למשפחות חד הוריות, * חילים וסטודנטים, *הורים שעובדים במספר משרות, *קשישים בודדים, *בעלי נכסים בשווי מיליון שקל ומעלה, *נתמכים, *עובדים בשכר גדול מפי 3 של המינימום במשק.
אם נסתכל בדפוס (קבוצה) של החילים והסטודנטים, לא נמצא בתוכה קשר בין גיל למשקל, מאחר והדפוס אחיד פחות או יותר מבחינת הגיל. אך אם נמשיך לפרק את הדפוס הזה לתת-הקבוצות שלו, ייתכן שיהיו בינהן תת-קבוצות עם גילים מגוונים כגון "עולים חדשים שהתגיסו לשירות" או "סטודנטים לתארים גבוהים". מגוון הגילאים בתת-קבוצות אלה מאפשר למשתנה הגיל להופיע שוב (זו הפעימה) כמשתנה משפיע על המשקל.


פרויקט מדע הנתונים מתבסס על
GT data mining - כל הזכויות שמורות


בברכה
אדית
Last edit: 4 years 9 months ago by Edith Ohri. Reason: הדיון נעלם, שחזרתי אותו, ואז הופיע מחדש בכפילות. מחקתי את המיותר.

Please התחברות to join the conversation.

More
4 years 9 months ago #8469 by Edith Ohri
צירוף המילים "אחידות-סטוכסטית" מתכוון להגיד שהדפוס אחיד פחות או יותר מבחינת המשתנה הנבדק, לא אחיד במובן הדטרמיניסטי.
בסטטיסטיקה מניחים שהנתונים הם IDD - identically distributed data, שהם בלתי תלויים זה בזה ומפוזרים באופן אקראי במרחב הפתרון שמשתקף במדגם.
יש על כך הרבה השגות במדע הנתונים החדש. אחת מהן בהקשר זה היא, שההנחה הנכונה צריכה להיות, שהנתונים מתקבצים לדפוסים (על פי חוקים שיש לגלותם). מאחר והם מתקבצים הם לא מפוזרים שווה במדגם וייתכן למצוא אותם מרוכזים בדפוסים נבדלים ובאזורים מסוימים בתוכם.
חשוב לצין בנוסף - ייתכן שאותו גורם ישפיע אחרת בערכים שונים שלו. לפיכך יש לבחון כל קשר שנמצא ביחס לקונטקסט שבו הוא מופיע. משמעות המשפט האחרון היא שחלקי משתנים עשויים להופיע כמשתנים נפרדים, ולפיכך קימים הרבה יותר משתנים ממה שהחוקרים סבורים, ותיאורטית - אינסוף משתנים.


בברכה
אדית

Please התחברות to join the conversation.

More
4 years 3 months ago - 4 years 3 months ago #8488 by Edith Ohri
בהמשך לחוק מס' 14 - נקודה פילוסופית בפעימה לסירוגין

נקודה מענינת בתכונה של פעימה לסירוגין, שהיא נמצאת ב"ראש" של הצופה, כלומר – בהגיון שבעזרתו הצופה מגדיר ישויות. הפעימה לסירוגין נובעת אם כך, מאופן הסתכלות הצופה ולא מהדבר הנצפה עצמו. אגב הדבר הנצפה עשוי אפילו לא להכיל את התכונה שמאפינת את הקבוצה ובכל זאת להשתיך אליה.
לדוגמא, קבוצת הספורטאים הגבוהים שמשחקים כדורסל, מכילה קבוצות נשים ושחקנים שאינם גבוהים אך מצטינים בזריזות וכושר גופני, וכן קבוצות של ספורטאים נכים או קבוצות נוער, שאינם גבוהים ואינם מצטינים-יחסית מבחינה פיזית.

אבחנת ישויות לפי מאפינים משותפים של התנהגותן, משאירה בידי המגדיר חופש החלטה, ומבוצעת לא בהכרח על סמך זיהוי המהות האוביקטיבית – מהות אשר במקרים רבים נשארת בגדר נעלם. ההיבט הפילוסופי בדבר חמקמקות המהות האוביקטיבית, מתאשר ועולה כאן מתוך מדע הנתונים החדש.
המשמעות שלו מרחיקת לכת. תצפיות אמפיריות במדע אמורות להוביל לגילוי עובדות מהותיות ואוביקטיביות, אך באותה העת, מעצם הגדרתן ע"י הצופה הן סוביקטיביות ומגבילות בכך את האפשרות לגילויים אוביקטיביים.
שחרור המחקר המדעי ממגבלת הסוביקטיביות, מחיב נקודת מוצא אחרת לביצוע הגדרות סמנטיות. נקודת מוצא כמו זו של מדע הנתונים החדש, שמזהה דפוסי התנהגות (היררכיים) כצעד ראשון לפני ניתוח נתונים.


בברכה
אדית
Last edit: 4 years 3 months ago by Edith Ohri. Reason: ניסוח

Please התחברות to join the conversation.

Moderators: Edith Ohri
Time to create page: 0.394 seconds