Forum
  • Register
תנו לנו לייק וקבלו עדכונים ישירות לפיד
ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: חוק מס' 10 של מדע הנתונים החדש - OK למשתנים עקיפים

חוק מס' 10 של מדע הנתונים החדש - OK למשתנים עקיפים 4 months 2 weeks ago #8441

  • Edith Ohri
  • Edith Ohri's Avatar
  • מנותק
  • Moderator
  • הודעות: 309
  • תודות שהתקבלו 1
  • קרמה: 0
חוק מס' 10 של מדע הנתונים החדש - משתנים עקיפים הם רלוונטים לאנליטיקס כמו הישירים.

משתנים עקיפים הם משתנים שתלויים במשתנים ישירים. התועלת בהם היא, שהם מתארים יותר מאשר התופעה הנבדקת ולכן מוסיפים מידע שלא הוגדר מראש, על סביבת הפעולה ותופעות סמוכות לזו הנבדקת. השימוש במשתנים עקיפים נפוץ ב"אנליטיקס" של כריית נתונים, אך בסטטיסטיקה הוא אסור. זה אחד ההבדלים העקרוניים בין כריית נתונים לניתוח סטטיסטי שבו המשתנים חיבים להיות "אורתוגונליים", בעלי קשרים ידועים, מונוטוניים בתחום הנבדק, ומבוטאים בנוסחא מתמטית (לא באלגוריתם). מודל מדע הנתונים החדש משוחרר מדרישות-קדם אלה. אך בפועל, למרות המגבלה דלעיל, משתמשים גם במודלים מבוססי סטטיסטיקה במשתנים עקיפים, כגון מטא-דטה. ההבדל הוא שבמודל מדע הנתונים החדש, ניצול המשתנים העקיפים הוא חלק אינטגרלי מהמודל (מה שמשפיע על השגת תוצאות).
להלן שלושת הצעדים המתודולוגיים בניתוח משתנים עקיפים לפי מדע הנתונים החדש.
  1. להבחין במשתנים משפיעים סמויים. אחת הדרכים לבצע זאת היא לבדוק הימצאות ריכוז גבוה של ערכי משתנים מסוימים בתוך דפוסי התנהגות "מענינים", להגדיר בהתאם את המשתנים שנמצאו ולצרף אותם למשתני המחקר.
  2. לבטא את המשתנים בתוך סט הנתונים ולוודא שהממצא נשאר כמו שהוא. לנסות להשתמש בקלט הקים, אך אם זה לא אפשרי, להרחיב את הקלט כך שיכלול מגוון אירועים שבהם מופיעים המשתנים החדשים.
  3. להפיק השערות, ולהרחיב לתבנות חדשות הנוגעות למצבים נוספים. זו דרך ליצירת ידע חדש ופתרונות מקוריים.

דוגמא דמיונית – מחקר גורמי תאונות דרכים:
תאונות דרכים הן אירועים חריגים וסביר שההסברים שלהם יהיו חריגים גם כן. איך ניתן להגדיר חוקים חריגים? (חוקים חריגים זה בעצם דבר והיפוכו).
מידע רב נצבר בתיקי חברת ביטוח ששותפה נניח למחקר. המידע מכיל משתנים ישירים ועקיפים רבים אודות נהגים, רכבים וכבישים, כגון: פרטי הנהגים, מעורבות בתביעות קודמות, סוגי רכב מסוכנים, כבישים מסוכנים, תנאי דרך משובשים, מזג אויר גרוע, גורמי הסחת דעת, חוסר תאורה, צפיפות כלי רכב בכביש בזמן התאונה ועוד. הבעיה שלא כל המידע עקבי וסדיר. איך לטפל בנתונים לא סדירים?
  • צעד 1 מאבחנים דפוסים ומשתנים סמויים. האבחון נניח מגלה קבוצת תאונות מיוחדת שמאפינים אותה: מיקום באיזורי בילוי, צפיפות חניה, ותאריכים לפני חגים.
  • צעד 2 מרחיבים את הנתונים ומוודאים את הממצא.
  • צעד 3 מעלים השערה, נניח, שהתאונות נגרמות עקב מבצעי מכירות גדולים הנערכים בקניון סמוך, שגודשים את איזורי הבילוי בכלי רכב במידה מסוכנת.
    הפתרונות עשויים להיות: תגבור התחבורה הציבורית לאיזורי בילוי בזמן מבצעי מכירות, דרישה מהקניונים להוסיף שילוט הפניה לחניונים, והצבת שוטרים לכיוון תנועה בזמן המבצעים.
    חשיפת סיבת שורש הוא תמיד חצי הדרך לפתרון ויותר מכך. ניתן להרחיב את התבנה שהושגה, לצורך תיאום סדרי תנועה בסוגים אחרים של אירועים המוניים.

Edith Ohri - Home of GT data mining

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

חוק מס' 10 של מדע הנתונים החדש - OK למשתנים עקיפים 3 months 3 weeks ago #8443

  • Edith Ohri
  • Edith Ohri's Avatar
  • מנותק
  • Moderator
  • הודעות: 309
  • תודות שהתקבלו 1
  • קרמה: 0
להלן הגדרה שימושית למשתנים עקיפים. אגב, ספק אם קימת הגדרה מתמטית מדויקת של משתנים אלה. אך יש להם מספר תכונות מיוחדות, שמסבירות מדוע רוב המודלים משאירים אותם בחוץ :) ומדוע מצד שני, שווה בהחלט להכניס אותם פנימה. להלן מספר תכונות מאפינות של משתנים עקיפים.
1. הם תלויים במשתנים עיקריים, כך שאם חסר מידע ישיר, אפשר בעזרתם להשלים את התמונה.
2. הם מתארים את הסביבה של הנושא הנבדק, ויכולים להסביר אם כך השפעות חיצוניות.
3. הם מכילים מידע על מקורות הנתונים, תהליכי ייצורם ואופן האיסוף שלהם; המידע הזה חשוב ליישום מסקנות האנליטיקס.
4. מטה-דטה זה דוגמא לאוסף של משתנים אדמיניסטרטיביים עקיפים, שמצטברים אוטומטית במערכות התפעול ולפעמים ניתן להפיק מהם תבנות מפתיעות.

ההגדרה בפרויקט הפילוסופיה של מדע הנתונים www.researchgate.net/project/Philosophy-...c889b53d2f63c3c73f0c

בברכה
אדית
עריכה אחרונה: 3 months 3 weeks ago  ע''י Edith Ohri. סיבה: תיקון וניסוח
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.178 שניות

Sap

Oracle

Informatica

SAS

Microstrategy

IBM

Microsoft

Qlikview

Teradata

Webfocus

התחברות

x
יצירת חשבון
x

קליק אחד ואתם מחוברים. מהיר .קל .מאובטח.

מעניין? שתפו דף זה באמצעות הטלפון הנייד

DWH :: דיון: חוק מס' 10 של מדע הנתונים החדש - OK למשתנים עקיפים (1/1) - QR Code Friendly
Powered by QR Code Friendly

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

הדף שלנו בפייסבוק

התחברות

כניסות למאמרים
7273239