ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: מיליון מישתנים לא-כמותיים

מיליון מישתנים לא-כמותיים 12 years 8 months ago #2289

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 352
  • קרמה: 0
ניתוח נתונים סטטיסטי, מקבל רק מישתנים מספריים. מה עושים לגבי המישתנים הלא-מספריים (אלפא-נומריים)?  נהוגות לגביהם שלוש דרכים:
  • להוציא אותם מהניתוח, ולהתחשב בהם רק בסופו, בצורה מילולית-הגיונית ;
  • לכמת אותם, כלומר, להעריך מה היחס ביניהם ולהציב במקומם ערך מספרי;
  • להתיחס לכל אחד מהערכים שלהם כלמישתנה מסוג 1 או 0 .

רוב פתרונות כריית הנתונים הולכים בדרך השלישית. ולכן, כתוצאה ישירה מכך שמפרטים את המישתנים האלפא-נומריים, מתארכת רשימת המישתנים, והפתרון נעשה יקר ומסובך.
כל זה להזכיר, בגלל בעיה קטנה אחת של המודל הסטטיסטי שלא יכול להתיחס למישתנים לא-מספריים.

האם זה הכרחי?
- לא! GT לדוגמא, מקבל את הערכים האלפא-נומריים כמו שהם.
איך זה קורה?
- פשוט מאד, GT הוא מודל כריית נתונים אמיתי, ולא הסבה מאולצת של סטטיסטיקה למה שלא נועדה לו.
עד היום לא הקדשתי לכך מחשבה רבה. פשוט, ביישומים הפקתי נוסחאות שמתיחסות לכל המישתנים כולל אלפא-נומריים. עד שפתאום משתמש אחד שאל "מזה"...

אז לכל מי שהסתבך עם מיליון מישתנים שלא אומרים לו כלום, אני אומרת, לא להתיאש.

אדית

users.actcom.co.il/~edit/#GT


בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.209 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

אירועים קרובים

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning