ניתוח נתונים סטטיסטי, מקבל רק מישתנים מספריים. מה עושים לגבי המישתנים הלא-מספריים (אלפא-נומריים)? נהוגות לגביהם שלוש דרכים:
להוציא אותם מהניתוח, ולהתחשב בהם רק בסופו, בצורה מילולית-הגיונית ;
לכמת אותם, כלומר, להעריך מה היחס ביניהם ולהציב במקומם ערך מספרי;
להתיחס לכל אחד מהערכים שלהם כלמישתנה מסוג 1 או 0 .
רוב פתרונות כריית הנתונים הולכים בדרך השלישית. ולכן, כתוצאה ישירה מכך שמפרטים את המישתנים האלפא-נומריים, מתארכת רשימת המישתנים, והפתרון נעשה יקר ומסובך.
כל זה להזכיר, בגלל בעיה קטנה אחת של המודל הסטטיסטי שלא יכול להתיחס למישתנים לא-מספריים.
האם זה הכרחי?
- לא! GT לדוגמא, מקבל את הערכים האלפא-נומריים כמו שהם.
איך זה קורה?
- פשוט מאד, GT הוא מודל כריית נתונים אמיתי, ולא הסבה מאולצת של סטטיסטיקה למה שלא נועדה לו.
עד היום לא הקדשתי לכך מחשבה רבה. פשוט, ביישומים הפקתי נוסחאות שמתיחסות לכל המישתנים כולל אלפא-נומריים. עד שפתאום משתמש אחד שאל "מזה"...
אז לכל מי שהסתבך עם מיליון מישתנים שלא אומרים לו כלום, אני אומרת, לא להתיאש.