למידע מצטבר יש ערך גדול בהרבה מאשר לנתונים כל-אחד-לעצמו. זהו חוק טבע.
ניקח לדוגמא מידע מספר טלפונים:
מה ניתן לדעת מקריאת שורה יחידה בספר?
אפשר לדעת רק מה שכתוב בשדות הקבועים: שם, תואר, טלפון וכתובת...
מה ניתן ללמוד מספר טלפונים מקומי?
מלבד הפרטים הקבועים לכל רשומה – שם, תואר, טלפון וכתובת (ורק הם כתובים במפורש), ניתן ללמוד מכלל הפרטים גם על גודל האוכלוסייה המקומית, אולי על ההרכב שלה, מס' הקווים לאדם, ועל תכונות האזורים שבהם יש לאדם יותר מקו אחד (זה מידע אינדיקטיבי).
ומה נותן ספר טלפונים ארצי?
מהספר הארצי אפשר גם להפיק מידע לשיווק, להגדיר מדדים סוציו-אקונומיים, שירותי ערך מוסף, ועוד. ספר הטלפונים הארצי הוא כבר ממש נכס.
למעשה, כל שלושת מקורות המידע דלעיל מכילים אותם שדות מידע בסיסיים, מהיכן אם כן, בא המידע הנוסף?
- מתוך ס"ך הנתונים והקשרים הסמויים שמחברים בין הרשומות.
המסקנות נובעות מהבנת המכנה המשותף של חלקי המידע וקשריהם לנושא שמענין אותנו. כמו, נניח, סוגי אוכלוסייה, וריכוזים אתניים שהם יעד למוצרים שאנחנו משווקים.
לכן חיוני שהפתרון ידע למצוא קשרים סמויים בתוך נתונים לא חופשיים (unsupervised), כמו שעושה פתרון GT (הסברים ודוגמאות בנוסף לפורום, ב:
users.actcom.co.il/~edit/#GT
).
'ערך גדל של מידע מצטבר' הוא רעיון וותיק מאד. להבנתי, האתגר המעשי הוא, לדעת להשיג מסקנות רבות יותר ממצבור מידע שגדל בממימדיו. כמובן שייתכנו דעות אחרות, אך אמשיך לפי שעה לפרט בכיוון זה.
אפשר לחלק את כל הפתרונות לשלושה סוגים:
אישור או דחיית השערות (סטטיסטיקה)
לימוד (רשתות עצביות, בינה מלאכותית)
חיפוש (GT)
מפתה מאד להשתמש בפתרון מהסוג הסטטיסטי. נוח להתקדם בעזרתו צעד אחרי צעד, דרך הצבת השערות ובדיקתן אחת לאחת. הבעיה המעשית היא, שככל שמצבור הנתונים גדול וזר יותר, כך יורדת היכולת להביא השערות טובות להסבר הנתונים, וזו הסיבה בדיוק, למיטב ידיעתי, שכריית נתונים בא לעולם.
אתם מוזמנים להביע דעותיכם. בינתיים אמשיך, גם דרך
הדוגמא
שמוצגת בפורום והמסקנות בין היתר של
GT
, לנסות להמחיש את ההבדל בין הפתרונות.