לפני כשנתיים יצא בחור בעל מודעות מהפכנית בקריאה Data emancipation! והחביא חיוך צרפתי קטן, אבל זה רציני. הנתונים משתחררים והולכים. באמריקה מתנהל מזה כ-4 שנים פרויקט רוחבי מקיף ברשויות הממלכתיות והמקומיות, לשחרור נתונים ולהמרצת יזמות שימוש בהם לרווחת התושבים, ראו groups.google.com/group/sunlightlabs. אגב, אשמח לדעת על דברים דומים בארץ.
הגדרה* של נתונים חופשיים: נתונים ממקורות פתוחים, או ממקורות קימים חינמיים ונגישים לקהל הרחב. *זו הגדרה פרטית, שבאה לשרת את האבחנה בקו פרשת המיים שעובר בין נתונים מתוכננים לבין כאלה שפשוט ישנם. את הנתונים המתוכננים אנחנו מכירים ויודעים כיצד להשתמש בהם, בשבילם נוצרה הסטטיסטיקה. הנתונים החופשיים זה המשלים ההפוך, אנחנו לא מכירים את כל מה שנכנס אליהם, לא יודעים להשתמש בהם, ומי שמנסה מתוך הרגל להשתמש בסטטיסטיקה נתקל די מהר בקירות של "רעש", "זנב ארוך" ו"התאמת יתר" שיכולים ליאש את טובי מטפסי הקירות.
בתפיסה של פתרון GT-כריית-נתונים כל זה לא חדש, וקיבל תשובה עקרונית מזמן: הפרדה לקבוצות, clustering. הקבוצות אמורות להפריד את התופעות השונות ולהחזיר לנתונים את ההומוגניות ויחד איתה את היכולת להבין ולתכנן וכל יתר התכונות שמתאימות למודל הסטטיסטי. השאלה, חברים, היא, איך להגדיר את הקבוצות המופלאות האלה, שיעשו סדר באחת, ויפילו כל דבר למקום הנכון שלו. יש אומרים שזה בלתי אפשרי. אני לא מהם :)