ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: Free Data

Free Data 5 years 3 months ago #8265

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 352
  • קרמה: 0
לפני כשנתיים יצא בחור בעל מודעות מהפכנית בקריאה Data emancipation! והחביא חיוך צרפתי קטן, אבל זה רציני. הנתונים משתחררים והולכים. באמריקה מתנהל מזה כ-4 שנים פרויקט רוחבי מקיף ברשויות הממלכתיות והמקומיות, לשחרור נתונים ולהמרצת יזמות שימוש בהם לרווחת התושבים, ראו groups.google.com/group/sunlightlabs. אגב, אשמח לדעת על דברים דומים בארץ.
הגדרה* של נתונים חופשיים: נתונים ממקורות פתוחים, או ממקורות קימים חינמיים ונגישים לקהל הרחב. *זו הגדרה פרטית, שבאה לשרת את האבחנה בקו פרשת המיים שעובר בין נתונים מתוכננים לבין כאלה שפשוט ישנם. את הנתונים המתוכננים אנחנו מכירים ויודעים כיצד להשתמש בהם, בשבילם נוצרה הסטטיסטיקה. הנתונים החופשיים זה המשלים ההפוך, אנחנו לא מכירים את כל מה שנכנס אליהם, לא יודעים להשתמש בהם, ומי שמנסה מתוך הרגל להשתמש בסטטיסטיקה נתקל די מהר בקירות של "רעש", "זנב ארוך" ו"התאמת יתר" שיכולים ליאש את טובי מטפסי הקירות.
בתפיסה של פתרון GT-כריית-נתונים כל זה לא חדש, וקיבל תשובה עקרונית מזמן: הפרדה לקבוצות, clustering. הקבוצות אמורות להפריד את התופעות השונות ולהחזיר לנתונים את ההומוגניות ויחד איתה את היכולת להבין ולתכנן וכל יתר התכונות שמתאימות למודל הסטטיסטי. השאלה, חברים, היא, איך להגדיר את הקבוצות המופלאות האלה, שיעשו סדר באחת, ויפילו כל דבר למקום הנכון שלו. יש אומרים שזה בלתי אפשרי. אני לא מהם :)

אדית
הביית של GT data mining

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.185 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

אירועים קרובים

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning