ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: הנתונים הם לא דטרמיניסטים

הנתונים הם לא דטרמיניסטים 12 years 3 weeks ago #3907

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
העובדה הבאה תענין מעט מהקוראים בלבד, היא מתיחסת למודל הכריית-נתונים, ולשגיאה שקורית במודלים הלא-מפוקחים. השגיאה של התיחסות לנתונים כאילו הם דטרמינסטים. זה לא נכון, יש אי-וודאות מובנית בנתונים. כלומר, בנוסף לקשרים הלא מוחלטים, גם הנתונים הם לא-מוחלטים.

לדוגמא, אם נפעיל שאילתות CUT & DICE על הנתונים, נקבל קבוצות מעורבות עם תכולה גבוהה של לא שייכים ושגויים. זאת משום שהשיוך לקבוצה הוא לא דטרמינסטי, הוא פאזי.

ההצעה שלי: להשתמש במנגנון ההקבצה, clustering. הקבוצות יכולות לפתור בעיה זו, בזה שהן מקזזות בתוכן את השגויים ואת השונים.



בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: נתונים הם לא דטרמיניסטים 12 years 1 week ago #3961

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
במאמר מאתמול ב SmarthData Collective, כותב Jim Harris על איכות הנתונים.
המאמר משווה את האפשרות לטפל בבעיה של איכות הנתונים ע"י מניעת "זיהום" נתונים בזמן כניסתם למערכת, לעומת ניקוי נתונים מאוחר יותר.  בחישוב של ג'ים מתקבל שמניעה עולה עשירית מניקוי. הענין הוא שיש דרך שלישית, לחסן את המערכת מרגישות לנתונים לא נקיים, וחיסון השימוש מפני זיהום יעיל מהשתיים הראשונות.

שליטה באיכות היא פתרון לא מספיק בשביל מערכות פתוחות, שמקבלות קלט ממקורות חיצוניים כמו במקרה של מער' אינטגרטיביות, גדולות או וותיקות. מניעה במקום תיקון, נראה לי כאן כאידיאל תיאורטי. במציאות, אין ברירה, חיבים לקבל את העובדה שנתונים אינם חד משמעיים. צריך להתחשב בסטוכסטיות כפולה: (א) התפלגות הקשר בין סיבה לתוצאה (שנלקחת בדרך כלל בחשבון), ו(ב) התפלגות ערכי הקלט בעצמם שמשום מה לא זוכה להתיחסות.
זכור לי אחד משיעורי המעבדה הראשונים שקיבלנו כסטודנטים בטכניון חיפה, שבו הודגם לנו כיצד נתון פיזיקאלי חד-משמעי, הופך להתפלגות של ערכים שונים כאשר הוא נמדד שוב ושוב מספר פעמים... הלקח הוא שיש כאן אמת בסיסית, חוק טבע של מידע, הנתונים הם סטוכסטיים מעצם טבעם.


אדית

users.actcom.co.il/~edit#GT

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: נתונים הם לא דטרמיניסטים 12 years 1 week ago #3969

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
[glow=yellow,2,300]גם נתונים הנוצרים במערכות אוטומטיות הם סטוכסטיים[/glow] 

רבים מניחים שנתונים אוטומטיים הינם נקיים משגיאות אנוש. זה לא בדיוק כך. גם מכונות ומערכות הם יצירי אדם, ולכן ההגדרות שלהם הן לא לגמרי אחידות, והאינטגראציה שלהם מחיבת התערבות אדם ומאפשרת טעויות. בנוסף, דורות של ציוד ותכנה מיצרים בהכרח דרגה מסוימת של חוסר עקביות ושונות, שלא ניתן לתקנה. התוצאה היא, לדעתי, שלא משנה כמה נתאמץ לנקות את הנתונים -
(א) חלק ממקורות המידע נשארים מחוץ לשליטה ולכן לא ניתנים לניקוי,
(ב) יש לצפות לסתירות במטה-דטה,
(ג) אי-אחידות ביישומים ירושת העבר היא בלתי נמנעת.
כל זה אומר אי-וודאות בנתונים עצמם (בנוסף לאי-ודאות בקשר שבין סיבה לתוצאה).

השורה התחתונה, אם לחזור למסר הקודם, היא, שצריך לחסן את כריית הנתונים מהתופעה הבלתי נמנעת של "זיהום" נתונים.


אדית

users.actcom.co.il/~edit/#GT

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: הנתונים הם לא דטרמיניסטים 12 years 1 day ago #4007

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
המשמעות של נתונים לא דטרמיניסטיים היא, שאמצעי עזר שבונים על הגדרה מוחלטת של הנתונים, אינם יעילים.
עצי החלטה, Fish Bone, SQL, cathegorical clustering - כל אלה מתחילים "לזייף" כשמגיעים לנתונים שאינם חד משמעיים.

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.184 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning