הצטרפו לקבוצות שלנו לקבלת עדכונים מרוכזים פעם בשבוע:

ווטסאפ:
http://wa.dwh.co.il
טלגרם:
http://telegram.dwh.co.il

הנתונים הם לא דטרמיניסטים

More
17 years 3 weeks ago #3907 by Edith Ohri
העובדה הבאה תענין מעט מהקוראים בלבד, היא מתיחסת למודל הכריית-נתונים, ולשגיאה שקורית במודלים הלא-מפוקחים. השגיאה של התיחסות לנתונים כאילו הם דטרמינסטים. זה לא נכון, יש אי-וודאות מובנית בנתונים. כלומר, בנוסף לקשרים הלא מוחלטים, גם הנתונים הם לא-מוחלטים.

לדוגמא, אם נפעיל שאילתות CUT & DICE על הנתונים, נקבל קבוצות מעורבות עם תכולה גבוהה של לא שייכים ושגויים. זאת משום שהשיוך לקבוצה הוא לא דטרמינסטי, הוא פאזי.

ההצעה שלי: להשתמש במנגנון ההקבצה, clustering. הקבוצות יכולות לפתור בעיה זו, בזה שהן מקזזות בתוכן את השגויים ואת השונים.




בברכה
אדית

Please התחברות to join the conversation.

More
17 years 1 week ago #3961 by Edith Ohri
ב מאמר מאתמול ב SmarthData Collective, כותב Jim Harris על איכות הנתונים.
המאמר משווה את האפשרות לטפל בבעיה של איכות הנתונים ע"י מניעת "זיהום" נתונים בזמן כניסתם למערכת, לעומת ניקוי נתונים מאוחר יותר.  בחישוב של ג'ים מתקבל שמניעה עולה עשירית מניקוי. הענין הוא שיש דרך שלישית, לחסן את המערכת מרגישות לנתונים לא נקיים, וחיסון השימוש מפני זיהום יעיל מהשתיים הראשונות.

שליטה באיכות היא פתרון לא מספיק בשביל מערכות פתוחות, שמקבלות קלט ממקורות חיצוניים כמו במקרה של מער' אינטגרטיביות, גדולות או וותיקות. מניעה במקום תיקון, נראה לי כאן כאידיאל תיאורטי. במציאות, אין ברירה, חיבים לקבל את העובדה שנתונים אינם חד משמעיים. צריך להתחשב בסטוכסטיות כפולה: (א) התפלגות הקשר בין סיבה לתוצאה (שנלקחת בדרך כלל בחשבון), ו(ב) התפלגות ערכי הקלט בעצמם שמשום מה לא זוכה להתיחסות.
זכור לי אחד משיעורי המעבדה הראשונים שקיבלנו כסטודנטים בטכניון חיפה, שבו הודגם לנו כיצד נתון פיזיקאלי חד-משמעי, הופך להתפלגות של ערכים שונים כאשר הוא נמדד שוב ושוב מספר פעמים... הלקח הוא שיש כאן אמת בסיסית, חוק טבע של מידע, הנתונים הם סטוכסטיים מעצם טבעם.


אדית

users.actcom.co.il/~edit#GT


בברכה
אדית

Please התחברות to join the conversation.

More
17 years 1 week ago #3969 by Edith Ohri
[glow=yellow,2,300]גם נתונים הנוצרים במערכות אוטומטיות הם סטוכסטיים[/glow] 

רבים מניחים שנתונים אוטומטיים הינם נקיים משגיאות אנוש. זה לא בדיוק כך. גם מכונות ומערכות הם יצירי אדם, ולכן ההגדרות שלהם הן לא לגמרי אחידות, והאינטגראציה שלהם מחיבת התערבות אדם ומאפשרת טעויות. בנוסף, דורות של ציוד ותכנה מיצרים בהכרח דרגה מסוימת של חוסר עקביות ושונות, שלא ניתן לתקנה. התוצאה היא, לדעתי, שלא משנה כמה נתאמץ לנקות את הנתונים -
(א) חלק ממקורות המידע נשארים מחוץ לשליטה ולכן לא ניתנים לניקוי,
(ב) יש לצפות לסתירות במטה-דטה,
(ג) אי-אחידות ביישומים ירושת העבר היא בלתי נמנעת.
כל זה אומר אי-וודאות בנתונים עצמם (בנוסף לאי-ודאות בקשר שבין סיבה לתוצאה).

השורה התחתונה, אם לחזור למסר הקודם, היא, שצריך לחסן את כריית הנתונים מהתופעה הבלתי נמנעת של "זיהום" נתונים.


אדית

[size=9pt] users.actcom.co.il/~edit/#GT [/size]


בברכה
אדית

Please התחברות to join the conversation.

More
17 years 5 days ago #4007 by Edith Ohri
המשמעות של נתונים לא דטרמיניסטיים היא, שאמצעי עזר שבונים על הגדרה מוחלטת של הנתונים, אינם יעילים.
עצי החלטה, Fish Bone, SQL, cathegorical clustering - כל אלה מתחילים "לזייף" כשמגיעים לנתונים שאינם חד משמעיים.


בברכה
אדית

Please התחברות to join the conversation.

Moderators: Edith Ohri
Time to create page: 0.275 seconds