הנתונים הם לא דטרמיניסטים

Edith Ohri
Topic Author
Offline
Moderator

17 years 3 weeks ago #3907 by Edith Ohri

הנתונים הם לא דטרמיניסטים was created by Edith Ohri

העובדה הבאה תענין מעט מהקוראים בלבד, היא מתיחסת למודל הכריית-נתונים, ולשגיאה שקורית במודלים הלא-מפוקחים. השגיאה של התיחסות לנתונים כאילו הם דטרמינסטים. זה לא נכון, יש אי-וודאות מובנית בנתונים. כלומר, בנוסף לקשרים הלא מוחלטים, גם הנתונים הם לא-מוחלטים.

לדוגמא, אם נפעיל שאילתות CUT & DICE על הנתונים, נקבל קבוצות מעורבות עם תכולה גבוהה של לא שייכים ושגויים. זאת משום שהשיוך לקבוצה הוא לא דטרמינסטי, הוא פאזי.

ההצעה שלי: להשתמש במנגנון ההקבצה, clustering. הקבוצות יכולות לפתור בעיה זו, בזה שהן מקזזות בתוכן את השגויים ואת השונים.

בברכה
אדית

Please התחברות to join the conversation.

Edith Ohri
Topic Author
Offline
Moderator

17 years 1 week ago #3961 by Edith Ohri

Replied by Edith Ohri on topic בעניין: נתונים הם לא דטרמיניסטים

ב מאמר מאתמול ב SmarthData Collective, כותב Jim Harris על איכות הנתונים.
המאמר משווה את האפשרות לטפל בבעיה של איכות הנתונים ע"י מניעת "זיהום" נתונים בזמן כניסתם למערכת, לעומת ניקוי נתונים מאוחר יותר. בחישוב של ג'ים מתקבל שמניעה עולה עשירית מניקוי. הענין הוא שיש דרך שלישית, לחסן את המערכת מרגישות לנתונים לא נקיים, וחיסון השימוש מפני זיהום יעיל מהשתיים הראשונות.

שליטה באיכות היא פתרון לא מספיק בשביל מערכות פתוחות, שמקבלות קלט ממקורות חיצוניים כמו במקרה של מער' אינטגרטיביות, גדולות או וותיקות. מניעה במקום תיקון, נראה לי כאן כאידיאל תיאורטי. במציאות, אין ברירה, חיבים לקבל את העובדה שנתונים אינם חד משמעיים. צריך להתחשב בסטוכסטיות כפולה: (א) התפלגות הקשר בין סיבה לתוצאה (שנלקחת בדרך כלל בחשבון), ו(ב) התפלגות ערכי הקלט בעצמם שמשום מה לא זוכה להתיחסות.
זכור לי אחד משיעורי המעבדה הראשונים שקיבלנו כסטודנטים בטכניון חיפה, שבו הודגם לנו כיצד נתון פיזיקאלי חד-משמעי, הופך להתפלגות של ערכים שונים כאשר הוא נמדד שוב ושוב מספר פעמים... הלקח הוא שיש כאן אמת בסיסית, חוק טבע של מידע, הנתונים הם סטוכסטיים מעצם טבעם.

אדית

users.actcom.co.il/~edit#GT

בברכה
אדית

Please התחברות to join the conversation.

Edith Ohri
Topic Author
Offline
Moderator

17 years 1 week ago #3969 by Edith Ohri

Replied by Edith Ohri on topic בעניין: נתונים הם לא דטרמיניסטים

[glow=yellow,2,300]גם נתונים הנוצרים במערכות אוטומטיות הם סטוכסטיים[/glow]

רבים מניחים שנתונים אוטומטיים הינם נקיים משגיאות אנוש. זה לא בדיוק כך. גם מכונות ומערכות הם יצירי אדם, ולכן ההגדרות שלהם הן לא לגמרי אחידות, והאינטגראציה שלהם מחיבת התערבות אדם ומאפשרת טעויות. בנוסף, דורות של ציוד ותכנה מיצרים בהכרח דרגה מסוימת של חוסר עקביות ושונות, שלא ניתן לתקנה. התוצאה היא, לדעתי, שלא משנה כמה נתאמץ לנקות את הנתונים -
(א) חלק ממקורות המידע נשארים מחוץ לשליטה ולכן לא ניתנים לניקוי,
(ב) יש לצפות לסתירות במטה-דטה,
(ג) אי-אחידות ביישומים ירושת העבר היא בלתי נמנעת.
כל זה אומר אי-וודאות בנתונים עצמם (בנוסף לאי-ודאות בקשר שבין סיבה לתוצאה).

השורה התחתונה, אם לחזור למסר הקודם, היא, שצריך לחסן את כריית הנתונים מהתופעה הבלתי נמנעת של "זיהום" נתונים.

אדית

[size=9pt] users.actcom.co.il/~edit/#GT [/size]

בברכה
אדית

Please התחברות to join the conversation.

Edith Ohri
Topic Author
Offline
Moderator

17 years 5 days ago #4007 by Edith Ohri

Replied by Edith Ohri on topic בעניין: הנתונים הם לא דטרמיניסטים

המשמעות של נתונים לא דטרמיניסטיים היא, שאמצעי עזר שבונים על הגדרה מוחלטת של הנתונים, אינם יעילים.
עצי החלטה, Fish Bone, SQL, cathegorical clustering - כל אלה מתחילים "לזייף" כשמגיעים לנתונים שאינם חד משמעיים.

בברכה
אדית

Please התחברות to join the conversation.

Moderators: Edith Ohri

Time to create page: 0.275 seconds