חוק מס' 19 במדע הנתונים החדש יש לכלול בקלט רשומות חלקיות (שחסרים בהן שדות).
העדרם של ערכי שדות ברשומה עשוי להיות בעל משמעות, במיוחד כשהמשימה היא לפענח תופעות נדירות או חריגות.
דוגמא א': איתור אינדיקטורים מוקדמים לסרטן צואר הרחם.
בבדיקות מעבדה שנערכו בבית חולים איכילוב, בנשים שהיה אצלן חשד להתפתחות סרטן צואר הרחם, חסרו בחלק מהרשומות פרטים על המטופל וסיכום חו"ד הרופא.
המדגם היה קטן מדי (פחות מ-200 רשומות) ורב-משתנים, והצטמצם עוד יותר עקב הדרישה הסטטיסטית להוציא רשומות חלקיות. בסיכומו של דבר, ניתוח הנתונים הסטטיסטי לא הניב מסקנות כלשהן.
מאוחר יותר המדגם התגלגל לידי. ניתוח עם GT כולל רשומות חלקיות. התברר כי רוב הרשומות האלה שיכות לדפוס של "סיכון אפסי עד נמוך" ויש להניח שהרופא לא טרח למלא פרטים כי לא ראה סיכון ממשי. איתור הדפוס והכללת הרשומות שלו בניתוח, איפשרו לאבחן את השלב הראשוני של התפתחות המחלה, להגדיר את מאפיני ההתחלה שלה, ומתוכם - את הוירוסים האופיניים שמהווים אינדיקטורים מוקדמים. הוירוסים שאותרו הושוו ונמצאו מתאימים לוירוסים ידועים בקהילה הרפואית (זה היה לפני אישור בדיקת HPV לשימוש בניטור סרטן צואר הרחם). אחד הוירוסים שנחשבים למסוכנים, נמצא בניתוח זה כטיפוסי להתחלה בלבד ושפיר בהמשכה. בנוסף לאינדיקטורים הופקו תובנות להמשך מחקר. תבנה אחת חשובה התיחסה לוירוסים מיוחדים שייתכן וקימים בישראל ואינם כלולים בבדיקת HPV.
דוגמא ב': מחקר נפילות קשישים. ממדגם מחקר נפילות קשישים שנערך בבי"ח מאיר בכפר-סבא, סולקו הרשומות החלקיות של מטופלים שנפטרו במהלך המחקר. סילוק הרשומות החלקיות, גרם לטשטוש התוצאות והטיה שלהן עד כדי אבסורד! בין היתר, התקבלה תוצאה סטטיסטית בלתי הגיונית, לפיה יש כביכול קשר הפוך בין גיל לחומרת סיכון נפילה של מבוגרים (הסבר: המקרים הקשים שמסתימים במוות סולקו מהמדגם ואיתם הרשומות הקיצוניות של גילים גבוהים ונפילות מסוכנות, כך שסטטיסטית נראה כאילו בגיל גבוה פוחתת חומרת הנפילה...).
ניתוח באמצעות GT העלה ממצאים מענינים לגבי גורמי סיכון שלא כאן המקום להעמיק בהם, ואף סיפק הסבר לממצא הסטטיסטי בדבר קשר הפוך כביכול בין גיל לסיכון נפילה. התברר ב drill-down שבכל הקבוצות מלבד אחת המאופינת בגיל גבוה ומחלות קשות, קימת החמרת הסיכון עם הגיל, ורק בקבוצה החריגה הקשר בין גיל לסיכוני נפילה הינו הפוך, אך זאת יש להניח בגלל הוצאת הרשומות של מקרי מוות המתרכזים בעיקר בקבוצה זו...
בברכה
אדית
Last edit: 4 years 5 months ago by Edith Ohri. Reason: ניסוח
בהמשך לדוגמא ב' שבה ניתוח סטטיסטי הוביל לתוצאה, כאילו יש קשר יורד בין הסיכון לנפילות לגיל של מטופלים מבוגרים -
זו תוצאה שגויה שמקורה יש לשער הוא ברשומות הנפטרים שהוצאו מהמדגם בגלל היותן חלקיות. הנפטרים הם ברובם מבוגרים בסיכון גבוה, ואילו נכללו בניתוח היו "מושכים" את העקומה כלפי מעלה (והופכים את הקשר לעולה).
טעות זו ממחישה את האבסורד של ההנחה הסטטיסטית IID - "הפיזור הבלתי תלוי והאחיד" של ערכי משתנים במדגם.
למותר לצין, שאי קיום הנחה כה בסיסית כמו ה-IID בניתוח הסטטיסטי המוצג באיצטלה מתמטית מדויקת, משבש את המסקנות המתקבלות ואת היכולת לתקן אותן.
עוד בנושא
gtdatamining.blogspot.com/2016/09/the-la...ails-in-big.html?m=0