ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: מזה, טעויות בחיזוי או בקלט?

מזה, טעויות בחיזוי או בקלט? 12 years 10 months ago #2345

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
הסטייה הסטטיסטית (שורש הוואריאנס), היא תוצאה שלא ניתן לחקור. מדוע? - כי לפי ההגדרה, כל הסבר לסטייה כבר נלקח בחשבון בהשערות, ובכלל - הסטייה היא גוש בלתי מזוהה מה שנקרא lump sum ואין בה נקודת אחיזה לניתוח. כתוצאה מהקונבנציות הנ"ל, הואריאנס נהיה לבית הקברות של כל ההסברים הטובים שלא ידענו לשער מראש, וסותם את הגולל על כל רעיון לבדיקה נוספת.
עד כאן, מה שרגילים לקבל בניתוח המקובל, כולל כריית נתונים מבוססת סטטיסטיקה.

בפתרון GT לעומת זאת, לכל קבוצה - cluster - מתקבל ואריאנס נפרד. לפיכך, ניתן לציר בו תרשים של גודל הסטייה לעומת מאפיני הקבוצות, ולחפש ביניהם את הגורם האחראי.
לא להאמין כמה יפה שזה עובד. ראה תרשים. פתאום כל תחושות הבטן לגבי קלקולים בנתונים הפוגעים בחיזוי, קופצות החוצה, ומתיצבות על קו ישר שאין לטעות בו, ופירושו: ככל שבקבוצה יש נוכחות רבה יותר של גורם "X", המשתתף בנוסחת החיזוי, כן גדלה הסטייה של החיזוי. זה מביא אותנו לתבנה, שאיכות הקלט של שדה "X" היא מקור הסטייה בחיזוי. 





כאן המקום להעיר, שבהחלט לא כל טעות בקלט היא משמעותית, רוב הטעויות לא חשובות ולא כדאי לבזבז זמן על תיקונן. מה עוד, שמרביתן מתקזזות בניתוח, או שהן קורות בשוליים, ובקלט מאסיבי, נניח נתונים מהרשת, ניקוי הנתונים ממילא אינו מעשי מסיבה טכנית.

הרבה יותר יעיל, לנתח את הנתונים כמושהם, בלי לנקות קודם, ורק אם מתגלה גורם סטייה עקב איכות קלט, להתמקד אחר כך, ולטפל בו נקודתית.
במקרה שבדקתי לאחרונה, לא היה עוזר לנו בכל מקרה ניקוי נתונים מוקדם, כי השדה הבעיתי היה תקין מבחינה לוגית, ולא ניתן לאתרו כשגוי, ואף לו היה מתגלה, לא היה מידע שלפיו ניתן לתקנו.

אדית


למתענינים: מצגת בנושא כשלי סטטיסטיקה

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: מזה, טעויות בחיזוי או בקלט? 12 years 10 months ago #2381

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
איכות הקלט

[glow=yellow,2,300]הגדרה:[/glow] איכות הקלט זהה למונח "מספיקות נתונים". כדי שהקלט יחשב למספיק, צריכים להתקים לפחות שלושה תנאים חשובים:
(א) אמינות רישום של ערכי שדות,
(ב) שלמות רישום,
(ג) ייצוג של גורם-משפיע בקלט.



רכיב האיכות האחרון - "ייצוג של גורם משפיע", הינו המסוכן ביותר כי הוא סמוי ובלתי ניתן להערכה בשיטות המקובלות.  למעשה, כל עוד הייצוג אינו מספיק, חבל להוציא זמן וכסף על ניקוי והכנת הקלט, כי לא בטוח שהוא רלוונטי.
למיטב ידיעתי, רק ב-GT אפשר לבצע את ניתוח הוואריאנס, ולגלות שבקלט יש בעיה.


[glow=yellow,2,300]דוגמא לכריית נתוני מחסן: [/glow]

מטרה:
דרוש למצוא את דפוסי התנהגות הפריטים במחסן ואת זמני האספקה האופיניים שלהם, לצורכי עיתוד מלאי.

השיטה:
זמני עיתוד המלאי מחושבים לפי, זמני האספקה הממוצעים לפריטים השונים, ועוד מקדם הביטחון (סיגמא אחת) שלהם. זאת כדי להבטיח שהזמנה תצא לא מוקדם ולא מאוחר מדי, ושבד"כ יהיה במחסן מלאי זמין להנפקה.

תוצאות GT:
הפריטים מתחלקים ל-6 קבוצות, מתוכן 3 מתנהגות בצורה עקבית וסדירה, ו-3 כמעט בלתי ניתנות לחיזוי.

ניתוח הסטייה (ווריאנס) מראה, שיש קשר בין גודל הסטייה של קבוצה, לשני גורמים:
"X" - הזמנה ראשונה של פריט מספק מסוים;
"Y" - סוג החוזה עם הספק.

ראה התרשים בתחילת הנושא.

בדיקת האיכות של שני הגורמים האלה, לא מעלה שום קלקול שיכול להסביר מדוע הסטייה מתרכזת דווקא בערכים מסוימים שלהם.


פרשנות:
הגורמים "סוג חוזה" ו"מספר הוראה בסדרה" נלקחו בחשבון בנוסחת החיזוי, וכ"כ כאמור, האיכות שלהם תקינה. מכאן נובע, שבעית האיכות היא מהסוג השלישי, הסמוי, של ייצוג גורם כלשהו במידה לא מספיקה בקלט.
מה הדבר שחסר בקלט, שהוא טיפוסי להזמנות "שמיכה" בסוגי חוזים מסוימים? -- בבירור עם הלקוח מתברר, שהגורם החסר הוא, כנראה, ההתיחסות המיוחדת להזמנות ראשונות בחוזים מסוג "הזמנות שמיכה" - מקדישים תשומת לב רבה להזמנות הראשונות שלהם, וסבב האישורים הינו קפדני וארוך הרבה יותר מההזמנות הבאות.

המלצה לתיקון הקלט בדוגמא:
להוסיף שדה "הזמנת מבחן", כדי שנהיה יכולים להפריד את הזמנות ה"שמיכה" הראשונות המיוחדות האלה, ולתת להם נוסחא מתאימה.


אדית

users.actcom.co.il/~edit#GT


בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: מזה, טעויות בחיזוי או בקלט? 12 years 9 months ago #2415

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
אומרים לי: ברוב התכנות לכריית נתונים יש מודול סגמנטציה שמיצר קבוצות - clusters. השאלה היא האם אפשר להשתמש בקבוצות אלה לניתוח גורמי הסטייה?

כללית, התשובה היא, שניתוח באמצעות קבוצות/סגמנטים כאלה אינו יעיל. הסיבה: ברוב הפתרונות, סיווג הקבוצות נשען על השערות/הגדרות המשתמש, ולא על הנתונים גופם.

[glow=lightgreen,2,300]לדוגמא: [/glow]
נניח מגדירים את קבוצות מלאי פריטי רכש לפי מחיר פריט - מחיר גבוה מאד, גבוה, בינוני, נמוך, וכו'.
נניח שהמטרה היא ליצר קבוצות מלאי לצורך רכש מרוכז. נניח שאחד הגורמים הקובעים את גודל ה"מלאי בטחון" במחסן, הוא גיל הפריט במערכת - בפריטים הוותיקים מלאי הבטחון נמוך והטיפול בהזמנות ומשלוחים סדיר, ואילו בפריטים חדשים הטיפול הוא פרטני ומורכב.
נניח לצורך הדוגמא, שגורם גיל-פריט אינו מיוצג בקלט.
במקרה הזה, לא נלמד דבר על גיל פריט מהצבת הקבוצות שהוגדרו לפי המחיר שלו. לכן, עקב העדרו של גורם משפיע מרכזי, נקבל תמונה מעורפלת, כלומר סטיית-חיזוי גדולה שאינה מוסברת ע"י אף אחד מהגורמים המשפיעים שהגדרנו.

הקבוצות של GT נראות אחרת, רב-מימדיות. כאן עשויות להתקבל הקבוצות:
  • פריטים שוטפים כלליים זולים מספקים מקומיים,
  • פריטים מיובאים לפרויקט מסוים,
  • פריטים אלקטרוניים יקרים,
  • חלקים מוזמנים מחברת אחות,
  • פריטים מספקים חדשים.
נוהלי ההזמנה למלאי בכל קבוצה כזאת הינם אחידים, ולכן הגורמים המשפיעים בתוכה הינם עקביים יותר. גורם גיל-פריט יבוא לידי ביטוי, עקב הקשר העקיף שלו לקבוצות: גיל ממוצע של פריטים ממקורות מקומיים, הוותק של הפרויקט המסוים, הגיל הצעיר של טכנולוגיה חדשה באלקטרוניקה, וותק הפריטים המגיעים מהחברה-אחות, והגיל הצעיר הממוצע בקבוצת הספקים החדשים.
זה הכוח של GT, הגדת קבוצות אינהרנטיות. כתוצאה, כאשר נשרטט את סטיית החיזוי לעומת גיל-פריט ממוצע בקבוצה, יעלה הקשר החסר המבוקש (שהוא קל למדי להשלמה), ויהיה אפשר להשתלט על מקור ה"רעש" בניתוח.



אדית


בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: מזה, טעויות בחיזוי או בקלט? 12 years 9 months ago #2456

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
[glow=yellow,2,300]Varianc Analysis - אנליזת הווריאנס[/glow]

אולי היה צריך להתחיל את הנושא, מציטוט הגדרת ניתוח הווריאנס (השונות) הסטטיסטית. הניתוח הסטטיסטי משווה בין ווריאנס הנובע משתי השערות. הוא שימושי רק במקרים שבהם ניתן לשער את קיומן של שתי תופעות, אשר יחד יוצרות פילוג  עם שני שיאים, דו-דבשתי. הוא מחיב, בין היתר, שהפילוג של המישתנה הנבחן יהיה סימטרי. אמנם יש לו מבחן תקני, מבחן T זמין ב-Excel, אך הוא מוגבל למקרה פרטי כאמור לעיל, ובמקרה הכללי היישום שלו מסובך, ולא ראיתי שמשתמשים בו.

ההבדל העקרוני בין ניתוח שונות בGT ובסטטיסטיקה הוא, שב-GT לא דרוש להניח שהפילוג סימטרי, ולמעשה לא דרוש להניח או לשער דבר. המישתנה התלוי שבו, הוא הסטייה שנוצרה בחיזוי שערכנו קודם! ומאחר וגודל הסטייה בקבוצות GT הינו ערך חדש, ניתן להשתמש בניתוח באותו סט נתונים, מבלי להסתכן בניתוח-יתר ותוצאה טריוויאלית.
ייתרון נוסף (גדול) בצורת הניתוח החדשה הזאת, הוא האפשרות לנתח בה מקרים סבוכים ומרובי מישתנים.

יש משהו שונה גם במטרת הניתוח עם GT. המטרה היא לא רק להגדיל את אמינות ומהימנות החיזוי, אלא ובעיקר, להבין את גורמי הסטייה בנוסחת החיזוי, כדי לאפשר להתחשב בהם או לתקן אותם, או סתם לדעת להזהר ממוקשים בנתונים...


אדית

users.actcom.co.il/~edit#GT

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.213 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning