דירוג משתמשים: 5 / 5

Star activeStar activeStar activeStar activeStar active
 
כשאנו בונים מחסן נתונים, לעתים מזומנות אנו מוצאים את עצמנו עם מבנה בעייתי שגורם להכפלת רשומות. דרך טובה, אך לא תמיד ישימה היא לשטח את הקובץ.

שיטוח קובץ הוא למעשה העברת נתונים ממספר שורות למספר עמודות.

ניקח את הדוגמא הבאה מתחום הביטוח: עבור פוליסה מתקבלת פרמיה חודשית בסך 1000 ש"ח ולפוליסה יש 3 מבוטחים.

נתאר מצב זה בתמונה הבאה:

כמובן שבמצב זה יש לנו בעיה משום שאם נבקש לדעת את פרמיית הפוליסה עבור הפוליסה נקבל 3000 ש"ח , למרות שהפרמיה היא למעשה 1000 ש"ח.

דרך טובה להתגבר על הבעיה היא על ידי שיטוח הקובץ. כלומר, נעביר את הנתונים למצב כזה:

 

 

האם תמיד ניתן לבצע שיטוח כמוסבר לעיל? על מנתח המערכות לקבוע  האם ניתן לבצע זאת. מבחינת ההגיון העסקי  אך אפילו אם התשובה היא חיובית ישנה עדיין שאלה נוספת:"האם מבחינה טכנית ניתן לבצע זאת".

 בדוגמא שנתנו, זה פשוט לבצע את השיטוח, פשוט נוסיף עוד 3 שדות ונשטח את הנתונים בתהליך הגזירה. אך מה יקרה כאשר לפוליסה יהיו 1500 מבוטחים. כמובן שבמצב זה , ניתן לומר שזה בלתי אפשרי לשטח את הקובץ.

לכן כדי לקבוע האם זה אפשרי או לאו ,יש לבצע בדיקה סטטיסטית של הנתונים ולענות על השאלה "לכמה פוליסות יש מבוטח אחד לכמה יש שני מבוטחים וכדומה". רק אחרי שיהיו לנו נתונים אלו נוכל לקבוע היכן מתרכזת המאסה הקריטית של הפוליסות.

נבצע את השאילתה באמצעות select מתוך select.

נתחיל בפנימי: אנו רוצים לבדוק לפוליסה בודדת, כמה מבוטחים יש לה. את זה נבצע באמצעות:

לדוגמא: בדוגמא שנתנו לעיל, נקבל:

polisa  num

  3 5000000

וזאת משום שלפוליסה הספציפית,ישנם 3 מבוטחים.  

הערה: יש להשתמש בalias לאחר הcount.

בשלב הבא, נבדוק לכמה פוליסות יש מבוטח אחד לכמה שנים וכו' על סמך השאילתא הראשונה.

השאילתא השלמה תהיה:

על סמך התוצאות, נוכל לקבוע האם ניתן לשטח או לאו. אם רוב הפוליסות הם עד 5-10 מבוטחים אזי אפשרי ,אם לא אז צריכים לשקול אפשרויות אחרות.

במקרה שפוליסות בודדות מכילות מספר רב של מבוטחים והרוב בתחום קטן, יש לקחת רק חלק קטן מהמבוטחים ואף לסמן את הרשומה כקיימים עוד מבוטחים לפוליסה.

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning