ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: הערך של מידע מצטבר

הערך של מידע מצטבר 10 years 11 months ago #5818

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
למידע המצטבר יש ערך גדול בהרבה מאשר לפריטי המידע כל-אחד-לעצמו. זהו חוק טבע. .



ניקח לדוגמא מידע מספר טלפונים:

מה ניתן לדעת מקריאת שורה יחידה בספר טלפונים?
לא יותר ממה שכתוב בה במפורש: שם, תואר, טלפון וכתובת...

לעומת זאת, מה ניתן ללמוד מספר טלפונים?
בנוסף לפרטים הקבועים הנ"ל – שם, תואר, טלפון וכתובת, ניתן ללמוד מכלל הפרטים גם על גודל האוכלוסייה המקומית, הצפיפות, הרכב אתני, מס' קווים לאדם, ועוד מידע אינדיקטיבי כגון: תכונות האזורים שבהם יש לאדם יותר מקו אחד, אוסף האנשים בעלי מספרי טלפון 'יפים', כמות האנשים בעלי תארים, כמות הטלפונים שבהם מצוינים בני משפחה, ועוד.

ומה נקבל אם נסתכל בספר טלפונים ארצי עם מהדורות קודמות?
מאגר טלפונים ארצי הסטורי, יכול לשמש ללימוד שינויים דמוגרפיים ומגמות חברתיות-כלכליות, אזורים מתפתחים, צפי לצריכת שירותים באיזורים בעלי מאפינים ספציפיים, ועוד מידע שיווקי ורעיונות לשירותי ערך מוסף. מאגר הטלפונים הארצי הוא כבר ממש נכס.


השאלה המענינת כאן היא, מהיכן בא המידע הנוסף? הרי כל שלושת מקורות המידע דלעיל מכילים אותם שדות מידע אלמנטריים.
המידע הנוסף שאנו משיגים, איננו רק ריכוז של נתונים הכתובים במפורש, אלא מידע מעובד שנובע מתהליך של ניתוח והפקת מסקנות. מידע כזה מטיבו נתון לפרשנות, וההיקף והעומק שלו תלויים בכלים שבהם עושים שימוש.


איך נוצר ידע מנתונים אלמנטריים?
המידע הנוסף נוצר מתוך סיכומים, הגדרות (לדוגמא, הגדרת clusters וזיהוי שלהם), והשוואות של הרשומות והקשרים ביניהן. התבנה נובעת מהבנת המכנה המשותף של קבוצות רשומות, היחסים ביניהן, והקשר שלהן לנושא שמענין אותנו.
אם אנחנו מחפשים, נניח, שווקים מתאימים למוצר, יענין לדעת מה השינויים באוכלוסייה הטיפוסית של אותו מוצר, והיכן נמצאים הריכוזים האתניים והאחרים שהם יעד פוטנציאלי לשיווק.


הכנת מחסן נתונים לשימושים לא צפויים
בתוך המשפט הזה טמונה בעיה: איך אפר לתכנן בלי לדעתמראש מה המטרה? כמובן שאי אפשר.
השימוש בנתונים יכול לבא מכל כיוון, אין לדעת מראש מראש איזה מידע יהיה דרוש, וכמה חשוב לאגור אותו באופן סדיר, ולא משנה כמה מחסן הנתונים גדול, לעולם חלקים שלמים מתוכו יהיה לא רלוונטיים למשתמשים, ותמיד יהיו צרכים אמיתיים ודחופים שאין בו עליהם מענה.

לכן, חיוני להצטיד בפתרון שיודע לקחת נתונים לא-שלמים ממספר מקורות, לאבחן בתוכם דפוסי התנהגות, ולאתר קשרים בים של נתונים מורכבים, חלקם לא מתוכננים ובאיכות לא אחידה. פתרון כריית נתונים כזה ליד ה-DWH, חיב להיות מסוגל להפיק מסקנות חדשות, ולא רק לענות לשאילתות או לבחון השערות שהמשתמש מגדיר, והכי חשוב, אלה צריכות להיות מסקנות שניתנות לאימות לפני האירוע ולא "אחרי שהכל נגמר".


ערך המידע שמסתתר בנתונים?
עושר המידע שמסתתר מאחורי מצבורי הנתונים, הוא הסיבה לכינוי "כריית" נתונים, עם רמז לכריית זהב. באיזה מידה מצליחים היום להפיק את הזהב מהעפר? - כמעט כלום.



 על שימוש בסטטיסטיקה לצורך כריית נתונים.
כללית, לפנינו עובדה הסטורית: אם אפשר היה להמשיך בניתוח נתונים סטטיסטי, לא היו ממציאים את ענף כריית הנתונים.
לעצם הענין, הבעיה בסטטיסטיקה היא שאין בה מידע חדש. התפקיד שלה הוא בעקרון רק לאשר או להפריך השערות, וככל ש"שיטפון המידע" גובר, כן יעילותה יורדת (בגלל הקושי בייצור השערות והכנת מדגם נתונים).
הדבר המוזר הוא, שהיינו מצפים שריבוי הנתונים ישפר את הדיוק הסטטיסטי, אך בפועל, בגלל המיגוון הגדול של התופעות, כמות השינויים, בעיות של אי-אחידות בנתונים, ותלות בתהליכי עדכון שונים - קורה ההיפך, והשליטה בניהול פעילות בעזרת מערכות נתונים מקיפות, היא היום באופן אבסורדי פחותה מאשר אצל הקדמונים שהיו מצוידים בעפרון וניר בלבד...

 ה-IT מביא צרכים חדשים של ניתוח נתונים
אם בעבר חיפשנו אופטימיזציה ומבחן השערות, היום מחפשים למצוא "מה אומרים הנתונים" מה דפוסי ההתנהגות שלהם, מה הגורמים המשפיעים ואילו משמעויות לא ידועות יש להם. הירידה בניצול שפע הנתונים כמתואר לעיל, ממחישה על איזה קרח דק של הנחות הלכנו עד כה עם הניתוחים, עם איזה פנס זעיר ניסינו להאיר את המרחב העצום של האירועים, ועד כמה היינו מוגבלים בניתוח וחשופים לסיכונים של טעות.
זה תמיד מזכיר לי, שלמילה mining יש באנגלית שני פירושים, האחד – כרייה כמו בכריית זהב, והשני – הנחת מוקשים (בעברית כריית בור יקוש).

 סוד כריית נתונים מוצלחת הוא בהפרדה לקבוצות טיפוסיות
הרעיון העיקרי בכריית נתונים הוא, לפרק קודם את הנתונים המורכבים ל- Clusters של קבוצות הומוגניות. הפירוק הכרחי כדי שתופעות סותרות לא יבטלו זו את זו, ויוגדרו כל אחת בפני עצמה.
בהיקפי הנתונים סבוכים או גדולים, אין ברירה אלא לבצע את הפירוק לקבוצות באופן אוטומטי.
למעשה, האופציה של פירוק ידני, היא בלתי מומלצת גם למקרים פשוטים ומצומצמים. כל "קיצור דרך" אינטואיטיבי בהגדרת ה-Clusters בא בסופו של דבר על חשבון האובייקטיביות ועומק המסקנות, ואינו משאיר עקבות. להגדרה הידנית-אינטואיטיבית יש פוטנציאל גדול מדי לטעות ולא כדאי להסתבך עם זה.



מידע נוסף - users.ctcom.co.il/~edit/#GT

בברכה
אדית
עריכה אחרונה: 10 years 11 months ago  ע''י Edith Ohri. סיבה: שימוש באדיטור של DWH. אם זה היה אדיטור של WORD או של ה"כתבן" היה אפשר לערוך בנפרד ולהעתיק הנה בלי עריכות חוזרות.
הנהלת האתר ביטלה גישת כתיבה ציבורית.

הערך של מידע מצטבר 5 years 1 month ago #8333

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
תאריך הפרסום המקורי: 04 יולי 2010 15:42

שינוי כתובת, כתובת דואל חדשה: This e-mail address is being protected from spambots. You need JavaScript enabled to view it.
שינוי טלפון, המספר החדש: 054-3179161

בברכה
אדית
עריכה אחרונה: 4 years 11 months ago  ע''י Edith Ohri. סיבה: הוספת תיקון פרטי קשר לתאריך פרסום מקורי
הנהלת האתר ביטלה גישת כתיבה ציבורית.

הערך של מידע מצטבר 4 years 11 months ago #8342

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
מידע על השימוש במידע
כאשר ספר הטלפונים נמצא ברשת, הוא צובר מטה-דטה ופרטים על המבקרים באתר, מדדי סנטימנטים, פופולריות וסטטיסטיקות, המקומות הגיאוגרפיים של המשתמשים, הפעולות שבצעו באתר, זמני שהותם, האם ניסו לבצע משהו לא חוקי, ועוד.
ספר הטלפונים נהיה משהו אחר בעקבות המידע על השימוש. הוא מעביר את רצונות השוק בזמן אמיתי, מאפשר להבין דפוסי התנהגות מיוחדים, להגדיר שירותי מידע, להתערב, ליעל ולשפר. העלות הנמוכה של המידע על המידע יוצרת יחס אדיר של עלות-תועלת, שמאיץ את הפיתוח העסקי ומשנה במהירות את הרגלי השימוש והמושגים סביב ספר הטלפונים. מכל מה שידענו עליו בעבר נשאר רק האייקון הוירטואלי של ספר עב כרס צהוב.

"ביסודן של מהפיכות תמיד נמצא משאב שופע שמשנה את תהליכי הפקת העושר וחלוקתו בחברה."

אדית
Home of GT data mining

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.210 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning