ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: ניהול פרויקט Data Minng

ניהול פרויקט Data Minng 13 years 1 month ago #1787

  • MatatovNissim
  • MatatovNissim's Avatar
  • Offline
  • Fresh Boarder
  • הודעות: 10
  • קרמה: 0
שלום , לכולם !!!

אחרי כמה זמן התעסקות עם כלים (רובם חינמיים) ולימוד תאורתי של DM הגיע זמן לממש משהו בחיים אמתיים.

ופה נתקלתי בכמה בעיות של ממש :

- איך מתניעים פרויקט DM
- איך מסבירים לאנשים ש DM זה שצריך
- איך מתבגרים על פחד אנשים בפני הדבר הלא ידוע כמו DM
- איך גורמים לפרויקט שכזה להימשך

בזמן אחרון אני נתקל יותר ויותר בעבודות של אנשי מחקר שמדברים על Actionable Data Mining . המטרה היא להוציא את DM ממעבדות החוצה ולקבל את כל הקשיים שיש בחוץ (טיוב נתונים , הגדרות מטרות הפרויקט וכוכו).

זה הנושאים שרציתי לדבר עליהם . אשמח לקבל עצות מאנשים שניהלו או מנהלים פרויקט DM

יש מצב ?
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: ניהול פרויקט Data Minng 13 years 1 month ago #1788

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
ניסים, שלום

אני עושה כריית נתונים כל הזמן, לא בארגון אלא בשירות חיצוני. ממה שאני רואה, הקושי המרכזי הוא הסכומים הכבדים ש-DM עולה, והקושי להצדיק אותם כלכלית. אם הצלחת לשכנע להשקיע, זה לא נגמר, ההנהלה מתחילה לנשוף לך כבד בעורף, בעוד שהתוצאות המיוחלות עלולות בשיטות המקובלות להגיע  רק אחרי שנים --  לדברי מנכ"ל SAS בארץ.

על כל אלה שמעתי שהפילוסוף קארל פופר אמר פעם: אם המצב קשה והולך ומסתבך, אין ברירה, צריך לעשות אותו פשוט!

לאור זה ... אני מציעה לגבי יישום DM, לנקוט בגישה הבאה: למצוא פתרון עם סף כניסה נמוך ויכולת לתוצאות מהירות (להקטנת סיכונים).
איפה מוצאים דבר כזה?  - בפתרונות מסוג שירות DM, מה שמכונה SAAS - יישום תכנה בתור שירות.
בהתחלה מגדירים פרויקט ניסיוני מצומצם, רצוי מתחום שהוא בעל משמעות כלכלית, זאת כדי לעזור למכור את היישום להנהלה בהמשך.

מלבד עיצות כלליות לגבי ניהול פרויקטים, שמתאימות גם לכאן, לכריית נתונים יש שני צדדים מיוחדים: חדשנות ואבסטרקציה. הסבר: כריית נתונים ברוב הארגונים הוא 'חריש ראשון', על כל הבעיתיות שבענין. בנוסף, הוא עוסק במידע שהוא באופיו בלתי מוחשי. לכן, כאמור, חשוב מאד לתכנן לתוצאות ממשיות ומהירות, ולבדוק שזה טוב לפני שמרחיבים.

מאחר ויישום DM דורש מעורבות של אנשי תפעול (ולא רק ההנהלה הבכירה, כי בניגוד לפרויקטים של מידע אחרים, DM לא מתרכז רק במחלקת שירותי מחשב של הארגון), כתוצאה מזה, נראה פתאם כאילו פרויקט DM מצריך ללמד את אנשי התפעול ואפילו 'לחנך' אותם להבין את שפת אנשי המידע. זה משתקף בשאלות שהצבת: איך מסבירים לאנשים שצריך DM? איך מתגברים על פחד אנשים מהדבר החדש?
עצתי היא, אם כבר לחנך מחדש מישהו, זה את ספקי DM ולא את אנשי הארגון, שיביאו תוצאות בשפה של המשתמשים, כאלה שמשתלבות בפעילות הארגון באופן טבעי. אי אפשר להפריד בין  מידע ושימושיו. המושגים והמילים, והעבודה של בעל תפקיד הם אותו דבר.

אולי לכך התכוונו גדולים, כמו שהזכרת, במונח Actionable Data Mining - הפיכתו של DM לחלק מהעבודה בארגון.  דרך אגב, לא הרחבנו פה את הדיבור על הצד הכספי, אך רק ע"י יישום פעיל אפשר לצפות ש-DM יחזיר את ההשקעה שלו.


בדבר אחד אנחנו חלוקים , לגבי ההנחה כאילו יש כורח ב"טיוב נתונים".  לדעתי, לא רק שאין כורח, אלא שהטיוב בלתי אפשרי וגם סותר את עצם המטרה של DM, שהיא הפקת ידע ממצבורי נתונים קימים. לטייב את זרם נתוני התפעול זה כמו לטאטא נגד הרוח במטאטא משוכלל נורא שעולה מיליון $. במקום זה, אני מציעה לקחת פתרון שיודע להתמודד עם נתונים באיכות שטח.

אשמח לדבר איתך על הפתרון של GT בהקשר זה.

אדית

users.actcom.co.il/~edit#GT

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: ניהול פרויקט Data Minng 13 years 1 month ago #1796

  • MatatovNissim
  • MatatovNissim's Avatar
  • Offline
  • Fresh Boarder
  • הודעות: 10
  • קרמה: 0
הי , אדית !!!

תודה על התגובה .

לא מסכים שDM זה סכומים גדולים . מבחינת הכלים אפשר לקחת משהו חינמי. מבחינה אלגוריתמית לא נראה לי הם מפסידים במשהו לכלים מסחריים. אבל לוקח זמן לבנות על בסיסם סביבה אנליטית : קלט ממערכות, הערכת מודלים , שמירת תוצאות,הצגת תוצאות  וכו . אם את הולכת לאירגון שם יש מחסן נתונים אזי עלויות קבלת נתונים גם יחיסית נמוכה. תלוי בצחום - יכול להיות שצריך להביא נתונים חיצוניים.

לגבי גישה ליישום DM מאאאאוד מסכים איתך. אם אני יכנס לתחום ששם יש לי לקוח מתענייין , מספיק מבין את תחום העסקי , איכות נתונים סבירה , כמות נתונים סבירה , ותחום בו לא קיים ידע רב מידי (את מכירה אנשים מאמינים שזו שבתחום שלהם הם יודעים הכל ?) אפשר להשיג סוכוני כשל נמוכים ותוצאות מהירות. למה את מתכוונת ל "סף כניסה נמוך" ?

שמעתי על SAAS . לפי שהבנתי שרות זה דברים שנבנים ע"י מומחים DM ומהווה עבור מיישם DM משהו כמו קופסה שחורה. שרות מזהה בעיות וקורה לשרותי אחרים לטפל בהם.

מסכים שמעורבות רבה של מומחי עסק מקשה על יישום כי הם רוצים לדעת איך נעשים דברים ותמיד מנסים להגיע לאיזה דוחץ זה מה שהם מכירים.

לפי מה שהבנתי Microsoft מצליחים בזכות זה שכל דבר אצלהם בשפת משתמשים . במקרה ומתקיימים כל התנאים שלמעלה הם מצליחים אבל ברגע שמהשהו משתבש וצריכים הבנה עמוקה של דברים כדי להתקדם לא ברור איך ממשיכים עם התפיסה שלהם.

לדוגמה מה עושים אם דיוק האלגוריתם 65%. אין להם משהו חוץ מלנסות אלגוריתם אחר לפתור את הבעיה. מומחה DM יכול לנסות כל מני דברים במקרה זה.

המושג שאני משתמש טיוב נתונים הוא יותר רחב (אולי , הכנת נתונים) ממה שנראה לכולם. חוץ מלטפל בחסרים , עקביות ושלמות. יש דברים שאם לא נטפל בהם יגרמו ליצירת ידע שגוי . לדוגמה , אצלנו בארגון מצאנו כל מני מקרים בהם לילדים בני 3 יש 5 שנים של צבירת חיסכון. וזה יכול לגרום לחוקים ורק אחרי זה נגלה שזה לא הגיוני. במקרים מסוימים (אם יש חוק מורכב) לא ברור  האם הגיון יעזור. חוץ מזה כמו שציינת כל ערך המוסף של DM הגילוי דברים לא גיוניים וחדשים.
יש עוד כל מני תנאים בהכנת נתונים.

אני מאמין ש GT משתמש בכלים מסויימים על מנת לטפל בנתוני איכות שטח (השלמת ערכים חסרים , נרמול להורדת רעש , בחירת מאפיינים וכו).

כדי להוכיח ללקוח שכלי שלך עובד טוב היית צריכה לעשות אחד משלושה דברים : להתחיל ולהצליח בכמה פרויקטים ואז ללקוח אין שאלות , להסביר ללקוח איך הכלי עובד או לבנות פתרון ולהוכיח שהוא נכון ויותר טוב על נתונים קיימים או עתידיים.

אפשר כמובן לשלב דברים.

זהו להיום. אני אקרא קצת על GT כדי להבין יותר.
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: ניהול פרויקט Data Minng 13 years 1 month ago #1798

  • שחר
  • שחר's Avatar
  • Offline
  • Junior Boarder
  • הודעות: 39
  • קרמה: 0
שלום ניסים,

אני חושב שאי אפשר למכור Data Mining כמוצר. Data Mining זה לא מוצר, ולא מטרה עסקית ראויה. צריך למכור ללקוח פתרון עסקי, ולתאר לו את הפתרון בשפה עסקית. אני מפעיל שיטות Data Mining על בסיס קבוע, אצל לקוחות רבים, אבל זה לא מה שאני מוכר.

לגבי הכנת נתונים והתמודדות עם סוגיות איכות בנתונים, אני לחלוטין מסכים עם מה שכתבת - לא ניתן (בטכנולוגיה הקיימת) להכניס נתונים גולמיים (כפי שהם נאגרים במערכות התפעוליות של הארגון) לכלי או אלגוריתם, ולקבל תוצאה. בכל פרויקט צריך לבחור את הנתונים, ולהעביר אותם תהליך של עיבוד מקדים.

להתראות,
שחר
שחר כהן, מוביוס פתרונות<br />www.mobius.co.il
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: ניהול פרויקט Data Minng 13 years 1 month ago #1800

  • shalomd
  • shalomd's Avatar
  • Offline
  • Fresh Boarder
  • הודעות: 5
  • קרמה: 0
שלום,

כל מה שכתבו מאוד נכון. ולא אחזור על זה.
דבר נוסף הוא תיאום ציפיות ושיתוף של המנהלים בארגון לתהליך. ככל שמבינים יותר את המסגרת המטרות והדרך ( ללא כניסה לאלגוריתמים המדויקים) העבודה טובה יותר ונתקלת בפחות מחסומים.

הכי חשוב זה לתת פיתרון אמיתי לצורך ולדבר בשפה של הלקוח ולהראות ללקוח את ההחזר על ההשקעה.

אני מאמין גדול ב-SAAS ובפיילוטים מהירים כפתיח לעבודת DM רחבה ולאורך זמן.

שלום
http://www.linkedin.com/e/gis/65985/6559A1514DB9
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: ניהול פרויקט Data Minng 13 years 1 month ago #1809

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
ניסים

> המחיר הגבוה של DM
- התכוונתי למחיר של עלות בעלות, אשר כולל מחיר הפתרון הקנוי, עלות מומחים ואנשי תפעול, עלות ארגון מחדש של המידע והפרעות לעבודה, והוצאות הכנה / אינטגראציה / ניקוי נתונים שפתרון מהסוג המקובל מחיב.


> אפשר להשיג סיכוני כשל נמוכים ותוצאות מהירות. למה את מתכוונת ל "סף כניסה נמוך" ?
- "סף כניסה" הוא ההשקעה ברכישת מערכת או בהתקשרות ליישום. אם ההשקעה מחזירה עצמה תוך פחות משנה, הסיכונים מאירועים לא צפויים יורדת. גם הסיכונים מהנהלה עצבנית יורדים...


> על SAAS . לפי שהבנתי שרות זה דברים שנבנים ע"י מומחים DM ומהווה עבור מיישם DM משהו כמו קופסה שחורה.
- כן. וחוץ מזה, בתור פיצוי על הצרה של "קופסא שחורה", אני מציעה (רעיון בלבד) לדרוש מהספק שייקח אחריות כוללת על הפתרון, כך שלא יצטרכו לרוץ אחריו או חו"ח לשכור מומחים להסביר אותו.


> לפי מה שהבנתי Microsoft מצליחים בזכות זה שכל דבר אצלהם בשפת משתמשים .
- MS ידידותיים למשתמש, אבל כריית הנתונים שלהם לא מבטיחה שתתכנס לתשובה כלשהי, ושהתשובה אמינה. זה לא שימושי לצרכים אמיתיים של ארגון. יחד עם זאת, התרשמתי מיום עיון של MS שהם עשו עבודה טובה בריכוז של טכניקות שימושיות, ושנוח ללמוד איתם.
אולי מישהו מכיר את DM של MS ומוכן לתרום הסבר?


> חוץ מלטפל בחסרים , עקביות ושלמות. יש דברים שאם לא נטפל בהם יגרמו ליצירת ידע שגוי . לדוגמה , אצלנו בארגון מצאנו כל מני מקרים בהם לילדים בני 3 יש 5 שנים של צבירת חיסכון...
הדוגמא שהבאת מזכירה לי את המרצה שסיכם שיעור לקהל מעורב ואמר: בממוצע כל אחד מכם בהריון של שבוע!   :-[  
בקיצור: מי שלא מפריד בין סוגי אוכלוסיות צפוי לשגיאות. אפשר רק להתנחם, אולי, שהמתחרים עושים אותן שגיאות.
דרך אגב, בהכנת הנתונים לא נפטרים מכל המכשולים. יתר על כן, עלולים לסלק בניקוי מידע חשוב לניתוח. מוטב לא להתעסק עם הנתונים, כי זה מוריד את איכות המידע.


שחר,
בענין הכנת הנתונים, וודאי תסכים, שאם ניתן לקבל תוצאות טובות בלי הכנה, עדיף, והשאלה היא מעשית: איך להתגבר על בעית הרעש בנתונים.
ההגיון של GT אומר על זה ככה: עצם אפיון התופעות (שהוא עושה), מסביר למשתמש את הייחוד שבקבוצות כמו קבוצת הילדים בארגון שניסים מדבר עליו. בטח יש לקבוצה כזאת מאפינים ייחודיים רבים - סוגי תכניות חיסכון, גיל מוטב, צורת הפקדת הכספים, קרבת מורשי חשבון, ואפילו איזור מגורים וכד'. לכן כל הסיכויים שהיא תיפלט כיוצאת דופן, ובכל מקרה תהיה נבדלת ומוסברת – כל זה בלי ניקוי נתונים שעולה ביוקר מבחינת זמן, כסף, ומידע. מקווה שהסברתי...


- אדית

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: ניהול פרויקט Data Minng 13 years 3 weeks ago #1931

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
ניסים, שלום

יש התקדמות בענין "התנעת פרויקט DM"?

אם לוקחים את הענינים לידיים, DM צריך להיות פרויקט רגיל, שמתחיל בפיילוט ומתרחב בהתאם להשגים. הפוטנציאל הוא גדול.
אשמח לסיע בענין, כאן או התקשר אלי.

אדית

users.actcom.co.il/~edit/#GT

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: ניהול פרויקט Data Minng 12 years 5 months ago #3142

  • MatatovNissim
  • MatatovNissim's Avatar
  • Offline
  • Fresh Boarder
  • הודעות: 10
  • קרמה: 0
הי , אדית !!!

מצטער שלא הייתי יכול להמשיך לדסקס בנושא.

כרגע לא עומד מהשהו על הפרק.

אבל לטאחרונה נתקלתי בדעה שלכוארה נכון נה ולא נוחה עבורי בקשר לכריית נתונים.

נאמר בשיחה שלי עם אחד המנהלים שזה לא שונה מסטטיסטיקה כי DM גם בונה את מודלים שלו על בסיב הנתוני העבר. מייד הסברתי לו שבנקודה הנ"ל אולי הוא צודק אבל הבאתי לו עוד 5-6 סיבות למה DM שונה מסטטיסטיקה.

אבל הנקודה של נתוני העבר ככה נשארה שאלה פתוחה.

אני מבין שיש איזה שהיא הבדל אבל לא מצליח לנסח אותו.

אולי תוכלי לעזור לי בנושא .

הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: ניהול פרויקט Data Minng 12 years 5 months ago #3143

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
ניסים, שלום

תתפלא לשמוע, אני מסכימה לגמרי עם המנהלים שלך, ומעריכה את עמדתם.
אסביר מדוע הביקורת שלהם לא מטרידה אותי. להיפך!!!

ראשית, פשוט נכון עובדתית ש -DM מחזיר את הסטטיסטיקה מהדלת האחורית. מה שדי מאכזב, נוכח ההבטחות להביא פתרון חדש ויעיל לשם שינוי. באקדמיה, DM נלמד כנושא של סטטיסטיקה. אפילו פתרונות רשתות-עצביות ו-AI, מופקים ומוכחים בסופו של דבר על סמך הפרדיגמה הסטטיסטית.
גם לי נראה, שההבדלים בין DM ובין סטט' הוא ברמת ההצהרות ולא כל כך בביצוע.  כמה שזה נשמע הצהרה גורפת, אהיה מוכנה להסביר זאת, אך בא לא נסטה כאן מהנושא.


בקיצור, למנהלים שלך יש סיבה טובה להרגיש שמשהו פה לא בסדר.
הענין הוא, שהם לא ראו את פתרון GT שפותח אצלינו, שהוא שונה מכל אלה. אם תרצה אפנה אותך לדבר או שניים כתובים בקשר לכך.

עכשיו, לעצם המשימה שהבנתי מדבריך שהיא מעסיקה אתכם – להסיק על העתיד מתוך נתוני העבר.  אם אתם רוצים פתרון שלא עושה סתם אינדוקציה מהעבר לעתיד, צריך  שהוא ידע למצוא את החוקיות של התופעות, כי החוקיות ממשיכה לעתיד (האירועים לא ממשיכים, החוקיות - כן). GT יודע למצוא חוקיות, אצל אחרים זה סעיף בעייתי. בשיחות עם אנשים מרכזיים בתחום, כולל מומחי מיקרוסופט, נאמר לי שאין אף פתרון שיודע למצוא תופעות מורכבות, ושהדבר נחשב לבלתי אפשרי כאילו. את GT הם לא מכירים.


לכריית נתונים יש ערך גבוה בכל מקום שמתאספים בו נתונים. זהו ערך נקי כי המידע כבר קים. לכן האטרקטיביות. המטרה היא לבא לערימת נתונים כזאת שהצטברה איפשהו, נניח בתפעול, ולהציג את השאלה: מה ביכולתנו ללמוד ממה שהיה? 
אם חושבים על זה, נתוני העבר הם סימולציה ענקית של הארגון, ומי שיודע לפרש אותה, משיג יתרון עצום!

אשמח לעזור לך בנושא. אולי תביא איזו דוגמא מוחשית? 


אדית

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: ניהול פרויקט Data Mining 12 years 5 months ago #3145

  • MatatovNissim
  • MatatovNissim's Avatar
  • Offline
  • Fresh Boarder
  • הודעות: 10
  • קרמה: 0
זהו . זה מה שחיפשתי שעם DM לומדים חוקים ואם הם מורכבים (זה החיים שלנו) - אין תחליף ל DM. בנוסף האמירה שלך על "סימולציה ענקית של הארגון" גם עוזר בנושא. ז"א אם אני הולך לחזות נטישה כנראה רוב סיבות אני אמצע במשהו שארגון עשה "לא בסדר" או להפך שינה את עצמו וזה להפך השאיר את לקוחות.

עכישיו אני עוד פעם משתכנע ש DM זה אמנות ולא מדע.

אני ראיתי כמה קישורים למימושים של GT . את יכולה להצביע לע 2 הכי מוצלחים (לדעתך). ואם יש משהו בתחום הבנקים או ביטוח - הכי טוב.
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: ניהול פרויקט Data Minng 12 years 5 months ago #3146

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
ניסים,
טוב,
אם עד פה התישרנו, הרשה לי להזכיר מספר שיקולים שכדאי לקחת בחשבון באתחול פרויקט כריית נתונים.

(א) מומלץ לבצע פיילוט, לפני קבלת החלטה כלשהי. פרויקט בהיקף קטן, מגדיל את הגמישות, מקטין סיכונים ועלויות.

(ב) כדאי לקבוע לפיילוט דרישות לא צמודות מדי. כי בנושא כמו DM, שהוא חדש יחסית, מוטב להשאיר מרווח גדול ללימוד דברים שלא הכרנו.

(ג) חשוב להתמקד בנושא בעל ערך כלכלי, שאפשר למדוד בו את הערך של הבטחות הספק, בלי להסתבך בחתונה קתולית. אחרי הפיילוט, התוצאות עם הערך הכספי יעזרו להחליט על ההמשך.




לגבי שאלתך על יישומים בתחום הבנקאות והביטוח, האם זה תחום העיסוק של הארגון, או שזה נושא שמענין אותך אישית?

יש דוגמאות של GT לסקר מנהלים בבנק, ניתוח סקרים, כריית נתוני אחזקה בבנק, ומצגת כריית נתונים של *חברת ביטוח.
*הערה: נדרש תיאום מיוחד.



בברכה,
אדית

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: ניהול פרויקט Data Minng 12 years 4 months ago #3269

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
הערתך, וסליחה שלא שמתי לב אליה קודם:
עכשיו אני עוד פעם משתכנע ש DM זה אמנות ולא מדע.

אוי ואבוי אם זה אומנות. מי שיש לו מודל נורמאלי, עובד עם שיטה ואלגוריתמים!
לא הבנתי, למה אתה מצפה שכריית נתונים תהיה מדע? כריית נתונים זהו תחום שימושי ומעשי מאד. מנסים לנצל מידע שאנחנו מיצרים בעצמינו. זה לא מחקר תיאורטי של חוקי טבע או משהו.

במקרה של הפתרון שלי, GT, המסקנות מופקות בצורה אוטומטית, ואין שם מקום לאומנות.

אדית

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: ניהול פרויקט Data Minng 12 years 3 months ago #3562

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
ניסים, מאחר והתרחקנו מהנושא, בא נמשיך את הדיון ונפתח נושא חדש על השאלה בדבר מסקנות אוטומטיות.


הודעה: הנושא מתפצל.
נושא חדש: מה שמפחיד אותי זה מסקנות אוטומטיות

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: ניהול פרויקט Data Minng 12 years 2 months ago #3672

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
הדבר הכי קשה בניהול פרויקט כריית נתונים זה ההתחלה - להגדיר את הדרישות.

בהתחלה, הלקוח יודע מה הוא רוצה בדיוק. הוא מחפש בד"כ זמן רב פתרון לבעיה מטרידה, ורוצה לדעת מה גורם לזה. באמצעים הקימים אצלו הוא לא מקבל תשובה, ולכן כשהוא מגיע לכריית נתונים, מענין אותו רק לדעת מה התשובה לבעיה כמו שהוא כבר ניסח אותה.
מהנסיון הפרטי שלי בתחום, הגדרת הדרישות כנ"ל, למרות שהיא ממוקדת ונשמעת רציונאלית, לא מגיעה למענה טוב, כי היא מצומצמת מדי, מכתיבה לפתרון היכן להסתכל ואיך לבדוק, ולא מנצלת מה שכריית נתונים יודעת לעשות הכי טוב: למצוא הסברים מכיוונים חדשים.



[glow=yellow,2,300]דוגמא 1: ירידה באיכות מוצר[/glow]
רקע: המפעל מחפש את הסיבה, ועורך ניסויים שונים במשך כשנה. התוצאות לא ברורות. קשה למצוא את מקור הבעיה כיוון שחלו שינויים רבים באותה תקופה.


בסיבוב ראשון התבקשנו למצוא את הסיבות לירידה באיכות בקו הייצור.
כריית נתונים מראה שחלק מהשינויים ההנדסיים גורעים מהביצועים. השינויים האלה אינם ניתנים להחזרה אחורה, לכן הם לא מעשיים ואין טעם לעסוק בהם. עקב כך הדרישה מישתנה.

סיבוב שני: נדרשלהתמקד בדפוסי התנהגות הנתונים בתקופה האחרונה, ששיכים למפרט ההנדסי הנוכחי. כל הרשומות שהתיחסו לגרסאות ישנות מסולקות לפיכך מהקלט. לרשות הסיבוב השני של כריית נתונים עומד בערך רק שליש הקלט, וכתוצאה מכך, אי אפשר ליצר "עומק" של ניתוח נתונים. שוב נערכת התיעצות עם הלקוח.

סיבוב שלישי: הפעם, הדרישה מוגדרת מחדש בצורה אחרת. במקום לחפש את הסיבות לאיכות רק בהנדסה, עכשיו מסתכלים על כל התנאים שהאינטרקציה ביניהם עשוייה לגרום לתקלה: נתוני הסביבה וצורת הניסוי, וגם המפרט הטכני.
הדרישה הסופית שונה מהראשונה בזה, שהיא מרחיבה את אפשרויות הפתרון. צעדי התיקון שמגיעים אליהם עקב כך הם: לתקן את אחד הרכיבים, לשנות את צורת ההפעלה בזמן בדיקת המוצר, להוסיף רכיב עזר לצורך התאמת הביצועים לצורת השימוש הסופי במוצר!.


בשורה תחתונה: GT פתר את בעית האיכות ללא השקעה בקו, ובנוסף עזר להביא רעיון לשדרוג המוצר. .





[glow=yellow,2,300]דוגמא 2: בירור דרישות כריית נתונים ברשת קמעונאית[/glow] 

http://www.engineers.org.il/Index.asp?CategoryID=1372&ArticleID=3067 - מתאריך  12/02/09



אדית

users.actcom.co.il/~edit

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.200 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning