ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: תכנה לתרגול DWH BI

תכנה לתרגול DWH BI 13 years 10 months ago #328

שלום,

מכיוון שאני חדש בתחום, הייתי מעוניין לדעת, בעזרת איזו מערכת הכי קל/נגיש/כדאי להתחיל לתרגל יצירת DWH, קוביות נתונים, כריית נתונים וכו'.

מאיפה ניתן להוריד תוכנה/דמו וכו' בכדי לתרגל ולעבוד?


תודה לכל תגובה,

רונן
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: תכנה לתרגול DWH BI 13 years 7 months ago #608

  • eldad
  • eldad's Avatar
  • Offline
  • Moderator
  • הודעות: 624
  • קרמה: 0
הכלי הכי נגיש הוא SQL SERVER (לדעתי).
אתה יכול להוריד גרסת EVAL מהאתר של מיקרוסופט.
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: תכנה לתרגול DWH BI 13 years 7 months ago #690

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
SQL הוא כלי אחזור מידע, שלא יכול לתת תובנות חדשות (רק להוכיח או להפריך השערה שמוגדרת מראש). לכן, הוא מנצל רק חלק קטן מהמידע שבנתונים, וזה לא מספיק.
בנוסף, יש סיכון שהמסקנות -SQL, יהיו לא נכונות. לדוגמא - הוא לא יזהה התחלה של מגמות חדשות, לא יבחין בתופעות מורכבות.

המטרה ב- BI היא להבין מהנתונים חוקים חדשים. SQL לא נועד למטרה של הגדרת חוקים. לכן לא הייתי ממליצה עליו לצורכי BI. אם אין ברירה, להשתמש בו אבל בזהירות.


בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: תכנה לתרגול DWH BI 13 years 6 months ago #840

  • eldad
  • eldad's Avatar
  • Offline
  • Moderator
  • הודעות: 624
  • קרמה: 0
ל SQL Server יש מספר מודולים של Data mining שכן מאפשר להגיע לתובנות חדשות.
אני אומנם  לא גורו בתחום ה data minning אבל עברתי קמה קורסים באוניברסיטה אפילו
ביצעתי את פרוייקט הגמר ב data mining וגם שיחקתי עם במודלים של ה DM ב Sql Server.
אני ממליץ לך להיכנס ל:
msdn2.microsoft.com/en-us/library/ms345131.aspx

או לקנות את הספר Data Mining with SQL Server 2005

נכון שהשוק הולך לכיוון של להוציא יותר מהמידע, מיקרוסופט הביאו את ה BI להמונים
מחר זה הולך להיות DM להמונים.
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: תשובה לאלדד, נגד המלצתך על SQL בשביל data mining 13 years 6 months ago #848

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
לא משנה כמה יתאמצו למכור מודל אחזור בתור כריית נתונים, זה לא יעזור. כריית נתונים דורשת גילוי חוקים חדשים, לא איתור מידע לפי חוקים ישנים.

בא נעבור על מספר טיעונים בסיסיים:

בשיטת SQL המשתמש מגדיר למערכת מה לחפש.
המשתמשים מנקים רשומות חריגות, לפני הכל. גם פעולה זו דורשת הגדרה מראש של "חריגות".
מערכות אחזור משוכללות, כמו גוגל, מספקות ביטויים אסוציאטיביים לעזרה בחיפוש, וגם זה מוגבל לנסיון העבר שהצטבר במערכת. זה לא יכול לענות לצורך של מי שמחפש מידע חדש.
יעילות החיפוש ב-SQL תלוייה ביכולת של המשתמש להגדיר פרמטרים יעילים. בכריית נתונים מגלים פרמטרים חבויים. אלה לא עומדים לרשות משתמשי SQL.

ועוד: SQL הוא מודל דטרמיניסטי, בשעה שבמציאות ההגדרות תמיד מטושטשות (fuzzy) בבין היתר בגלל איכות קלט לא-אחידה. המודלים הדטרמיניסטיים מנקים מהקלט רשומות "חריגות", ומאבדים בכך מידע חשוב ומכוונים את התוצאות למבוקש.
ראיתי ניתוחי נתונים ממושכים ויקרים שנגמרו בלי שום מסקנה, בגלל הסטריליזציה הזאת של הנתונים, שמיצרת סביבה מדומה ללא הפרעות, שהיא שונה ואינה מיצגת את מה שקורה במציאות.

אשמח לשמוע דעות נוספות.

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: תכנה לתרגול DWH BI 13 years 6 months ago #849

  • koko_mac
  • koko_mac's Avatar
אני חושב שה"וויכוח" מיותר

data mining הוא לא חזות הכל ולא כל משתמש/ארגון זקוק למנגנון שכזה,חיפוש תבניות ויצירת תבניות חדשות ומידע חדש אינו בהכרח הרצוי והמטרה הנעלה

גם מבחינה טכנולוגית יש כבר טכנולוגיות הרבה יותר מתקדמות שעולות על ה- DM כך שגם הוא בעיני לא הכי מעודכן ו"מפגר" במקצת מאחור.
אפשר לתת אלף ואחד דוגמאות לדוחות/נתונים/מבנים שהצרכן לא זקוק ל -DM
בין אם תסכימי על כך או לא יש ל- SQL,שאילתות ומבני נתונים הרבה מה לתת ולא הייתי מסתכל עליהם בכזאת נינוחות ממרומי ה- DM...
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: תכנה לתרגול DWH BI 13 years 6 months ago #855

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
"יש כבר טכנולוגיות הרבה יותר מתקדמות שעולות על ה- DM" ???
- יצרני התכנה הגדולים ישמחו לשמוע. זה היה שווה להם מיליארדים.


בקשר לשימוש בדוחות רגילים, שים לב, הם עונים רק על צרכים שהמשתמשים מגדירים מראש. זאת אומרת, אין בהם תשוב לצרכים חדשים.

לגבי כתיבה ממרומי DM:
יישומי BI הם יקרים, והניצול שלהם, לדעת מומחים, מגיע בקושי לאחוז מתכולת המידע. בהתחשב בעלויות הייצור, אחזקה, גיבוי, הסבה, אחסון ושמירה של נתונים, זה קריטי להעלות את יעילות ניצול הנתונים. השיטות הישנות מוצו. DM בא עם הבטחה חדשה. הערך הכלכלי של זה גבוה. זה ענין מעשי.

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: תכנה לתרגול DWH BI 13 years 6 months ago #862

  • eldad
  • eldad's Avatar
  • Offline
  • Moderator
  • הודעות: 624
  • קרמה: 0
עדית, יש לי הרגשה שלמרות שאת מכירה כל מני תוכנות קלאסיות לDM
את לא מכירה את התוספות של ה DM ב sql server.
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: תכנה לתרגול DWH BI 13 years 6 months ago #870

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
אלדד,
אשמח בהחלט ללמוד.
אך הבעיה היא עקרונית, לא של אי הכרת תכנה. אנסח זאת בקיצור:
כריית נתונים היא "שיטה לגילוי תופעות לא ידועות", בעוד ש SQL למיטב ידיעתי עובד על העקרון של אחזור מידע לפי שאילתות מוגדרות מראש. כך שאי
אפשר לגלות בעזרתו תופעות לא ידועות.

אדית


בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: תכנה לתרגול DWH BI 13 years 5 months ago #873

  • eldad
  • eldad's Avatar
  • Offline
  • Moderator
  • הודעות: 624
  • קרמה: 0
עידית,
את Weka את מכירה?
אני בצעתי ניתוח DM מסוג Time Series בעזרת תוכנה זו (בהנחית mark last) ע"מ לבצע חיזוי.
קיום אני יכול לעשות אותו דבר ע"י שימוש במודול המוכן של מיקרוסופט
כפי שאת יודעת כל הרעיון הוא גילוי תבניות "לא ידועות"
אלדד
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: תכנה לתרגול DWH BI 13 years 5 months ago #876

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
אלדד,
לא מכירה את Weka. מזה?
בעברי הרחוק התעסקתי עם חקר ביצועים, והמונח Time Series מוכר לי משם בתור ניתוח סטטיסטי, כלומר יודע רק לאשר או להפריך השערות שמביאים אליו.
אבל אם זה הביא לך תועלת, בטח יש בזה משהו. אתה יכול להרחיב קצת את הדוגמא שהזכרת?



בענין חיזויים:
בשבילי, חיזוי הוא דבר אחר לגמרי מגילוי. חיזוי הוא השלכה של עובדות וחוקים ידועים על העתיד, בעוד שגילוי הוא חשיפת חוקים לא ידועים.
לא ארחיב את ענין החיזויים כאן כדי לא לסטות. אפשר לפתוח נושא חדש.

אדית

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: תכנה לתרגול DWH BI 13 years 5 months ago #886

  • eldad
  • eldad's Avatar
  • Offline
  • Moderator
  • הודעות: 624
  • קרמה: 0
אני מבולבל,
האם מציאת קשרים בין משתנים  ובנייה של עצי החלטה זה לא חשיפה של דבר לא ידוע?
למרות שבשורה התחתונה המודל ישמש לטובת חיזוי ( לאחר מציאת הקשרים) ?
אלדד
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: תכנה לתרגול DWH BI 13 years 5 months ago #887

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
הגדרת המישתנים ב-SQL היא נתונה מראש. בנתונים מסובכים היכולת לאתר מישתנים היא נמוכה. נראה לי שאתה סומך יותר מדי על המודל של עצי-החלטה. הוא בסופו של דבר מבצע רק איחזור, לפי הגדרות שהמשתמש יודע להציב. זו מגבלה. בכריית נתונים לא תמיד ידוע אפילו מה בדיוק המטרה.

לדוגמא, המטרה 'להגדיל את המכירות'. המישתנים שמבטאים את המטרה יהיו, נניח, מכירות גדולות, היקף גדול של מכירות שנתיות ללקוח, ואולי גם משלוחים גדולים.
נניח שידוע, שמבחינת הלקוחות, גודל ההזמנה תלוי במידה רבה במישתנים תנאי אספקה ותשלום. עץ-החלטות, אם נכניס לתוכו את המישתנים דלעיל, ימצא את הקשר בין גודל הזמנה לסוגי הסכם שונים, ויביא למסקנה שככל שירבו לתת את תנאי ההסכם המועדף, כן יגדלו המכירות.
המסקנה הזאת היא טריוויאלית ולא שימושית, כי אינה מגלה דבר חדש, וגם לא מתיחסת לעובדה שלא בכל מכירה ניתן להציע את ההסכם המועדף, שכן הדבר תלוי בלקוח ובנסיבות.
אם היינו משתמשים בכריית נתונים, היה מתגלה דפוס ההתנהגות שלם, שמסביר מתי הלקוחות מקבלים תנאים טובים ונענים לכך בקנייה מוגדלת, באיזה מקרים למרות היעדר תנאים מפתים מתבצעות קניות מוגדלות, וכו'.


בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: תכנה לתרגול DWH BI 13 years 3 months ago #1408

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
שאלה:

מה חשוב שיהיה בתכנה לתרגול BI?


אדית

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: תכנה לתרגול DWH BI 12 years 8 months ago #2645

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
בעזרת איזו מערכת הכי קל/נגיש/כדאי להתחיל לתרגל יצירת DWH, קוביות נתונים, כריית נתונים וכו'

בתשובה לשאלה הראשונה, תכנת 'R' מומלצת ע"י מומחים ל-DM, כולל פרופ' Dave Mease מסטנפורד וגוגל.
התכנה נוחה לתפעול, מתאימה לשימוש במחשב אישי, וניתן להוריד אותה חינם בכתובת:

cran.r-project.org[/size]

אדית

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: תכנה לתרגול DWH BI 12 years 8 months ago #2708

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
ועוד בהמשך להודעה קודמת:
מומלץ לצפות בסדרת ההרצאות של גוגל Google: Statistics Aspects of Data Mining באתר


בהרצאות מוזכרים כלים וחומר לתרגול שאפשר לנסות. לדעתי זה חומר מצוין, שעושה את המקסימום מהגישה הסטטיסטית. הוא מעביר בצורה יסודית ומסודרת את המונחים והגישות השונות לכריית נתונים. ליודעי אנגלית.



ספרו, איך התרשמתם

אדית

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.210 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning