הצטרפו לקבוצות שלנו לקבלת עדכונים מרוכזים פעם בשבוע:

ווטסאפ:
http://wa.dwh.co.il
טלגרם:
http://telegram.dwh.co.il

תכנה לתרגול DWH BI

More
18 years 10 months ago #328 by רונן בצלאל
שלום,

מכיוון שאני חדש בתחום, הייתי מעוניין לדעת, בעזרת איזו מערכת הכי קל/נגיש/כדאי להתחיל לתרגל יצירת DWH, קוביות נתונים, כריית נתונים וכו'.

מאיפה ניתן להוריד תוכנה/דמו וכו' בכדי לתרגל ולעבוד?


תודה לכל תגובה,

רונן

Please התחברות to join the conversation.

More
18 years 7 months ago #608 by eldad
הכלי הכי נגיש הוא SQL SERVER (לדעתי).
אתה יכול להוריד גרסת EVAL מהאתר של מיקרוסופט.

Please התחברות to join the conversation.

More
18 years 7 months ago #690 by Edith Ohri
SQL הוא כלי אחזור מידע, שלא יכול לתת תובנות חדשות (רק להוכיח או להפריך השערה שמוגדרת מראש). לכן, הוא מנצל רק חלק קטן מהמידע שבנתונים, וזה לא מספיק.
בנוסף, יש סיכון שהמסקנות -SQL, יהיו לא נכונות. לדוגמא - הוא לא יזהה התחלה של מגמות חדשות, לא יבחין בתופעות מורכבות.

המטרה ב- BI היא להבין מהנתונים חוקים חדשים. SQL לא נועד למטרה של הגדרת חוקים. לכן לא הייתי ממליצה עליו לצורכי BI. אם אין ברירה, להשתמש בו אבל בזהירות.



בברכה
אדית

Please התחברות to join the conversation.

More
18 years 6 months ago #840 by eldad
ל SQL Server יש מספר מודולים של Data mining שכן מאפשר להגיע לתובנות חדשות.
אני אומנם  לא גורו בתחום ה data minning אבל עברתי קמה קורסים באוניברסיטה אפילו
ביצעתי את פרוייקט הגמר ב data mining וגם שיחקתי עם במודלים של ה DM ב Sql Server.
אני ממליץ לך להיכנס ל:
msdn2.microsoft.com/en-us/library/ms345131.aspx

או לקנות את הספר Data Mining with SQL Server 2005

נכון שהשוק הולך לכיוון של להוציא יותר מהמידע, מיקרוסופט הביאו את ה BI להמונים
מחר זה הולך להיות DM להמונים.

Please התחברות to join the conversation.

More
18 years 6 months ago #848 by Edith Ohri
לא משנה כמה יתאמצו למכור מודל אחזור בתור כריית נתונים, זה לא יעזור. כריית נתונים דורשת גילוי חוקים חדשים, לא איתור מידע לפי חוקים ישנים.

בא נעבור על מספר טיעונים בסיסיים:

בשיטת SQL המשתמש מגדיר למערכת מה לחפש.
המשתמשים מנקים רשומות חריגות, לפני הכל. גם פעולה זו דורשת הגדרה מראש של "חריגות".
מערכות אחזור משוכללות, כמו גוגל, מספקות ביטויים אסוציאטיביים לעזרה בחיפוש, וגם זה מוגבל לנסיון העבר שהצטבר במערכת. זה לא יכול לענות לצורך של מי שמחפש מידע חדש.
יעילות החיפוש ב-SQL תלוייה ביכולת של המשתמש להגדיר פרמטרים יעילים. בכריית נתונים מגלים פרמטרים חבויים. אלה לא עומדים לרשות משתמשי SQL.

ועוד: SQL הוא מודל דטרמיניסטי, בשעה שבמציאות ההגדרות תמיד מטושטשות (fuzzy) בבין היתר בגלל איכות קלט לא-אחידה. המודלים הדטרמיניסטיים מנקים מהקלט רשומות "חריגות", ומאבדים בכך מידע חשוב ומכוונים את התוצאות למבוקש.
ראיתי ניתוחי נתונים ממושכים ויקרים שנגמרו בלי שום מסקנה, בגלל הסטריליזציה הזאת של הנתונים, שמיצרת סביבה מדומה ללא הפרעות, שהיא שונה ואינה מיצגת את מה שקורה במציאות.

אשמח לשמוע דעות נוספות.


בברכה
אדית

Please התחברות to join the conversation.

  • koko_mac
  • Visitor
  • Visitor
18 years 6 months ago #849 by koko_mac
Replied by koko_mac on topic בעניין: תכנה לתרגול DWH BI
אני חושב שה"וויכוח" מיותר

data mining הוא לא חזות הכל ולא כל משתמש/ארגון זקוק למנגנון שכזה,חיפוש תבניות ויצירת תבניות חדשות ומידע חדש אינו בהכרח הרצוי והמטרה הנעלה

גם מבחינה טכנולוגית יש כבר טכנולוגיות הרבה יותר מתקדמות שעולות על ה- DM כך שגם הוא בעיני לא הכי מעודכן ו"מפגר" במקצת מאחור.
אפשר לתת אלף ואחד דוגמאות לדוחות/נתונים/מבנים שהצרכן לא זקוק ל -DM
בין אם תסכימי על כך או לא יש ל- SQL,שאילתות ומבני נתונים הרבה מה לתת ולא הייתי מסתכל עליהם בכזאת נינוחות ממרומי ה- DM...

Please התחברות to join the conversation.

More
18 years 6 months ago #855 by Edith Ohri
"יש כבר טכנולוגיות הרבה יותר מתקדמות שעולות על ה- DM" ???
- יצרני התכנה הגדולים ישמחו לשמוע. זה היה שווה להם מיליארדים.


בקשר לשימוש בדוחות רגילים, שים לב, הם עונים רק על צרכים שהמשתמשים מגדירים מראש. זאת אומרת, אין בהם תשוב לצרכים חדשים.

לגבי כתיבה ממרומי DM:
יישומי BI הם יקרים, והניצול שלהם, לדעת מומחים, מגיע בקושי לאחוז מתכולת המידע. בהתחשב בעלויות הייצור, אחזקה, גיבוי, הסבה, אחסון ושמירה של נתונים, זה קריטי להעלות את יעילות ניצול הנתונים. השיטות הישנות מוצו. DM בא עם הבטחה חדשה. הערך הכלכלי של זה גבוה. זה ענין מעשי.


בברכה
אדית

Please התחברות to join the conversation.

More
18 years 6 months ago #862 by eldad
עדית, יש לי הרגשה שלמרות שאת מכירה כל מני תוכנות קלאסיות לDM
את לא מכירה את התוספות של ה DM ב sql server.

Please התחברות to join the conversation.

More
18 years 5 months ago #870 by Edith Ohri
אלדד,
אשמח בהחלט ללמוד.
אך הבעיה היא עקרונית, לא של אי הכרת תכנה. אנסח זאת בקיצור:
כריית נתונים היא "שיטה לגילוי תופעות לא ידועות", בעוד ש SQL למיטב ידיעתי עובד על העקרון של אחזור מידע לפי שאילתות מוגדרות מראש. כך שאי
אפשר לגלות בעזרתו תופעות לא ידועות.

אדית



בברכה
אדית

Please התחברות to join the conversation.

More
18 years 5 months ago #873 by eldad
עידית,
את Weka את מכירה?
אני בצעתי ניתוח DM מסוג Time Series בעזרת תוכנה זו (בהנחית mark last) ע"מ לבצע חיזוי.
קיום אני יכול לעשות אותו דבר ע"י שימוש במודול המוכן של מיקרוסופט
כפי שאת יודעת כל הרעיון הוא גילוי תבניות "לא ידועות"
אלדד

Please התחברות to join the conversation.

More
18 years 5 months ago #876 by Edith Ohri
אלדד,
לא מכירה את Weka. מזה?
בעברי הרחוק התעסקתי עם חקר ביצועים, והמונח Time Series מוכר לי משם בתור ניתוח סטטיסטי, כלומר יודע רק לאשר או להפריך השערות שמביאים אליו.
אבל אם זה הביא לך תועלת, בטח יש בזה משהו. אתה יכול להרחיב קצת את הדוגמא שהזכרת?



בענין חיזויים:
בשבילי, חיזוי הוא דבר אחר לגמרי מגילוי. חיזוי הוא השלכה של עובדות וחוקים ידועים על העתיד, בעוד שגילוי הוא חשיפת חוקים לא ידועים.
לא ארחיב את ענין החיזויים כאן כדי לא לסטות. אפשר לפתוח נושא חדש.

אדית


בברכה
אדית

Please התחברות to join the conversation.

More
18 years 5 months ago #886 by eldad
אני מבולבל,
האם מציאת קשרים בין משתנים  ובנייה של עצי החלטה זה לא חשיפה של דבר לא ידוע?
למרות שבשורה התחתונה המודל ישמש לטובת חיזוי ( לאחר מציאת הקשרים) ?
אלדד

Please התחברות to join the conversation.

More
18 years 5 months ago #887 by Edith Ohri
הגדרת המישתנים ב-SQL היא נתונה מראש. בנתונים מסובכים היכולת לאתר מישתנים היא נמוכה. נראה לי שאתה סומך יותר מדי על המודל של עצי-החלטה. הוא בסופו של דבר מבצע רק איחזור, לפי הגדרות שהמשתמש יודע להציב. זו מגבלה. בכריית נתונים לא תמיד ידוע אפילו מה בדיוק המטרה.

לדוגמא, המטרה 'להגדיל את המכירות'. המישתנים שמבטאים את המטרה יהיו, נניח, מכירות גדולות, היקף גדול של מכירות שנתיות ללקוח, ואולי גם משלוחים גדולים.
נניח שידוע, שמבחינת הלקוחות, גודל ההזמנה תלוי במידה רבה במישתנים תנאי אספקה ותשלום. עץ-החלטות, אם נכניס לתוכו את המישתנים דלעיל, ימצא את הקשר בין גודל הזמנה לסוגי הסכם שונים, ויביא למסקנה שככל שירבו לתת את תנאי ההסכם המועדף, כן יגדלו המכירות.
המסקנה הזאת היא טריוויאלית ולא שימושית, כי אינה מגלה דבר חדש, וגם לא מתיחסת לעובדה שלא בכל מכירה ניתן להציע את ההסכם המועדף, שכן הדבר תלוי בלקוח ובנסיבות.
אם היינו משתמשים בכריית נתונים, היה מתגלה דפוס ההתנהגות שלם, שמסביר מתי הלקוחות מקבלים תנאים טובים ונענים לכך בקנייה מוגדלת, באיזה מקרים למרות היעדר תנאים מפתים מתבצעות קניות מוגדלות, וכו'.



בברכה
אדית

Please התחברות to join the conversation.

More
18 years 3 months ago #1408 by Edith Ohri
שאלה:

[size=12pt]מה חשוב שיהיה בתכנה לתרגול BI? [/size]


אדית


בברכה
אדית

Please התחברות to join the conversation.

More
17 years 8 months ago #2645 by Edith Ohri

בעזרת איזו מערכת הכי קל/נגיש/כדאי להתחיל לתרגל יצירת DWH, קוביות נתונים, כריית נתונים וכו'


בתשובה לשאלה הראשונה, תכנת 'R' מומלצת ע"י מומחים ל-DM, כולל פרופ' Dave Mease מסטנפורד וגוגל.
התכנה נוחה לתפעול, מתאימה לשימוש במחשב אישי, וניתן להוריד אותה חינם בכתובת:

cran.r-project.org [/size]

אדית


בברכה
אדית

Please התחברות to join the conversation.

More
17 years 8 months ago #2708 by Edith Ohri
[size=12pt]ועוד בהמשך להודעה קודמת:
מומלץ לצפות בסדרת ההרצאות של גוגל Google: Statistics Aspects of Data Mining באתר


בהרצאות מוזכרים כלים וחומר לתרגול שאפשר לנסות. לדעתי זה חומר מצוין, שעושה את המקסימום מהגישה הסטטיסטית. הוא מעביר בצורה יסודית ומסודרת את המונחים והגישות השונות לכריית נתונים. ליודעי אנגלית.



ספרו, איך התרשמתם

אדית[/size]


בברכה
אדית

Please התחברות to join the conversation.

Moderators: Edith Ohri
Time to create page: 0.391 seconds