ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: לפתור "סיבוכיות"

לפתור "סיבוכיות" 12 years 3 months ago #3165

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 352
  • קרמה: 0
הבעיה:

סיבוכיות מופיעה כמעט בכל פרויקט של BI.
היא נובעת מנתונים מעורבים שמגיעים מרשת התפעול, מאיכויות שונות, דינאמיקה, ומספר רב של מישתנים, אירועים ומטרות הקשורים ביניהם בצורה לא ידועה. היא הופכת את הנתונים ל"לא-מפוקחים" - unsupervised (ויקיפדיה) ומשבשת קבלת החלטות. 

אפשר לחשוב על מספר דרכים להתמודד עם מצב זה, מהקל אל הכבד:


1. פישוט נתונים

השיטה מתאימה רק למקרים שבהם המנתח מכיר לעומק את הנתונים.
הפתרון הוא לבצע "ניקוי" וארגון הנתונים, להפריד את הנתונים לפי תופעות שונות, ולטפל בכל אוכלוסיה עם סט המישתנים שלה בנפרד.

דוגמא: נניח נדרש לנבא התנהגות לקוחות. המנתח יודע שהלקוחות מתחלקים לשניים - מוסדיים ופרטיים. אחרי פיצול הנתונים לפי קבוצות אלה של לקוחות מוסדיים ופרטיים, יורד מספר המתארים בקבוצה והשונות הפנימית קטנה בהרבה. עקב כך, התוצאות ברורות יותר.

הסבר: מסלקים את הסיבוכיות בעזרת ידע מוקדם.


2. הגדרה מחדש של המשימה

השיטה מתאימה לנתונים סבוכים או באיכות נמוכה, שאין עליהם ידע מוקדם.
הפתרון הוא כשמו, לשנות את המטרה בצורה שעדיין משאירה בידינו את העיקר.

דוגמא: נניח נדרש להעריך תגובה למוצר חדש. הנתונים מגיעים מנקודות המכירה, וכוללים מאות מישתנים באיכות לא ידועה. תוצאות הניתוח שניתן לקבל מנתונים כאלה יהיו מעורפלות מאד. הפתרון הוא, להציג את המוצר כשיפור של מוצר קים (לא כמוצר חדש), להתיחס ל"דלתא" של המוצר ביחס למוצר הקרוב אליו ביותר. היתרון בהצגת ה"הפרש" הוא כפול, מצד אחד - מעלים את העקביות ומפחיתים את הרעש בנתונים, ומצד שני - נוח להבין את המוצר החדש בהשוואה למוצר וותיק, ולתרגם את התגובות לגביו על סמך נסיון העבר בערכים כספיים.

הסבר: שינוי קל בהגדרה מביא למנתח הנתונים נקודת התיחסות מוצקה, ומאפשר בכך לפשט ולהוציא מסקנות ביצועיות.


3. מדידת השינויים ביחס למצב מוכר

השיטה מתאימה רק לתחומים יציבים.
הפתרון: להתיחס לשינויים ביחס לערכים מקבילים שנמדדו בזמן קודם.

דוגמא: הערכת עובדים. במקום להתיחס לכל הגליון-הערכה, לקחת רק את ההפרשים או השינויים מהפעם הקודמת של הערכת עובד.

הסבר: מתארים רבים "נושרים" בדרך זו, כי לא חל בהם כל שינוי, והתמונה מתבהרת.


4. אבחון אוטומטי

השיטה שבוחרים בד"כ אחרי שניסו דרכים אחרות ללא הצלחה... הפתרון הזה מחיב להשתמש במודל שעושה סגמנטציה אוטומטית.

דוגמא: ניתוח גורמי תקלות במוצר שכולל אחזקה באתר הלקוח.
תכנת המחשב מזהה סגמנטים שונים בתוך האוכלוסיה, בעלי מאפינים טיפוסיים, צורת שימוש ייחודית, סדרות ודגמים מסויימים של מוצרים, צוותי אחזקה מסוימים וכו'.
השוואת הסגמנטים (הקרויים גם דפוסי התנהגות או קבוצות) מאפשרת להבין באיזה קבוצה מתרכזות התקלות, ולהתמקד בקטע המשמעותי בתוך הנתונים.

הסבר: פיצול הנתונים לחלקים אחידים וממוקדים יותר, מפחיתים את הסיבוכיות.


~~~~~~~~~~~


אם יש בידכם פתרונות נוספים להתמודד עם סיבוכיות, אשמח לדעת.




אדית

users.actcom.co.il/~edit#GT

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: לפתור "סיבוכיות" 12 years 3 months ago #3195

  • Yoav
  • Yoav's Avatar
  • Offline
  • Moderator
  • הודעות: 1041
  • קרמה: 9
Best Regards

Yoav Yahav

BI & DWH & SAP Business Objects

+972-52-3562982

This e-mail address is being protected from spambots. You need JavaScript enabled to view it.
thebobaba.blogspot.com/
www.bics.co.il/193657/sapbicoeeng
www.bo.dwh.co.il
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: לפתור "סיבוכיות" 12 years 2 months ago #3196

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 352
  • קרמה: 0
יואב, שלום לך
אשמח אם תגיד בתמצית למען הקוראים, מה שיטת Pile Network מציעה לניתוח נתונים סבוכים. לא הדגשתי זאת בתחילה, ואתקן כעת: השאלה היא כיצד לבצע כריית נתונים מסובכים ולהפיק מהם משמעויות, או בקיצור BI.

אודה למגיבים ככלל, אם יחסכו לנו את הזמן ולא ישלחו אותנו לבצע מחקר על כוונותיהם.
הפעם עברתי על 148 העמודים שבמאמרים, ומצאתי שהם נוגעים לבסיסי נתונים סבוכים, אך לא לניתוח שלהם לצורכי BI.

הנה תמצית רשמי כדי לסייע למי שאין לו זמן לקרוא את החומר:
המאמר "A Journey Into The Pile Universe" מדבר על סיבוכיות בתכנה,
המאמר "A System of Pure Relations" דן בפן צר מאד של ביטוי משימות לא היררכיות,
"Freeing Data From the Silos" עוסק בבעית האחסון של נתונים מסובכים,
"Order in Complex Networks" מציע למצוא את הסדר המבני במידע תמלילי או בנתונים סבוכים,
"Processing Data by Assimilating Pure Relations Benchmarking the Pile System" מתאר שוב את שיטת Pile לייצוג ואחסון נתונים סבוכים בצורה שמתאימה לסוכני תכנה רלציוניים.

לסיכום, השיטה Pile נראית כפתרון מענין מאד לבסיסי נתונים. אבל, אחסון נתונים ואפילו יעיל, עדיין לא פותר את בעיית ניתוח הנתונים המסובכים. אלה הם שני דברים אחרים. אנו נתקלים כל הזמן בבסיסי נתונים היררכיים מסודרים, ובכל זאת הכמות הגדולה, תערובת התופעות השונות, הקשרים שאין עליהם מטה-דטה, וההשתנות הלא סדירה תוך צבירת נתונים - כל אלה עושים את שיטות הניתוח המקובלות לבלתי יעילות. אחסון משופר כמתואר במאמרים הנ"ל, לא מבטיח כלל ועיקר פיענוח של הנתונים שהוא מטרתנו.


פתרון של סיבוכיות גם אמור להיות לטעמי, בעקרון, זמין לשימוש. ניתוחי המידע לא מחכים לנו. אי אפשר להגיד למנהלים חכו 3 שנים נניח, עד שתקבלו את התוצאות מהניתוח של שלג דאשתקד. מזכיר לי את הבדיחה על בעל המסעדה שענה לתלונות הלקוחות: אתם רוצים לקבל לחם מהיום? בואו בשבוע הבא!
הכוונה כאן היא ללמוד מנסיונם של מנתחי נתונים שמתמודדים היום עם הצרה של סיבוכיות. מי שעוסקים בניתוח נתונים מוצאים לכך פתרונות מעשיים שונים (עם או מצדי גם בלי תיאוריה), ויהיה טוב לשמוע וללמוד מזה. הינכם מוזמנים!

בברכה,
אדית

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: לפתור "סיבוכיות" 12 years 2 months ago #3197

  • Yoav
  • Yoav's Avatar
  • Offline
  • Moderator
  • הודעות: 1041
  • קרמה: 9
אידית המבנה המוצע במאמרים הוא לא היררכי אלא מולטי היררכי וזה כבר הבדל של שמיים וארץ בין מה שהסקת לנאמר במאמר,בשיטה שמזהה תבניות חדשות לגמרי מתבניות קיימות ע"י שימוש בהצלבת
המרחב הפזי/אקוולידי עם ריבוי היררכיות נתונים במבנים לא ידועים מראש,שאין בהם התחלה וסיום אחד.

pilesys יוצר שפה (תבניות) חדשה ומכיל מתמטיקה ופיזיקת מחדש מהפכנית אשר עובדת לפי מודל נוירונים במוח (לא AI)-  אחת התוצאות המהפכניות של השיטה היא צמצום המרחב הפיזי של הנתונים ככל שיש לך יותר מידע בגלל שנתונים מזוהים ונשמרים רק פעם אחת במערכת גם אם הסיפרה 1 מופיעה בליון פעמים במערכת.

אחסון הנתונים הוא רק  side effect קטן של המערכת ולא מטרתה.

יש כאן מנגנון מהפכני (כך טוענים במכון לפיזיקה ומתמטיקה בבון ובמכון הביוטכני ביורק) שלא מאחסן נתונים אלא את הקשרים בינהם.הרשמים שהסקת מקריאת המאמרים הם חלקיות ביותר ולא מתייחסות למנגנון המתמטי שמשאיר מאחוריו את טכנולוגיית כריית הנתונים החדישה ביותר שיש לעולם להציע היום.

מפנה אותך גם לכאן:

www.pilesys.com/new/Documents/Time%20in%20the%20Machine.pdf

www.pilesys.com/new/Documents/A%20Round%20on%20the%20Ground.pdf

www.pilesys.com/new/Documents/TheOrigina...ngineDemystified.pdf

אני בעד מחקר על כוונות
Best Regards

Yoav Yahav

BI & DWH & SAP Business Objects

+972-52-3562982

This e-mail address is being protected from spambots. You need JavaScript enabled to view it.
thebobaba.blogspot.com/
www.bics.co.il/193657/sapbicoeeng
www.bo.dwh.co.il
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: לפתור "סיבוכיות" 12 years 2 months ago #3198

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 352
  • קרמה: 0
יואב, שלום לך

> "אני בעד מחקר על כוונות"   ???   לא מאמינה לך! אני רואה שאתה מעורב במאות נושאי שיחה. לא יכול להיות שאתה מוכן להתחיל לנחש רמזים של הכותבים, במקום לדבר כמה שאפשר ברור.  בטח גם אין לך זמן להתעסק בניחושים. אז מה פתאום אמרת את זה?


עכשיו ברצינות. קודם כל,  תודה על המאמרים במיוחד "The Original Pile Engine Demystified" שמסביר את Pile בצורה מובנת. ההסבר מתקשר לי ל"תכנת מצבים" אשר אודותיה שמעתי טובות. צריך שאתקן מה שכתבתי קודם, Pile הוא כלי לעיצוב תכנה ולא רק לבסיסי נתונים.

אני יכולה בהחלט להבין את ההתפעלות מהמודל שלהם, שמטפל ביעילות בעיבוד נתונים. אבל, לא צריך להסחף, זה כל מה שהוא עושה. הוא לא מביא "טכנולוגיית כריית הנתונים החדישה ביותר שיש לעולם להציע היום", עברתי שוב על המסמכים ואין בהם בכלל את המילה mining!!!
pilesys  לא עושה כריית נתונים, והסיבוך שהוא מדבר עליו, הוא סיבוך של תהליכי התכנה. בעוד שמה שדרוש זה מודל שידע לפענח סיבוכיות בעולם החיצוני, ורצוי לא ע"י brute force. על שכלול וייעול כבר נדבר אחר כך.


האמן לי שאני מבינה את ההתלהבות מפתרון מבריק, שהולך את כל הדרך מתיאוריה ועד יישום, אבל מה לעשות, פה במדור הזה, אנחנו מתעסקים בכריית נתונים לצרכי BI, בפענוח של "הערימה", לא חשוב איך היא מאורגנת.
בכלל, עמדתי היא (עד שישכנעו אותי אחרת), שכמה שפחות מחייבים את הערימה להיות מאורגנת כן ייטב, כי ככל שנוגעים פחות בנתונים, כך הם אותנטיים יותר, וכך אנחנו המנתחים חוסכים יותר זמן ועלויות הכנה, שלא לדבר על הימנעות ממכשלות של תלות בפתרונות מערכתיים ותחזוקתם ...



אדית

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: לפתור "סיבוכיות" 12 years 2 months ago #3199

  • Yoav
  • Yoav's Avatar
  • Offline
  • Moderator
  • הודעות: 1041
  • קרמה: 9
תתפלאי מאוד,אבל יש לי את כל הזמן שבעולם אם או בלי שתאמיני,לצערי הדיון איתך שוב סוטה לזוטות שבזוטות שאינן קשורות כלל לדיון.

המודל מטפל גם בסיבוכיות  חומרה,תוכנה,נתונים,קשרים וכל מה שמורכבות מידע ותבניות כוללת בתוכה,התרשמותי היא שלא ממש ירדת לסוף דעת הרעיון.

האמת היא שלא שמעתי עד היום על אף פרופסור/דוקטור/מתמטיקאי שהבין כבר אחרי קריאה אחת את הרעיון לגמרי כ"כ טוב,אז ברכותיי.
אם לא הבנת שהטכנולוגיה ישימה גם ל- data mining  מבלי שהמושג יוזכר זה מוכיח שלא הבנת את הרעיון

תודה
Best Regards

Yoav Yahav

BI & DWH & SAP Business Objects

+972-52-3562982

This e-mail address is being protected from spambots. You need JavaScript enabled to view it.
thebobaba.blogspot.com/
www.bics.co.il/193657/sapbicoeeng
www.bo.dwh.co.il
הנהלת האתר ביטלה גישת כתיבה ציבורית.

בעניין: לפתור "סיבוכיות" 12 years 2 months ago #3200

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 352
  • קרמה: 0
יואב

הבנתי מה שהיה צריך להבין שם, שאין שום קשר בין כריית נתונים למודל שאתה מפנה אליו - Pile. אין לי מושג מה אתה רוצה, ולמה אתה מתאכזב ממשהו שטורח ומצליח להבין את החומר ששלחת.

אסים כאן ואפנה את המקום למי שאולי רוצים לדבר על סיבוכיות BI .

אדית

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.238 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

אירועים קרובים

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning