ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: חוק מס' 18 במדע הנתונים החדש – הפישוט הכרחי ליישום

חוק מס' 18 במדע הנתונים החדש – הפישוט הכרחי ליישום 10 months 3 weeks ago #8498

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 352
  • קרמה: 0
חוק מס' 18 במדע הנתונים החדש – הפישוט הכרחי לפתרון ואוטומציה.

הפתרון חיב להיות רזה, כדי לאפשר קודם כל פיתוח קוהורנטי, ולאחר מכן את שילוב הפיתוח בתפעול ואת השליטה בהפעלתו . הדבר נכון במיוחד לגבי מערכות ביג דטה שהן בלתי אחידות (מידע unsupervised) ואינן כפופות לפיקוח מרכזי.

השאלה היא, איך לארגן מציאות כאוטית למתכונת פתרון שחיבת להיות עקבית וקבועה מראש?
התשובה של מדע הנתונים החדש היא לאבחן תחילה דפוסי התנהגות או קבוצות נתונים שנקראות גם קבוצות דמיון. אלה הן קבוצות נתונים אחידות יחסית, שעוזרות
להתמקד, להבין יותר, ולמצוא השערות להסבר התנהגות הנתונים (נושא ההפרדה לקבוצות הועלה בחוקים הקודמים - מס' 2, 3 ואילך).
הערה: מדע הנתונים החדש כולל מספר עקרונות וחוקים התומכים בתהליך אבחון הדפוסים, אשר כרגע ממומשים רק פתרון GT data mining.

פירוט התכונות של פתרון "רזה":
1. מכיל מעט משתנים.
2. מאפשר ניווט נוח בנתונים.
3. ניתן להפעילו במהירות, לפני שהתנאים של היישום ישתנו.
4. מכיל קשרי סיבה-תוצאה. קשרים כאלה הכרחיים לניסוח מבחן ולאוטומציה של הפתרון כולל יישומי AI.

בברכה
אדית
עריכה אחרונה: 1 month 2 days ago  ע''י Edith Ohri. סיבה: ניסוח
הנהלת האתר ביטלה גישת כתיבה ציבורית.

חוק מס' 18 במדע הנתונים החדש – הפישוט הכרחי ליישום 1 month 5 days ago #8516

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 352
  • קרמה: 0
Occam's razor
מתוך ויקיפידיה:
הכלל שנקרא תערו של אוקאם, או חוק אוקאם: כאשר קיימים הסברים שונים לאותה תופעה יש לבחור בהסבר הפשוט ביותר, הכולל את המספר המועט ביותר של מושגים וחוקים.

מטרת הכלל היא להדריך מדענים בנושא פיתוח היפותזות ומודלים, וכן לסייע להם בבחירה בין היפותזות שונות.

מענין לציין שכשש מאות שנה אחרי הנזיר הפרנציסקני האנגלי אוקאם בן המאה ה-14, צידד הפילוסוף-של-המדע קרל פופר בטענתו, שיש לבחור בתאוריות הפשוטות יותר, אך לא מסיבה מעשית, אסתטית או פרגמטית (כפי שנימקו אותו עד אז), אלא בגלל הטענה הבסיסית שתאוריות פשוטות קלות יותר להפרכה!

בהמשך לדיון כאן, הוספתי עדכון לערך "תערו של אוקאם" בויקיפידה, בקטע שאחרי התיחסותו של קרל פופר לצורך בהשערות פשוטות למען תהליך ההפרכה. להלן התוספת:

הצדקת הכלל תערו-של-אוקאם לפי מדע הנתונים

"במאה ה-21 עם התהוות מדע הנתונים, נוצרה הצדקה נוספת לכלל התער של אוקאם, והיא הצורך לצמצם את הסיכון ל- over-fitting (התאמת-יתר שמתאפינת ע"י מיתאם סטטיסטי גבוה למדגם הלימוד יחד עם מיתאם נמוך למדגם המבחן, כלומר כשל בחיזוי שבא לאמת את ההשערה).
מתמטית, ככל שמוסיפים ישויות או גורמים מסבירים, כך עולה הסיכון להתאמת-יתר, ובמצב הקיצוני שבו מספר הישוות שווה-גדול למספר תצפיות הלימוד, ניתן להוכיח כל דבר בלי קשר לאמיתותו.
מדע הנתונים החדש מגביל בעקרון את השימוש בישויות מסבירות רק לכאלה הניתנות לביסוס על סמך נתונים חופשיים (unsupervised) ומידע-העל (meta data) אודותם. "

תוספת לפירוש של תער: "השימוש במילה "תער" הוא גם במובן של להב סכין שחותך לכאן או לכאן, ומשמעותו שהכלל של אוקאם הינו "חד כתער" (Razor sharp)."

הערה:
אם יש קושי להגיב בפורום, אפשר לשלוח אלי edith שטרודל datalert.co.il

בברכה
אדית
עריכה אחרונה: 1 month 1 week ago  ע''י Edith Ohri. סיבה: במקום הפניה - ציטוט
הנהלת האתר ביטלה גישת כתיבה ציבורית.

חוק מס' 18 במדע הנתונים –ביג דטה דורש פתרון מורכב? 2 weeks 6 days ago #8517

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 352
  • קרמה: 0
האם באמת ככל שהנתונים מסובכים יותר, הפתרון צריך להיות מורכב יותר?

בדרך כלל, פותרים סיבוכי נתונים ע"י הוספת קוד שיתיחס אליהם. הענין, שהתוספות האלה מצטברות ומסרבלות את הפתרון. הן גם מפחיתות את האפקטיביות שלו ומוסיפות עלויות פיתוח בלתי צפויות. נתונים מסובכים, שיהיה ברור, הם אימת המפתחים. הצרה שהמסובכים לא הולכים להיעלם, להיפך – בעידן ה-IT המידע ברובו לא מפוקח (unsupervised), בלתי אחיד, ובמידה רבה בלתי צפוי, ולא יעזרו המאמצים לסדר ולנקות את הנתונים, הם מסובכים ללא תקנה, זאת המהות שלהם.

מדע הנתונים פותר את הבעיה ע"י צמצום המרחב למספר משתני-מפתח מזוהים, שגורמים לתופעות מורכבות ע"י איטראקציה ביניהם. זהו מודל היררכי שבכל רמה שלו ניתן לראות את התופעות הכלליות או לצלול לפרטיהן ברמה תחתונה.

פרופסור סר ג'ון ברבידג' מאוניברסיטת קרנפילד באנגליה, שהכרתי בביקוריו בארץ, אשר הקים דורות של מנתחי נתונים ברצפת הייצור (זה קדם לכריית נתונים הכלליתהמוכרת לנו היום), ראה כבר לפני 30 שנה את מכשול הסיבוכיות של נתוני שטח, וסיכם זאת כך בהרצאתו: אם הבעיה מסתבכת והולכת וגדלה יותר ויותר, אין ברירה, צריך לעשות את זה פשוט! בהפסקה הוא נטל מפית שולחן וצייר עליה אטום עם אלקטרונים סביבו, ואחר כך גרעין DNA וסביבו תא כדורי, ואחרי כן השמש וסביבה כוכבי לכת, ואמר לי בהתרגשות – הכל אותו מודל, לא משנה כמה זה גדול.

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.185 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning