Forum
  • Register
תנו לנו לייק וקבלו עדכונים ישירות לפיד
ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: עקרונות מדע הנתונים החדש

עקרונות מדע הנתונים החדש 1 year 4 months ago #8399

  • Edith Ohri
  • Edith Ohri's Avatar
  • מנותק
  • Moderator
  • הודעות: 307
  • תודות שהתקבלו 1
  • קרמה: 0
העקרונות החדשים של מדע הנתונים*
*לפי תפיסת GT data mining

  1. אין לנקות נתונים! אין להניח דבר מראש, אלא אם כן ניתן לבדוק את אמיתותו;
  2. מדגם של ביג דטה לא חיב להיות מיצג, אך רצוי שיכלול תופעות שונות, גם מסביבת התופעה הנבדקת;
  3. כל המשתנים נחשבים לתלויים הדדית כנקודת מוצא;
  4. צעד ראשון באבחון נתונים הוא חלוקתם לקבוצות היררכיות;
  5. תוצאות ניתוח הנתונים חיבות להיות מוסברות, או להוביל לתבנות חדשות. הערה: תבנה היא סוג של אינדוקציה שנובע מהכללת מסקנות או מהיסק לוגי על בסיס חוקים קימים;
  6. מטרת ניתוח ביג דטה היא ליצר השערות (לא רק לבחון השערות);
  7. השערה טובה מובילה להגדלת השליטה בתחום הנבדק.

פורסם במקור באתר ResearchGate:
www.researchgate.net/project/Philosophy-...9f53b53d2f46c7eb4c57

בברכה
אדית
עריכה אחרונה: 2 months 3 weeks ago  ע''י Edith Ohri. סיבה: תיקון ועדכון
הנהלת האתר ביטלה גישת כתיבה ציבורית.

עקרונות מדע הנתונים החדש 1 year 4 months ago #8402

  • Edith Ohri
  • Edith Ohri's Avatar
  • מנותק
  • Moderator
  • הודעות: 307
  • תודות שהתקבלו 1
  • קרמה: 0
העקרונות המתוארים בדיון זה, הם הרחבה של ניתוח הנתונים למקרה כללי (שהוא ביג דטה), שבו בגלל הכמויות העצומות ותערובת התופעות הלא מוגדרות, לא ניתן לנקות נתונים ואי אפשר להניח מראש דבר – אפילו לא את המטרה. במקרה הכללי, כל ההגדרות חופשיות בהתחלת הלימוד. לפנינו למעשה בעיה של "הביצה והתרנגולת". שמציבה שאלות קשות -- איך להתחיל ללמוד? איך לחפש כשלא יודעים מה הדבר שמחפשים?! שאלות כאלה מחיבות מענה, לפני שמאמצים מודל חישובי כלשהו. העקרונות משקפים את המענה של GT ומאפשרים את מודל הפתרון שלו.

שלושת העקרונות הראשונים מקבלים את תיאור המציאות של ביג דטה כנקודת מוצא. במציאות הזאת, אי אפשר או לא כדאי לנקות את הנתונים, וחיבים לקחת בחשבון את הסביבות שבהן נוצרים נתונים. כ"כ, צריך להודות שהידע ההתחלתי בנוגע לקשרים בין משתנים הוא זעיר, ולפיכך עדיף להניח ש"הכל קשור להכל".
הערה: אפשר להסתדר גם בלי 3 העקרונות האלה, בעיקר במצבים מסוימים שבהם יש מידע מוקדם, אך צריך להבין שזה בא על חשבון האפקטיביות של התוצאות וטווח החיזוי שלהן.

העקרונות הרביעי והחמישי מחליפים את עקרון ה"חזרתיות" הסטטיסטי באימות תוצאות ניתוח נתונים. במקומו אני מציעה בתפיסת GT לבדוק השערות לפי סוג של מבחן התוצאה, או ליתר דיוק - מבחן שימושיות התוצאה להסבר נתונים לא מבוקרים. זה מבחן קשה יותר מהסטטיסטי, כי יש לו קצה פתוח, הוא צריך לעמוד גם בתנאים שלא נלמדו. אבל אין מה לעשות, החיים קשים וזה המבחן האמיתי שצרכני המידע מצפים לו, שהתוצאות יהיו רלוונטיות בטווח גדול של מצבים, גם אם לא אמרו זאת בכל כך הרבה מילים :)

העקרונות השישי והשביעי מחליפים את הגדרת המטרה הידועה מראש, וקובעים רק את התכונות הרצויות במטרה. כל דבר שמקיים את ההגדרה מתאים, כולל מטרות שמנוסחות בצורה לא כמותית, או מטרות שיש להן מספר מימדים, שזו צרה-צרורה בסטטיסטיקה אך לא כאן. איך נדע שהשגנו את המטרה בתוך כל זה? פשוט נראה אם מצאנו לפחות השערה חדשה אחת שניתנת לבחינה, או תבנה שמסיעת להגיע לשליטה נמדדת בנושא הנבדק.
על תבנות שווה לכתוב בנפרד. רק אקדים ואומר שהן יצירתיות ויש שרואים בהן אומנות, אך בעברית אומנות עם חולם ואומנות עם מפיק זה כמעט אותו דבר. גם באנגלית Artist ו- Artisan. עד לפה להפעם.

אדית
Home of GT data mining

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

עקרונות מדע הנתונים החדש 1 year 2 months ago #8404

  • Edith Ohri
  • Edith Ohri's Avatar
  • מנותק
  • Moderator
  • הודעות: 307
  • תודות שהתקבלו 1
  • קרמה: 0
שלושה עקרונות בנוסף לרשימה של 7 דלעיל

8. היקף המחקר צריך להיות רחב יותר מהתופעה שבודקים (לכלול תופעות נוספות).
9. הנחות מוקדמות אסורות, אלא אם כן אפשר לבדוק ולאשר אותן.
10. צעד ראשון והכרחי הוא הפרדת הנתונים לקבוצות היררכיות (דפוסי התנהגות).

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.229 שניות

Sap

Oracle

Informatica

SAS

Microstrategy

IBM

Microsoft

Qlikview

Teradata

Webfocus

התחברות

x
יצירת חשבון
x

קליק אחד ואתם מחוברים. מהיר .קל .מאובטח.

מעניין? שתפו דף זה באמצעות הטלפון הנייד

DWH :: דיון: עקרונות מדע הנתונים החדש (1/1) - QR Code Friendly
Powered by QR Code Friendly

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

הדף שלנו בפייסבוק

התחברות

כניסות למאמרים
7161491