התחברות

התחברות
x
או
x
הרשמה
x

או

קליק אחד ואתם מחוברים. מהיר .קל .מאובטח.

חדש בפורומים

מעניין? שתפו דף זה באמצעות הטלפון הנייד

אירועים קרובים

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

הדף שלנו בפייסבוק

ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: חוק מס' 8 של מדע הנתונים החדש - טעות מהסוג השלישי

חוק מס' 8 של מדע הנתונים החדש - טעות מהסוג השלישי 1 year 4 months ago #8426

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 314
  • קרמה: 0
חוק מס' 8 של מדע הנתונים – ישנו סוג טעויות שלישי (גמה, γ), שנגרם ע"י שגיאות בהשערות*, שלא כמו שני סוגי הטעויות הידועים FALSE-POSITIVE and TRUE-NEGATIVE שנובעים מהאופי הסטוכסטי של הנתונים.
שגיאות מסוג גמה הינן אדישות למבחני השערות. הצלחה או פסילה ע"י המבחן הסטטיסטי היא חסרת משמעות לגביהן.

*הגדרה: שגיאות בהשערות כוללות שגיאות לוגיות, מושגים מוטעים, וטענות שלא ניתנות להוכחה.
ההגדרה היא מקורית של הח"מ ומובאת לראשונה כאן וב- ResearchGate פרויקט מדע הנתונים.

הערות:
1. טעות גמה נפוצה במקרים של משתנים רבים או נתונים לא מפוקחים.
2. "זנב ארוך" והרבה חריגים, הם סימנים לקיומה של טעות גמה.

בברכה
אדית
עריכה אחרונה: 1 year 4 months ago  ע''י Edith Ohri. סיבה: תיקון והוספת הסבר
הנהלת האתר ביטלה גישת כתיבה ציבורית.

חוק מס' 8 של מדע הנתונים החדש - טעות מהסוג השלישי 1 year 4 months ago #8427

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 314
  • קרמה: 0
מבחן סטטיסטי לא יכול לגלות טעות מסוג גמה - טעות שנגרמת מהשערות שגויות. אלה הן השערות שלא ניתנות לבדיקה, או שגורמיהן מחוץ למדגם הנבדק, או שהמשתנים שלהם מוגדרים בטעות תוך ערבוב גורמים ותוצאות, או שאינן לוקחות בחשבון תופעות אחרות שנמצאות באותו מרחב, או שהתופעות שהן מנסות להסביק פשוט אינן רציפות/יציבות/מונוטוניות/וליניאריות כנדרש למבחן סטטיסטי.
חשוב לצין, בכל המקרים דלעיל של כשל במבחן הסטטיסטי, לא רק שניקוי הנתונים לא עוזר להבנת הנתונים אלא שהוא מסלק את הרמזים שהיו יכולים לסיע למנתח נתונים חריף להגיע איכשהו בהברקה לתבנות על קשרים עקיפים מסבירים. יתרה מזאת, הניקוי מיצר אשליה של חומר מסודר וסותם את הגולל על ה"פורנזיק" של הנתונים. הצורך בניקוי מכוון מראש את החוקר להסתכל "מתחת לפנס" של מה שנקרא רשומות תקינות. הדבר עלול לעקר את המחקר מכל מסקנה אחרי שהושקעה בו עבודה רבה. יוצא מכאן שהניקוי לא זו בלבד שאינו תורם, הוא להיפך, מזיק.
אז למה כל הספרים ממליצים על ניקוי? - קונפורמיזם! הספרים מוגבלים למה שסטטיסטיקה יודעת לעשות. כל זה ישתנה עקב מדע הנתונים החדש שמציע פתרון חלופי המתבסס על טכנולוגית הקבוצות - GT. אחד מעקרונות מדע הנתונים החדש הוא איסור שינוי הנתונים, ראה www.dwh.co.il/forum/4-DataMining/8085-עקרונות-מדע-הנתונים-החדש

בברכה
אדית
Home of GT data mining

בברכה
אדית
עריכה אחרונה: 1 year 4 months ago  ע''י Edith Ohri. סיבה: הוספת הסבר
הנהלת האתר ביטלה גישת כתיבה ציבורית.

חוק מס' 8 של מדע הנתונים החדש - טעות מהסוג השלישי 1 year 4 months ago #8428

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 314
  • קרמה: 0
הגדרת שגיאות מסוג גמה: טעויות שנובעות מכך שההשערות הן ALWAYS NEGATIVE (שגויות במהותן) או ALWAYS POSITIVE (טריוויאליות או מניחות את המבוקש). (זאת בהמשך להגדרה הידועה בסטטיסטיקה של טעויות אלפא - False-Positive, וביתא - True-Negative).

בברכה
אדית
עריכה אחרונה: 1 year 4 months ago  ע''י Edith Ohri. סיבה: תיקון
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.196 שניות

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning