הצטרפו לקבוצות שלנו לקבלת עדכונים מרוכזים פעם בשבוע:

ווטסאפ:
http://wa.dwh.co.il
טלגרם:
http://telegram.dwh.co.il

חוק מס' 8 של מדע הנתונים החדש - טעות מהסוג השלישי

More
6 years 8 months ago - 6 years 8 months ago #8426 by Edith Ohri
חוק מס' 8 של מדע הנתונים – ישנו סוג טעויות שלישי (גמה, γ), שנגרם ע"י שגיאות בהשערות*, שלא כמו שני סוגי הטעויות הידועים FALSE-POSITIVE and TRUE-NEGATIVE שנובעים מהאופי הסטוכסטי של הנתונים.
שגיאות מסוג גמה הינן אדישות למבחני השערות. הצלחה או פסילה ע"י המבחן הסטטיסטי היא חסרת משמעות לגביהן.

*הגדרה: שגיאות בהשערות כוללות שגיאות לוגיות, מושגים מוטעים, וטענות שלא ניתנות להוכחה.
ההגדרה היא מקורית של הח"מ ומובאת לראשונה כאן וב- ResearchGate פרויקט מדע הנתונים .

הערות:
1. טעות גמה נפוצה במקרים של משתנים רבים או נתונים לא מפוקחים.
2. "זנב ארוך" והרבה חריגים, הם סימנים לקיומה של טעות גמה.


בברכה
אדית
Last edit: 6 years 8 months ago by Edith Ohri. Reason: תיקון והוספת הסבר

Please התחברות to join the conversation.

More
6 years 8 months ago - 2 years 9 months ago #8427 by Edith Ohri
מבחן סטטיסטי לא יכול לגלות טעות מסוג גמה - טעות שנגרמת מהשערות שגויות. אלה הן השערות שלא ניתנות לבדיקה, או שגורמיהן מחוץ למדגם הנבדק, או שהמשתנים שלהם מוגדרים בטעות תוך ערבוב גורמים ותוצאות, או שאינן לוקחות בחשבון תופעות אחרות שנמצאות באותו מרחב, או שהתופעות שהן מנסות להסביק פשוט אינן רציפות/יציבות/מונוטוניות/וליניאריות כנדרש למבחן סטטיסטי.
חשוב לצין, בכל המקרים דלעיל של כשל במבחן הסטטיסטי, לא רק שניקוי הנתונים לא עוזר להבנת הנתונים אלא שהוא מסלק את הרמזים שהיו יכולים לסיע למנתח נתונים חריף להגיע איכשהו בהברקה לתבנות על קשרים עקיפים מסבירים. יתרה מזאת, הניקוי מיצר אשליה של חומר מסודר וסותם את הגולל על ה"פורנזיק" של הנתונים. הצורך בניקוי מכוון מראש את החוקר להסתכל "מתחת לפנס" של מה שנקרא רשומות תקינות. הדבר עלול לעקר את המחקר מכל מסקנה אחרי שהושקעה בו עבודה רבה. יוצא מכאן שהניקוי לא זו בלבד שאינו תורם, הוא להיפך, מזיק.
אז למה כל הספרים ממליצים על ניקוי? - קונפורמיזם! הספרים מוגבלים למה שסטטיסטיקה יודעת לעשות.
חשוב להדגיש, שמדע הנתונים החדש מתיחס גם לטעויות מסוג שלישי בעזרת מנגנון הקבוצות (Group Technology). בעקרון, מדע הנתונים החדש בא ליצר השערות (לא רק לבחון השערות) תוך שמירה על אותנטיות הנתונים, ראה www.dwh.co.il/forum/4-DataMining/8085-עקרונות-מדע-הנתונים-החדש

בברכה
אדית
Home of GT data mining


בברכה
אדית
Last edit: 2 years 9 months ago by Edith Ohri.

Please התחברות to join the conversation.

More
6 years 8 months ago - 6 years 8 months ago #8428 by Edith Ohri
הגדרת שגיאות מסוג גמה: טעויות שנובעות מכך שההשערות הן ALWAYS NEGATIVE (שגויות במהותן) או ALWAYS POSITIVE (טריוויאליות או מניחות את המבוקש). (זאת בהמשך להגדרה הידועה בסטטיסטיקה של טעויות אלפא - False-Positive, וביתא - True-Negative).


בברכה
אדית
Last edit: 6 years 8 months ago by Edith Ohri. Reason: תיקון

Please התחברות to join the conversation.

More
4 years 4 months ago #8493 by Edith Ohri
סוף סוף מישהו פותח פיו על הפרקטיקה השערוריתית של שימוש בהשערות שטות במבחנים סטטיסטיים שמלמדות שום-דבר . דר' קייסי קוזירקוב, ראש מחלקת ML/AI בגוגל מעלה שאלת תם: האם משהו שם לב למודל במבחנים סטטיסטיים?
במונחים של מדע הנתונים החדש השאלה היא: האם מישהו בודק את ההשערה לפני שעורך מבחן סטטיסטי? (שאלה רטורית - האם בכלל יודעים לסנן השערות גרועות שמובילות בהכרח לטעות סוג גמא?)
ובלשון הסטטיסטיקה של דר' קוזירקוב - האם אוסף הנתונים לא הופך את השערת האפס למגוכחת? היא לא שמה סמיילי, זה רציני.
“Does the evidence that we collected make our null hypothesis look ridiculous?”
Statistical inference in one sentence


בברכה
אדית

Please התחברות to join the conversation.

More
3 years 3 weeks ago - 3 years 3 weeks ago #8519 by Edith Ohri
"You ask a dumb question, you get a dumb answer"


בברכה
אדית
Last edit: 3 years 3 weeks ago by Edith Ohri.

Please התחברות to join the conversation.

Moderators: Edith Ohri
Time to create page: 0.330 seconds