Forum
  • Register
תנו לנו לייק וקבלו עדכונים ישירות לפיד
ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: שוב הסקרים טעו בגדול - מה הלקח?

שוב הסקרים טעו בגדול - מה הלקח? 1 year 1 week ago #8357

  • Edith Ohri
  • Edith Ohri's Avatar
  • מנותק
  • Moderator
  • הודעות: 295
  • תודות שהתקבלו 1
  • קרמה: 0
הקטע הבא לא בא לזרות מלח על הפצעים, אלא להפיק לקח.
אי אפשר להתעלם מהכשלונות הגדולים בסקרים, עובדה שלמרות המומחים, המחשבים, שיטות הניתוח המתקדמות, ניתוח נתוני ההצבעה המוקדמת – כל זה לא עזר בחיזוי תוצאות ה"ברקסיט" בשאלת יציאת בריטניה מהאיחוד האירופאי, וגם לא עזר לסוקרים בחיזוי תוצאות הבחירות לנשיאות באמריקה.
מדוע זה קורה? כי לא לומדים לקח, לא מוכנים להודות בכשלון המתודולוגיה. לדעתי. הפגם העיקרי הוא שלא מאבחנים נכון את דפוסי ההתנהגות, במיוחד החריגים.
האלגוריתמים שעושה אבחון כזה במרחב הרב-מימדי, הינו מסובך, אך אפשר להוציא ממנו רעיון אחד מעשי, תיקון מינימלי שיכול לעשות הבדל. תחשבו על זה. תיקון שכולו רק צעד אחד נוסף. הרעיון הוא, לפני שמסתערים על שאלוני הסקרים, לעצור לניתוח מעמיק של דפוסי ההתנהגות, להתחיל מ"דף נקי", ולחפש במיוחד את הדפוסים החריגים (שמכילים מגמות בתחילתן). רק שימו לב שהדפוסים יהיו בעלי מספר מאפינים, לא בהכרח כולם על אותה סקאלה, ומותר שהדפוסים יחפפו חלקית. החפיפה היא אולי ההקרבה היחידה שתידרשו לעשות לעומת מודל הקלסיפיקציה הנהוג, וזה מחיר לא כל כך נורא.

---
אדית
Home of GT data mining

בברכה
אדית
עריכה אחרונה: 1 year 1 week ago  ע''י Edith Ohri. סיבה: תקון ניסוח
הנהלת האתר ביטלה גישת כתיבה ציבורית.

שוב הסקרים טעו בגדול - מה הלקח? 1 year 1 week ago #8358

  • Edith Ohri
  • Edith Ohri's Avatar
  • מנותק
  • Moderator
  • הודעות: 295
  • תודות שהתקבלו 1
  • קרמה: 0
אחד ההסברים המושמעים שוב ושוב לכשלון החיזוי בבחירות אמריקה 2016, הוא הקושי בדגימה נכונה של המצביעים. מומחי הסקרים בסקרים, כמה שלא ישתדלו, מגיע ל 10% בלבד, זה לא מספיק לצורך ייצוג האוכלוסיה. המומחים אומרים גם שאחוז ניכר של הנסקרים מוסרים תשובות מוטות של נסקרים, כתוצאה מאינטרקציה עם המראינים או בתגובה לנוסח שאלון הסקר. הבעיות האלה מוכרות לכל מי שהתנסה בסקרים – אחוז ההיענות ואמינות התוצאות רחוקים מלהיות אידיאליים. מה לעשות?
– שוב הפתרון טמון ב-clustering (הפרדה לדפוסי התנהגות, ובשיטת GT, דפוסים היררכיים כולל חריגים!) . התוצאות של כל אחד מהדפוסים משוקללות בסוף, בהתאם לשיעור הופע של המאפינים שלו, במקום לטרוח ולהכין מדגם מאוזן שייצג בדיוק את האוכלוסיות השונות.
התועלת מה- clustering:
(א) חסכון בהוצאות הסקר,
(ב) הגדלת רזולוציה ושיפור בדיוק,
(ג) הרחבה לביג דטה – אי התלות במדגם מיצג, פותחת את השערים לשילוב מקורות שונים של נתונים ולשלל אפשרויות הצלבה שמחזקות עוד יותר את המסקנות.

---
אדית
Home of GT data mining

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

שוב הסקרים טעו בגדול - מה הלקח? 1 year 1 week ago #8359

  • Edith Ohri
  • Edith Ohri's Avatar
  • מנותק
  • Moderator
  • הודעות: 295
  • תודות שהתקבלו 1
  • קרמה: 0
אני חיבת הסבר על מנגנון ה clusters (דפוסי התנהגות), על הדרך שבה הגדרת דפוסים או קבוצות מביאה את התועלת הענקית שייחסתי להם לעיל (פישוט, חסכון בסקרים, דיוק תוצאות, התגברות על רעשים, והסברת תופעות סמויות בביג דטה). זה שווה דיון נפרד, אך עד שיהיה דיון, להלן הסבר מקוצר על פי המודל שפיתחתי GT data mining:
ראשית כל - הקבוצות על פי הגדרתן הן הומוגניות, והומוגניות מבליטה את התופעות (שמפרות את ההומוגניות) ועוזרת בכך ליצר תבנות והשערות. מה שחשוב זה, שתבנות והשערות אלה לפי GT, נשענות על נתונים ולא על הנחות וידע מוקדם!!!! זה כל הסיפור. זהו הגביע הנכסף. מהרגע שיש בידינו הגדרת דפוסי התנהגות, ניתן לרוב למצוא בתוכם מאפיינים שמזוהים בשלב מוקדם, וגורמים נשלטים, שמאפשרים להתערב מבעוד מועד וללחוץ על כפתורי הפעלה" לשינוי מהלך הענינים.
שימו לב ש-GT מציע תבנית לוגית, שבה מתמקדים במעקב על רכיבי החלטה מסוימים שניתנים לאימות, ולא מתפזרים על כל מרחב הפתרון. זה יעיל יותר, קצר יותר, ונכון יותר מבחינה פילוסופית (הקצת שהבנתי מדברי פרופ' יוסף אגסי בהמשך לפילוסוף קארל פופר).

בברכה
אדית
עריכה אחרונה: 1 year 1 week ago  ע''י Edith Ohri. סיבה: תיקון ניסוח
הנהלת האתר ביטלה גישת כתיבה ציבורית.

שוב הסקרים טעו בגדול - מה הלקח? האנליסט של טראמפ 1 year 5 hours ago #8361

  • Edith Ohri
  • Edith Ohri's Avatar
  • מנותק
  • Moderator
  • הודעות: 295
  • תודות שהתקבלו 1
  • קרמה: 0
אני מביאה את ההסבר של Brad Parscale מנהל הקמפיין של טראמפ, דברים שאמר בראיון, בתשובה לשאלה "מדוע הייתם בטוחים שהחיזוי שלכם נכון וכל האחרים טועים?"
תשובתו היא, שהסוקרים האחרים הניחו שהמודל ואחוזי המצביעים - הכל יהיה כמו בבחירות הקודמות, לעומת הצוות של בראד שבנו את המודל כנראה בעזרת כריית נתונים וניתוח סנטימנטים, כך שיאפשר לזהות מוקדם את השינויים והגורמים המשפיעים. מטה טראמפ השקיע סכומי כסף גדולים על פייסבוק (יותר מ 100 אלף $ לשבוע), כדי לאתר בוחרים באופן אישי וללמוד מה הגורמים לשינויים בעמדותיהם בזמן אמיתי, לימוד שתורגם מיידית להחלטות ביצועיות. לדוגמא, ההחלטה של טראמפ ה"מטורפת" לדעת כל הסוקרים האחרים, להשקיע מאמצים במישיגן. בסוף דווקא הקונצנזוס הלא-מטורף, הנורמלי, יצא כמו שאומרים על העוקם. יתרונות הגישה של בראד פרסקייל לנתונים לא יכולים להיות ברורים יותר, שכן היא הדבר היחיד שעמד לזכותו, לבחור לא היה כל נסיון בעניני בחירות!
הערות שלי:
השוואת שלוש מערכות הבחירות האחרונות באמריקה - של ברק אובמה, ג'ון מקיין, מיט רומני, הילרי קלינטון ודונאלד טראמפ, מעלה שהמשותף למצליחים הוא ניצול טכנולוגיות המידע, לעומת שמרנות של המפסידים. מי שהולכים בדרך הבדוקה ומתחממים לאור הרומנטי של הנוח והצפוי, יוצאים וידם על התחתונה, לעומתם, מי שמחזיקים את היד על הדופק ומקבלים החלטות בשטח, משיגים נצחון. אז מה אפשר ללמוד מההשוואה? אולי, שיתרון ההפתעה הוא תמיד קריטי, וגם ובעיקר - שניתוח נתונים זה ממש לא איזה חישוב ממוצעים של סגמנטים ידועים, רחוק מזה. אם במקרה נראה כאילו אני מתלהבת מהגישה של בראד פייסקל, ממש לא, בכלל לא בטוח שרצוי לשכפל אותה, יש להניח שבבחירות הבאות יהיה שפן אחר בכובע. הדבר היחיד ששווה להמר עליו זה טכנולוגיות המידע שבטח יעמיקו, וכלים לזיהוי דפוסי התנהגות, כולל זיהוי פרצות ומגמות בתחילתן.

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

שוב הסקרים טעו בגדול - מה הלקח? האנליסט של טראמפ 11 months 4 weeks ago #8368

  • Edith Ohri
  • Edith Ohri's Avatar
  • מנותק
  • Moderator
  • הודעות: 295
  • תודות שהתקבלו 1
  • קרמה: 0
קישור לראיון הנ"ל עם Brad Parscale
www.realclearpolitics.com/video/2016/11/...oter_depression.html

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

שוב הסקרים טעו בגדול - מה הלקח? 11 months 3 weeks ago #8370

  • Edith Ohri
  • Edith Ohri's Avatar
  • מנותק
  • Moderator
  • הודעות: 295
  • תודות שהתקבלו 1
  • קרמה: 0
אספתי מקצת מטענות הסוקרים על האשמתם בטעות. לדבריהם התחזית שלהם היתה נכונה בהתחשב בטווח הסיכון של 2 עד 4%, לולא מגמות של הרגע האחרון (שאינן ניתנות לחיזוי), התוצאות היו יוצאות נכון, ובכלל, ובכל השיטות יש טעות סטטיסטית, אי אפשר לדיק במאה אחוז בסקרים.
לעניות דעתי ניתן לשפר את הדיוק בחיזוי בחירות בעזרת -
- פיצול האוכלוסייה לקבוצות של דפוסי התנהגות רב-מימדיים, שמגדיל את הרזולוציה.
- איתור קבוצות אוכלוסייה עם ריכוזי טעויות גבוהים. מאפיני הקבוצות יכולים להוביל להסבר של הטעויות.
- מומלץ וזה לא חדש, להתיחס לשינויים בעמדות הבוחרים לאורך הזמן. הגדרה ברורה של מגמות שינוי מזרזת את מקבלי ההחלטות לפעולה.

(ד) בנוסף, מומלץ להגדיר מדד של עלות-תועלת השיטה (האפקטיביות). אם האפקטיביות יורדת זה תמרור אזהרה.

- אדית
Home of GT data mining

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

שוב הסקרים טעו בגדול - מה הלקח? 11 months 6 days ago #8378

  • Edith Ohri
  • Edith Ohri's Avatar
  • מנותק
  • Moderator
  • הודעות: 295
  • תודות שהתקבלו 1
  • קרמה: 0
בימים אלה נערכת ס םירה חוזרת של ההצבעה בבחירות, ב-3 מדינות בארה"ב, לדרישתה של ג'יל סטיין (מפלגת הירוקים לנשיאות), וישנה אפשרות שהתוצאה של בחירת הנשיא תתהפך.
המקור:
www.calcalist.co.il/internet/articles/0,7340,L-3703497,00.html

אם אמנם הבחירה תתהפך, ויתברר שהסקרים צדקו בחיזוי וקלינטון נבחרה במקום טראמפ, האם אחזור מדברי הביקורת על הסוקרים שלה?
– ובכן, הצלחה עלולה להיות מקרית. כדי לבסס את אמינות השיטה, היא צריכה לכלול הפקת תובנות לגבי התופעות שמאחורי התוצאות, אפילו אם הן חריגות. בסופו של דבר צריך להימצא להן הסבר שמוביל שמונע חריגות או לפחות לוקח אותן בחשבון).
לדוגמא, מומחי הסייבר הבחינו, שקלינטון הפסידה לטראמפ במחוזות של הצבעה דיגיטאלית, בהפרש גדול יחסית להצבעה לא דיגיטלית, הפרש שלא ניתן להסבר ע"י סטייה סטטיסטית מקרית! ההפתעה הגדולה במחנה קלינון אומרת שלא הבחינו בתופעה לפני הבחירות.

המסקנה המעציבה מהכשל בחיזוי היא, שקל להכשיל את הסוקרים עקב נטיתם ללכת בתלם של ההצלחות. תלם מקצועי הוא צפוי, זהו המפתח. כאשר התלם ידוע, נהיה פשוט יותר לתכנן מכשולים, הסוואה, הסחה, טשטוש עקבות והצדקה כביכול מתוקנת שתסתום את הגולל על ההגנה של היריב.

הערה: אפשר למצוא דפוסי התנהגות כאלה מוקדם, ולסכל בכך ניצול הסקרים להטעית מקבלי החלטות.

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.

שוב הסקרים טעו בגדול - מה הלקח? 10 months 2 days ago #8395

  • Edith Ohri
  • Edith Ohri's Avatar
  • מנותק
  • Moderator
  • הודעות: 295
  • תודות שהתקבלו 1
  • קרמה: 0
ישנו עוד לקח ממערכת הבחירות האחרונות באמריקה, לפי הספר Weapons of Math Destruction ע"י Cathy O'Neil -
בראיונות שלאחר התפרסמות ספרה המצליח, קאתי או'ניל (שהיא דר' למתמטיקה מאונ' הרווארד) אומרת שהמודלים והאלגוריתמים המשמשים בסקרים, חיבים להיות מובנים ונתונים לביקורת והשגות, אחרת בלתי נמנע שתתפתח הטיה בגלל תופעה של היזון חוזר (הכוונה בהיזון חוזר היא לאפקט שמחזק את עצמו). לדבריה, הגדרות המודל מושפעות מלכתחילה מדיעות האנליסט, ומקבלות אישור ומתחזקות עקב התוצאות המוטות (עקב אותן הגדרות).
לא כל אחד יכול להסכים להסבר הכללי-מתמטי הזה. לכן וכדי להמחיש אוסיף הסבר משלי.
הגדרת "מערכת" אומרת, שרוב הגורמים המשפיעים בה נמצאים בשיוי משקל, שבו הם מאזנים הדדית אחד את השני. ההצעה שלי היא לנצל את גורם ההיזון החוזר, במקום להסתכל עליו כגורם מפריע.
ניקח לדוגמא (קטנה) להמחשה את הבעיה שתיארה דר' או'ניל של מעורבותם הלא בריאה של הסוקרים בתוצאות. בתשובה לכך, נכלול בנתונים את תוצאות הסקרים היריבים מפרסומיהם, נאתר דפוסי התנהגות טיפוסיים, ונבחר מהם צמדים שמבטאים השתיכות למחנה האחד או השני. השוואה בין צמדים אלה, תציף למעלה רכיבים סמויים, שחלקם יכילו מידע מענין על תכניות והפתעות שהצד השני מארגן. אפילו בדוגמא קטנה כזאת אפשר להגיע להשגים רציניים.
- Edith
Home of GT data mining

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.205 שניות

Sap

Oracle

Informatica

SAS

Microstrategy

IBM

Microsoft

Qlikview

Teradata

Webfocus

קליק אחד ואתם מחוברים. מהיר .קל .מאובטח.

מעניין? שתפו דף זה באמצעות הטלפון הנייד

DWH :: דיון: שוב הסקרים טעו בגדול - מה הלקח? (1/1) - QR Code Friendly
Powered by QR Code Friendly

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

הדף שלנו בפייסבוק

התחברות

כניסות למאמרים
6656188