ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: חוק מס' 21 במדע הנתונים החדש- חזוי עם מעט נתונים

חוק מס' 21 במדע הנתונים החדש- חזוי עם מעט נתונים 7 months 3 weeks ago #8504

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
חוק מס' 21 במדע הנתונים החדש- חזוי על סמך מעט נתוני עבר.

אפשר להשליך על העתיד (לבצע projection) את החוקיות שהתגלתה בעבר, אך לא את נתוני העבר. לפיכך חוסר בנתונים אינו אמור להפריע לחזוי אלא במידה שהוא מפריע לניסוח חוקיות, או לזיהוי התנאים ליישומה.

הגדרה של חוקיות:
חוקיות היא קשר, שמתקים בתנאים מסוימים, ותוצאותיו ניתנות לצפייה מראש.

דוגמא לחזוי עם היסטוריה קצרה: ההשתנות הדינאמית של דפוסי התנהגות מזג האוויר, עקב התחממות כדור הארץ.
ההשתנות המהירה בתנאי האקלים מצמצמת את הנתונים הרלוונטיים העומדים לרשות החזאים לצורכי לימוד תופעות חדשות. איך בכל זאת מצליחים החזאים לעדכן את המודלים באופן מדויק מספיק כדי לספק מבעוד מועד התראות שימנעו אבדן חיי אדם ורכוש, בלי להיתפס להתראות שוא?
החזאים פותרים את הבעיה על ידי עדכון המצב במרווחי זמן קצרים, והצבת נוסחאות פיזיקליות ידועות* על קשרים בין טמפרטורות, לחצי אויר, ותופעות אקלימיות שניתנות למדידה; כאשר העדכון המהיר של תנאי השטח מעלה את דיוק הנוסחאות ומפצה על כך שלא תוקנו (בגלל חוסר בנתונים).
--
*הערה: חזוי מזג אוויר הוא מקרה פרטי שבו קימות נוסחאות פיזיקליות כלליות, שממשיכות להתקים. זה לא קורה בתחומים אחרים, כמו נניח חזוי שוק למוצר.

בברכה
אדית
עריכה אחרונה: 6 months 2 weeks ago  ע''י Edith Ohri. סיבה: הבהרה
הנהלת האתר ביטלה גישת כתיבה ציבורית.

חוק מס' 21 דוגמא לחזוי בלתי אפשרי -מהפיכה 7 months 3 weeks ago #8506

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
דוגמא לחזוי בלתי אפשרי בגלל חוסר מידע: חזוי של מהפיכות.

מהפיכה מוגדרת כאירוע של קפיצת מדרגה או שינוי רדיקלי בתחומי הטכנולוגיה החברה והפוליטיקה (על פי ויקיפידיה).
מטבע הדברים, מהפיכות קוטעות את רצף החוקיות, ומעלות תובנות חדשות לגבי נקודות קיצון שלא נבדקו בעבר.

אנו עדים למהפיכה שקורית בעצם ימים אלה, כתוצאה מהצטלבות של מספר תופעות חזקות:
  1. בועה פיננסית שעומדת להיתפוצץ בנאסד"ק ניו-יורק (הבועה ניזונה מהזרמת כספי הממשל, השימוש ברובוטים למסחר בני"ע שמגיבים באופן דומה ובבת אחת, ומשבר הקורונה שמונע חלחול הכסף לתעשיות וגורם ל"שטפונות" וטלטלות עזות בכלכלה.)
  2. הופעת טכנולוגית בלוקצ'יין אשר מיתר חלקים גדולים מהשירותים הפיננסיים של היום, ובהם שירותי בנקים וחברות אשראי.
  3. התבססות מטבעות הקריפטו במידה שמספיקה לצורכי "עזרה ראשונה" במשבר, והתחלה של תשתית פיננסית אלטרנטיבית.
  4. המגמה של אנרגיה ממקורות מתחדשים, מה שלבדו היה יכול להספיק למהפיכה, במקביל לאסונות טבע הולכים וגוברים (שריפות ענק, סופות, ושטפונות שהורסים איזורים שלמים).
  5. המעבר לקריפטו – זו כבר דעתי האישית – אשר איפשר הלבנת הון שחור בהיקף גדול, שמשמעותה חלוקת העושר מחדש, קירוב המאפיה עוד יותר לשלטון, וכאוס כלכלי.

  6. [/olלמשבר כזה אין תקדים, אין לו מודלים, וההתפתחויות המהירות מבטלות את האפשרות להיעזר ברובוטים/AI ללימוד שלו בזמן אמת. האם כאן נעצרת יכולת החיזוי? האם יש למדע הנתונים מה להגיד בנושא?

בברכה
אדית
עריכה אחרונה: 7 months 3 weeks ago  ע''י Edith Ohri.
הנהלת האתר ביטלה גישת כתיבה ציבורית.

חוק מס' 21 פרדוקס חוסר הנתונים בביג דטה 7 months 1 day ago #8507

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
באופן פרדוקסלי ובניגוד לאינטואיציה, בביג דטה משופע הנתונים תמיד יחסרו נתונים לניתוח. הסיבה נעוצה בשונות הסביבה והגיוון הגדול* של ביג דטה. וכן גם אי ההתכנסות - ראה "חוק המספרים הגדולים לא פועל בביג דטה".
www.dwh.co.il/forum/4-DataMining/8059-%D...2-%D7%93%D7%98%D7%94

* התכונות שנחשבות למאפינות של ביג דטה: Volume, Variability, Velocity or Volatility, Veracity - VVVV.

אפשר לשפר את אחידות סביבה האירועים של ביג דטה בשתי צורות: (א) להתמקד במרווחי זמן קצרים (ע"י עדכון תכוף), או (ב) להוסיף לנתונים את סט המשתנים הייחודיים של כל רשומה.
שתי הגישות אינן מספקות פתרון כללי. בראשונה כמות הרשומות קטנה מדי, ובשנייה מספר הרשומות i יהיה תמיד קטן ממספר המשתנים n בתוספת הסטים הייחודיים לכל רשומה i, וסה"כ n+i. כתוצאה, מספר הרשומות קטן ממספר המשתנים, והנתונים הלא אחידים אינם מאפשרים להשלים את החסר ע"י הנחות, כך שאין לזה פתרון סטטיסטי ולמעשה אין בכלל פתרון חישובי ספציפי (בגישה המקובלת). מדובר בבעיה מהותית ועקרונית שזכתה להתיחסות בפעם הראשונה במדע הנתונים החדש (והיישום ב-GT).
תמצית הפתרון נמצא בהכנסת קונספט הקבוצות – עוד ב www.researchgate.net/project/Philosophy-...r-big-data-analytics טאב "Project Log"

מדע הנתונים החדש ו-GT, כל הזכויות שמורות – Edith Ohri

בברכה
אדית
עריכה אחרונה: 6 months 1 week ago  ע''י Edith Ohri. סיבה: דיוק
הנהלת האתר ביטלה גישת כתיבה ציבורית.

חוק מס' 21 במדע הנתונים החדש- פתרון במעט נתונים 5 months 2 weeks ago #8511

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
אחת האפשרויות המעשיות, שממעטים להשתמש בה, היא להשתמש בתובנות לתמיכה בחישוב.
זה המקום להזכיר את ההגדרה הבאה מתוך "עקרונות מדע הנתונים החדש":
תובנה היא סוג של אינדוקציה שנובע מהכללת מסקנות או מהיסק לוגי על בסיס חוקים קימים. כמה מילים על ההבדל בין תובנה ואינדוקציה מתמטית: תובנה מציעה כיוון שעדיין טעון בדיקה, זאת בניגוד לאינדוקציה שטוענת לנכונות הדברים. יש מאחורי ההבדל הזה הרבה פילוסופיה של המדע, שאסכם בקצרה כך: למדע הנתונים אין יומרה למצוא נוסחאות לעולמינו, וגם אין לו המותרות של בחירת נושאים לניתוח נתונים... מה שכן יש לו זה (על רגל אחת) דרך להתמקד בדפוסים מענינים ולנתח מה שקורה בהם וביניהם.

איך התבנות עוזרות? הן מנסחות עבורינו השערות, ועם השערות דורות של סטטיסטיקאים כבר למדו להתעסק.

דוגמא: סקר דרישות למוצר חדש.
הסקר נניח מכיל שאלות על מוצרים שנמצאים בשוק, הרגלי שימוש, חסרונות, העלויות הכרוכות במוצרים קימים, ומידת הענין במוצר החדש.
השאלות נועדו לעזור ליזמים לתמחר ולתכנן פיצ'רס במוצר החדש, ואכן הן מבצעות את המבוקש. אך הן מגלות עוד משהו שלא שאלו במישרין.
בדוגמא זו המשהו הנוסף נניח הוא
(א) קשר בין אזור מגורים להעדפות מסוימות,
(ב) שירותים (לא מוצרים) שעלולים להתחרות ברכישת המצר החדש,
(ג) צריכה גדולה במפתיע מצד קבוצה שאינה נחשבת למובילת שוק.
דפוס ההתנהגות הנ"ל מתאים לשוק ידוע שקים באזורים מסוימים, ובהם העדפות מסוימות ידועות גם הן. הכל מתחבר כשמוסיפים לכך את הידיעה על ההוצאה ניכרת באזורים אלה בקטגוריה רלוונטית, וההבנה (תובנה) שקים ביקוש סמוי גדול, לא רק שם, אלא בכל מקום עם מאפיני אוכלוסיה דומים.
השערה ממוקדת זו כבר קל יותר לבדוק, והבדיקה עשוייה להפוך את הסקר למכשיר אסטרטגי של ממש, שמשנה את אפיון המוצר, את הייעוד שלו, אופן הפרסום והיערכות למכירות.

הסבר: התובנות מגיעות רחוק בזכות העובדה שהן "ממציאות" משתנים חדשים, משתנים שמספרם גדול יותר ממספר המשתנים הקימים בעצרת. אם נניח היו בסקר 5 שאלות, התובנות אודותיו יראו עושר של יותר מ-5 בעצרת = 120 משתנים. זה הכח שלהן והאפשרות שלהן להוציא הרבה ממעט נתונים.

זהירות: התבנות מועילות רק כאשר יש להן גילוי עקבי והסבר הגיוני שנשען על ידע קים וממשיך אותו. אגב, אם תובנה גם מסבירה את הממצאים באופן חד-חד ערכי, היא תהיה תקפה כמסקנה גם בלי מבחן סטטיסטי :)

Edith Ohri ©
Home of GT data mining

בברכה
אדית
עריכה אחרונה: 5 months 2 weeks ago  ע''י Edith Ohri. סיבה: ניסוח
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.220 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning