הצטרפו לקבוצות שלנו לקבלת עדכונים מרוכזים פעם בשבוע:

ווטסאפ:
http://wa.dwh.co.il
טלגרם:
http://telegram.dwh.co.il

חוק מס' 21 במדע הנתונים החדש- חזוי עם מעט נתונים

More
3 years 7 months ago - 3 years 6 months ago #8504 by Edith Ohri
חוק מס' 21 במדע הנתונים החדש- חזוי על סמך מעט נתוני עבר.

אפשר להשליך על העתיד (לבצע projection) את החוקיות שהתגלתה בעבר, אך לא את נתוני העבר. לפיכך חוסר בנתונים אינו אמור להפריע לחזוי אלא במידה שהוא מפריע לניסוח חוקיות, או לזיהוי התנאים ליישומה.

הגדרה של חוקיות:
חוקיות היא קשר, שמתקים בתנאים מסוימים, ותוצאותיו ניתנות לצפייה מראש.

דוגמא לחזוי עם היסטוריה קצרה: ההשתנות הדינאמית של דפוסי התנהגות מזג האוויר, עקב התחממות כדור הארץ.
ההשתנות המהירה בתנאי האקלים מצמצמת את הנתונים הרלוונטיים העומדים לרשות החזאים לצורכי לימוד תופעות חדשות. איך בכל זאת מצליחים החזאים לעדכן את המודלים באופן מדויק מספיק כדי לספק מבעוד מועד התראות שימנעו אבדן חיי אדם ורכוש, בלי להיתפס להתראות שוא?
החזאים פותרים את הבעיה על ידי עדכון המצב במרווחי זמן קצרים, והצבת נוסחאות פיזיקליות ידועות* על קשרים בין טמפרטורות, לחצי אויר, ותופעות אקלימיות שניתנות למדידה; כאשר העדכון המהיר של תנאי השטח מעלה את דיוק הנוסחאות ומפצה על כך שלא תוקנו (בגלל חוסר בנתונים).
--
*הערה: חזוי מזג אוויר הוא מקרה פרטי שבו קימות נוסחאות פיזיקליות כלליות, שממשיכות להתקים. זה לא קורה בתחומים אחרים, כמו נניח חזוי שוק למוצר.


בברכה
אדית
Last edit: 3 years 6 months ago by Edith Ohri. Reason: הבהרה

Please התחברות to join the conversation.

More
3 years 7 months ago - 3 years 7 months ago #8506 by Edith Ohri
דוגמא לחזוי בלתי אפשרי בגלל חוסר מידע: חזוי של מהפיכות.

מהפיכה מוגדרת כאירוע של קפיצת מדרגה או שינוי רדיקלי בתחומי הטכנולוגיה החברה והפוליטיקה (על פי ויקיפידיה).
מטבע הדברים, מהפיכות קוטעות את רצף החוקיות, ומעלות תובנות חדשות לגבי נקודות קיצון שלא נבדקו בעבר.

אנו עדים למהפיכה שקורית בעצם ימים אלה, כתוצאה מהצטלבות של מספר תופעות חזקות:
  1. בועה פיננסית שעומדת להיתפוצץ בנאסד"ק ניו-יורק (הבועה ניזונה מהזרמת כספי הממשל, השימוש ברובוטים למסחר בני"ע שמגיבים באופן דומה ובבת אחת, ומשבר הקורונה שמונע חלחול הכסף לתעשיות וגורם ל"שטפונות" וטלטלות עזות בכלכלה.)
  2. הופעת טכנולוגית בלוקצ'יין אשר מיתר חלקים גדולים מהשירותים הפיננסיים של היום, ובהם שירותי בנקים וחברות אשראי.
  3. התבססות מטבעות הקריפטו במידה שמספיקה לצורכי "עזרה ראשונה" במשבר, והתחלה של תשתית פיננסית אלטרנטיבית.
  4. המגמה של אנרגיה ממקורות מתחדשים, מה שלבדו היה יכול להספיק למהפיכה, במקביל לאסונות טבע הולכים וגוברים (שריפות ענק, סופות, ושטפונות שהורסים איזורים שלמים).
  5. המעבר לקריפטו – זו כבר דעתי האישית – אשר איפשר הלבנת הון שחור בהיקף גדול, שמשמעותה חלוקת העושר מחדש, קירוב המאפיה עוד יותר לשלטון, וכאוס כלכלי.

  6. [/olלמשבר כזה אין תקדים, אין לו מודלים, וההתפתחויות המהירות מבטלות את האפשרות להיעזר ברובוטים/AI ללימוד שלו בזמן אמת. האם כאן נעצרת יכולת החיזוי? האם יש למדע הנתונים מה להגיד בנושא?


בברכה
אדית
Last edit: 3 years 7 months ago by Edith Ohri.

Please התחברות to join the conversation.

More
3 years 6 months ago - 3 years 5 months ago #8507 by Edith Ohri
באופן פרדוקסלי ובניגוד לאינטואיציה, בביג דטה משופע הנתונים תמיד יחסרו נתונים לניתוח. הסיבה נעוצה בשונות הסביבה והגיוון הגדול* של ביג דטה. וכן גם אי ההתכנסות - ראה "חוק המספרים הגדולים לא פועל בביג דטה".
www.dwh.co.il/forum/4-DataMining/8059-%D...2-%D7%93%D7%98%D7%94

* התכונות שנחשבות למאפינות של ביג דטה: Volume, Variability, Velocity or Volatility, Veracity - VVVV.

אפשר לשפר את אחידות סביבה האירועים של ביג דטה בשתי צורות: (א) להתמקד במרווחי זמן קצרים (ע"י עדכון תכוף), או (ב) להוסיף לנתונים את סט המשתנים הייחודיים של כל רשומה.
שתי הגישות אינן מספקות פתרון כללי. בראשונה כמות הרשומות קטנה מדי, ובשנייה מספר הרשומות i יהיה תמיד קטן ממספר המשתנים n בתוספת הסטים הייחודיים לכל רשומה i, וסה"כ n+i. כתוצאה, מספר הרשומות קטן ממספר המשתנים, והנתונים הלא אחידים אינם מאפשרים להשלים את החסר ע"י הנחות, כך שאין לזה פתרון סטטיסטי ולמעשה אין בכלל פתרון חישובי ספציפי (בגישה המקובלת). מדובר בבעיה מהותית ועקרונית שזכתה להתיחסות בפעם הראשונה במדע הנתונים החדש (והיישום ב-GT).
תמצית הפתרון נמצא בהכנסת קונספט הקבוצות – עוד ב www.researchgate.net/project/Philosophy-...r-big-data-analytics טאב "Project Log"

מדע הנתונים החדש ו-GT, כל הזכויות שמורות – Edith Ohri


בברכה
אדית
Last edit: 3 years 5 months ago by Edith Ohri. Reason: דיוק

Please התחברות to join the conversation.

More
3 years 5 months ago - 2 years 8 months ago #8511 by Edith Ohri
אחת האפשרויות המעשיות, שממעטים להשתמש בה, היא להשתמש בתובנות לתמיכה בחישוב.
זה המקום להזכיר את ההגדרה הבאה מתוך " עקרונות מדע הנתונים החדש ":
תובנה היא סוג של אינדוקציה שנובע מהכללת מסקנות או מהיסק לוגי על בסיס חוקים קימים. כמה מילים על ההבדל בין תובנה ואינדוקציה מתמטית: תובנה מציעה כיוון שעדיין טעון בדיקה, זאת בניגוד לאינדוקציה שטוענת לנכונות הדברים. יש מאחורי ההבדל הזה הרבה פילוסופיה של המדע, שאסכם בקצרה כך: למדע הנתונים אין יומרה למצוא נוסחאות לעולמינו, וגם אין לו המותרות של בחירת נושאים לניתוח נתונים... מה שכן יש לו זה (על רגל אחת) דרך להתמקד בדפוסים מענינים ולנתח מה שקורה בהם וביניהם.

איך התבנות עוזרות? הן מנסחות עבורינו השערות, ועם השערות דורות של סטטיסטיקאים כבר למדו להתעסק.

דוגמא: סקר דרישות למוצר חדש.
הסקר נניח מכיל שאלות על מוצרים שנמצאים בשוק, הרגלי שימוש, חסרונות, העלויות הכרוכות במוצרים קימים, ומידת הענין במוצר החדש.
השאלות נועדו לעזור ליזמים לתמחר ולתכנן פיצ'רס במוצר החדש, ואכן הן מבצעות את המבוקש. אך הן מגלות עוד משהו שלא שאלו במישרין.
בדוגמא זו המשהו הנוסף נניח הוא
(א) קשר בין אזור מגורים להעדפות מסוימות,
(ב) שירותים (לא מוצרים) שעלולים להתחרות ברכישת המצר החדש,
(ג) צריכה גדולה במפתיע מצד קבוצה שאינה נחשבת למובילת שוק.
דפוס ההתנהגות הנ"ל מתאים לשוק ידוע שקים באזורים מסוימים, ובהם העדפות מסוימות ידועות גם הן. הכל מתחבר כשמוסיפים לכך את הידיעה על ההוצאה ניכרת באזורים אלה בקטגוריה רלוונטית, וההבנה (תובנה) שקים ביקוש סמוי גדול, לא רק שם, אלא בכל מקום עם מאפיני אוכלוסיה דומים.
השערה ממוקדת זו כבר קל יותר לבדוק, והבדיקה עשוייה להפוך את הסקר למכשיר אסטרטגי של ממש, שמשנה את אפיון המוצר, את הייעוד שלו, אופן הפרסום והיערכות למכירות.

הסבר: התובנות מגיעות רחוק בזכות העובדה שהן "ממציאות" משתנים חדשים, משתנים שמספרם גדול יותר ממספר המשתנים הקימים בעצרת. אם נניח היו בסקר 5 שאלות, התובנות אודותיו יראו עושר של יותר מ-5 בעצרת = 120 משתנים. זה הכח שלהן והאפשרות שלהן להוציא הרבה ממעט נתונים.

הערות:
1. תבנה נחשבת לסבירה כאשר יש לה (א) גילוי ייחודי עקבי (אף אם נדיר), (ב) הסבר הגיוני שמרחיב את הידע הקים.
2. לא דרוש מבחן סטטיסטי לוידוא תבנה כאשר היא מסבירה את הממצאים באופן חד-חד ערכי.
3. לא ניתן לבצע מבחן סטטיסטי במקרים של תופעות חסרות תקדים ובמקרים של "פיל בחדר", כמו בדוגמת פיל הקריפטו .

Edith Ohri ©
Home of GT data mining


בברכה
אדית
Last edit: 2 years 8 months ago by Edith Ohri. Reason: הבהרה

Please התחברות to join the conversation.

Moderators: Edith Ohri
Time to create page: 0.308 seconds