חוק המספרים הגדולים נחשב למעין חוק טבע סטטיסטי. אנחנו מצפים שחזרה מפסר פעמים רב על ניסוי, לדוגמא, תביא לתוצאה מתכנסת סביב הממוצע, והממוצע יהיה התוצאה השכיחה ביותר. אבל לא תמיד זה קורה. בביג דטה. לדוגמא, סביר להניח שהמספרים לא יתכנסו למספר יציב.
למה? - בגלל שתי תופעות טיפוסיות שגורמות לדינאמיות ולשינוי לאורך הזמן של ערכי הממוצע והשכיח. התופעות הן:-
(1) קשרים פנימיים רבים בין משתנים ובין רשומות;
(2) תערובת של תופעות, בחלקן סמויות.
אי ההתכנסות לערכים יציבים מעמידה בסיכון את תוצאות האלגוריתמים ללימוד-מכונה (machine learning) שמסתמכים על ומניחים את קיומה של סביבה ידועה ומבוקרת, אשר בה אחרי מספר רב של ניסויים ניתן להגיע לאפיון יציב, האפיון "האמיתי" של המערכת, ולא כמתואר לעיל - אפיון דינאמי ובלתי יציב...
היעלמות חוק המספרים הגדולים מנוף הביג דטה, אינו מפתיע מבחינת פתרון האנליטיקס של GT-data-mining. לפי GT זו רק אחד מהמוזרויות שניתן לצפות להם בנתונים לא מפוקחים כאלה, והדבר קורה לא רק בגלל שלושת ה-וי המפורסמים (Volume, Velocity and Variability). זהו חלק משינוי מהותי מקיף שעבר עולם הנתונים הישן עקב טכנולוגיות המידע, שינוי מעולם שבו כדי ליצר מידע היה צריך להשקיע מאמצים ותכנון, לעולם חדש שבו הנתונים זורמים בשפע ממקורות שונים ומשונים שחלקם ההולך וגדל הינו לא-מפוקח.
בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
חוק המספרים הגדולים לא פועל בביג דטה
4 years 5 months ago #8344
זה שחוק המספרים הגדולים לא עובד בביג דטה אומר בין היתר, שהתוצאות של ניתוח ביג דטה רגיל (שאינו מתבסס על קבוצות) אינן נכונות אפילו לא בקירוב .
החיזוי היחיד שאפשר לקוות לו בניתוח נתונים רגיל הוא, לטווח קצר סביב נקודת החישוב. הערה: זה שהחיזוי מצליח בשוליים, אינו מעיד על נכונות חוקים ששמשו לו, אלא נובע פשוט מהעובדה שבטווח קצר רוב המשתנים נשארים קבועים במצבים נמשכים = במצבים שאינם משבריים או בלתי-רציפים.
בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
חוק המספרים הגדולים לא פועל בביג דטה
4 years 5 months ago #8346
להלן תגובה לפרסום הנושא ב- ResearchGate (שמתאימה לתגובה קודמת על הפרסום ב Linkedin):
חוק המספרים הגדולים מסתמך על ההנחה שערכי המשתנים מפוזרים שווה על פני המדגם (IDD - identically distributed). ההנחה לא מתקימת בביג דטה, להיפך אנחנו מחפשים דפוסי התנהגות נבדלים, ובהם "כיסי" התנהגות שונים ואפילו חריגים.
להבנתי, פיזור לא שווה משמעו שהנתונים תלויים במשתנה כלשהו (כרונולוגי או משתנה אחר שלפיו מסודר הקלט), אשר עשוי להיות הגורם האמיתי, מבחינה טכנית, ברגע שהמשתנים לא מפוזרים שווה, הקריטריון להתכנסות יהיה לא עקבי ולא בהכרח רציף, ויעמיד את יכולות החיזוי והאימות בכלל בסימן שאלה.
הערה: חוק המספרים הגדולים כן מתקים בתוך הקבוצות על פי תפיסת GT (כי הן הומוגניות) ובין קבוצות (מאחר והן בלתי תלויות). הומוגניות ואי תלות הן שתי תכונות של "רנדומליות" אשר לפי פרופ' יוסף אגסי היא התנאי ההכרחי לכל ניתוח נתונים.