התחברות

התחברות
x
או
x
הרשמה
x

או

קליק אחד ואתם מחוברים. מהיר .קל .מאובטח.

חדש בפורומים

מעניין? שתפו דף זה באמצעות הטלפון הנייד

אירועים קרובים

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

הדף שלנו בפייסבוק

ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: גילוי מוקדם של SPAM

גילוי מוקדם של SPAM 8 years 3 months ago #6533

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 315
  • קרמה: 0
מה אפשר ללמוד מרשימת מפיצי דואר זבל?

באחד מאתרי הפורומים לכריית נתונים, הציג בעל האתר רשימה שחורה של דואר זבל (ד"ז) מהשנה החולפת, כדי לידע את החברים.
(data-mi.ning.com/forum/topics/blacklisted-and-banned-from )

כמי שעיסוקו כריית נתונים, התעוררה אצלי מייד תגובה אוטומטית לחקור ולמצוא מהם מאפיני ה-ד"ז, אבל איך?!



אפשרויות כריית נתונים

מטעמי חסיות נתונים, הרשימה הוצגה ללא פרטי שדות מתארים (attributes). כל מה שניתן בה הוא שמות, כתובות, והתאריך בו הוכרזו בתור ד"ז. בנוסף, טווח התאריכים מוגבל לשנה בלבד, מה שמפריע לאיתור תופעות עונתיות ומגמות, והרשימה כוללת רק ד"ז ללא רשומות תקינות, כך שלא ניתן להסיק ממנה בבירור על מאפיני התנהגות חריגה.
הבעיה העקרונית היא, שבלי שדות מתארים ומגוון מלא של רשומות, לא ניתן לפענח דפוסי התנהגות!

ובכן לא בדיוק כך.
המתבונן יווכח, שבתוך השדות המילוליים מסתתר מידע מוצפן, שניתן להפרדה ולשימוש. לדוגמא: שם משתמש מכיל לפעמים מספר מילים, ספרות, משפטי פרסום, ומילים אינדוקטיביות כגון "buy" או "sell". אפשר להפריד את המידע הזה לשדות מתארים ספציפיים. כך עשיתי, תוך מעבר בשבע עיניים על כל פרט גם בכתובת הדואל והתאריך, ובסיכומו של דבר הגעתי ל-20 שדות מתארים... אמנם השדות תלויים ביניהם במידת מה, אך הדבר לא מפריע למנגנון כריית נתונים GT שבו אשתמש. המיוחד ב-GT לצרכינו הוא, גילוי קשרים סמויים בתוך הנתונים.
ובכן, עם 20 שדות וקרוב לאלף שורות ברשימה, כבר ניתן לעשות משהו. כעת אפשר להתחיל.

הערה: אם מישהו חולק על קביעה כלשהי, אתיחס ברצון, ובינתיים אמשיך בתיאור המקרה במקוצר.


מסקנות לגבי דפוסי התנהגות Spam - ספאם

נחשפות כ-8 קבוצות (clusters) של רשומות, ובהן קבוצה בעלת סיכון גבוה וקבוצה בעלת סיכון נמוך יחסית.
קבוצת ד"ז בסיכון גבוה הם משתמשי gmail, בעלי שם קצר, ושם-משתמש שמכיל ספרות רבות.
לעומת זאת, קבוצת ד"ז בסיכון נמוך הם משתמשים מכל האתרים, והמכנה המשותף היחיד שלהם הוא תאריך סוף שנה.
הסתכלות על מאפיני הקבוצות הקיצוניות, תמיד מלמדת הרבה.


מסקנות גורמי מפתח

האתר שממנו נשלח ד"ז, הוא ברב הקבוצות הגורם הבולט לחומרת סיכוני SPAM. במספר קבוצות נמצאו גורמים-משולבים פרטניים, כגון: מספר המילים בשם השולח, היום בשבוע, מספר הספרות והאותיות בשם-משתמש ועוד סמנים שקל לזהותם, ובאמצעותם לזהות משתמשים חשודים עוד לפני שעשו צעד אחד.


מבחן התוצאות של GT

לצורך מבחן התוצאות שהן במקרה זה "ניבוי רמת הסיכון", השארתי בצד מראש מחצית מהרשומות שאותן בחרתי באקראיות. עכשיו משתמשים בהן.
ראשית כל, GT מזהה את השיוך של כל רשומה לאחת מ-8 הקבוצות או דפוסי ההתנהגות.
לאחר מכן, הוא מפעיל על כל רשומה את נוסחת הניבוי שלה שהוגדרה קודם.
את תוצאת הניבוי של דרגת סיכון ה-ד"ז משווים לדרגת הסיכון בפועל, ומחשבים את הסטייה.
הערה: זהו תהליך סטנדרטי של מבחן השערות סטטיסטי. בנקודה זו GT מתחבר עם הזרם המרכזי של ניתוח נתונים בכל השיטות, בספקו השערות מגובשות שניתן לבדוק אותן בכלים סטנדרטיים.
הסטייה אמנם מתכווצת ב-4.2% בממוצע, שהוא הישג לא קטן בהתחשב במגבלות סט הנתונים ובמגוון הרחב של תופעת ה-SPAM.


תועלת נוספת

אחרי הפקת תרשימי GT, מתבררת תועלת נוספת. בדיקה מראה שהדיוק לא אחיד, ולמעשה הניבוי בקבוצת הסיכון הגבוה הינו יעיל/מדויק יותר. ראו בתרשים המצורף את גרף הסיכון-הגבוה (באדום) קרוב ל-45°, כלומר הניבוי כמעט זהה בממוצע לתוצאת האמת. לשם השוואה, ראו את קבוצת הסיכון הנמוך, שבה הניבוי מתרחק מקו 45°, כלומר יעילותו נמוכה.
זה ממצא חשוב שמוכיח רגישות להתראות במקרים של סיכון גבוה והפחתת התראות שווא הקשורות בד"כ למקרים של סיכון נמוך.


http://data-mi.ning.com/forum/attachment/download?id=2851855%3AUploadedFile%3A22173




למידע בנושא: This e-mail address is being protected from spambots. You need JavaScript enabled to view it.

אדית אורי

בברכה
אדית
עריכה אחרונה: 8 years 3 months ago  ע''י Edith Ohri.
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.472 שניות

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning