ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: Spatial Data Mining - How we do it?

Spatial Data Mining - How we do it? 6 years 7 months ago #8194

שלום לכולם,

אשמח מאוד להתייעץ עימכם. אחד הלקוחות שלנו מבקש לשאול שאלות של כריית נתונים על DB שמכיל מידע מרחבי. לדוגמא, הוא מבקש לדעת האם יש קשר בין אירוע שקרה באזור מסוים (נניח מישהו הפעיל אפליקציה מסוימת בשכונת פלורנטין) לאירוע שקרה באזור אחר (נניח מישהו שהפעיל אפליקציה אחרת בשכונת בבלי). כמובן, שכל אחד מהאירועים הינו עם אלמנט של נ.צ. ושל זמן.

ללקוח יש ESRI והוא יודע לבצע כל שאילתא נדרשת ב-SQL.

הייתי שמח מאוד לדעת האם יש מקור טוב ללמוד על שאלות מסוג זה, ואיך נכון לשאול אותם. התחום נקרא Spatial Data Mining.

תודה וכל טוב.

דניאל
הנהלת האתר ביטלה גישת כתיבה ציבורית.

Spatial Data Mining - How we do it? 6 years 7 months ago #8195

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
מיכאל,
שאלה טובה. מענין להרחיב אותה.
המושגים "כריית נתונים מרחבית" ו-ESRI שיכים ליישומי GIS (מערכות מידע על בסיס מפות), אך השאלה בדבר מציאת קשר בין אירועים במודולים שונים, רלוונטית בכל מערכת מידע! תמיד חשוב למצוא קשרים סמויים בין אירועים שונים במערכת, כי הבלתי צפוי מוריד מיכולת התכנון והתגובה, ובד"כ גם עולה יותר.
בעיני זו המטרה העיקרית של כריית נתונים, לדעת על קשרים נסתרים, או כאלה שחסרה להם הגדרה משותפת כמגמות, תופעות ודפוסי התנהגות. השאלה הכללית בעיני היא אם כן, איך פתרון כריית נתונים יכול לתמוך באיתור קשר נסתר?
אני מציעה, לצורך איתור קשרים חדשים, להתבסס על התמיכה בהגדרת clusters (קבוצות) - תמיכה שניתנת בכל כלי כריית נתונים, כל כלי יודע ברמת מהימנות כלשהי להציע הגדרת קבוצות, אם זה הגדרה סכמטית לפי התפלגות ערכים, ממוצעי ערכים, לפי סיווג אירועי עבר, ויז'ואליזציה אינטראקטיבית, או ידע חיצוני של מומחה אנושי. אחרי שיש בידך קבוצות בעלות התנהגות טיפוסית ברורה, ניתן לראות בתוכן ביתר בהירות קורלציות נסתרות.
הערה: לא ציינתי כאן את אפשרות של חיפוש אינטראקטיבי ואלימינציה, שהיתה יכולה לסיע בניפוי אפשרויות וצמצום מרחב הפתרון והתמקדות, זאת מחשש לתוצאות שגויות שלא נדע להבחין בינן לבין תוצאות נכונות. תהליך חיפוש אינטראקטיבי עלול להגביר בסדרי גודל טעויות אבחון, ואם רוצים להשתמש בו צריך לחזק ולהוסיף לו מבחנים שאינם סטטיסטיים.

מסתובבת טענה בעולם שתומכים בה בכירים וטובים באקדמיה ובתעשיית המידע, שלא ניתן להגדיר קבוצות יעילות בעזרת אלגוריתמים, ואין תחליף בענין זה למח האנושי. בעיני המצב הפוך, דווקא המח האנושי הוא המגביל העקרי בבואנו לנתח תופעות מורכבות ומרובות משתנים ואירועים, על אחת כמה וכמה כשהנתונים הם לא-מפוקחים (שמגיעים מהשטח). התקווה היחידה לפתור בעיות כאלה לעניות דעתי היא באמצעות אלגוריתמים מבוססי מחשב, וזה כיוון שמוכיח את עצמו מעשית ב- GT data Mining.

בברכה,
אדית
Home of GT data mining

בברכה
אדית
עריכה אחרונה: 6 years 7 months ago  ע''י Edith Ohri. סיבה: ניסוח..
הנהלת האתר ביטלה גישת כתיבה ציבורית.

Spatial Data Mining - How we do it? 6 years 7 months ago #8196

אדית שלום,

1. התשובה היא טובה ומלמדת, אך אני בעיקרון מחפש דוגמאות ו-Case Studies. הייתי שמח לקבל קצת יותר מושג על איך לנסות ולזהות את הקשרים בין האירועים.
2. אני מסכים ש- Clustering יעזור פה – השאלה איך עושים אותו בהקשר לשאלה מרחבית?

תודה רבה,
דניאל
הנהלת האתר ביטלה גישת כתיבה ציבורית.

Spatial Data Mining - How we do it? 6 years 7 months ago #8197

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
דניאל , שלום.
בענין Case Studies, ביצעתי פרויקט כריית נתוני רעידות אדמה, שבו הקלט הכיל קואורדינטות XY כמו אצלך. הנתון הגיאוגראפי הוא חיוני בניתוח רעידות אדמה, ואמנם הניתוח בעזרת GT איתר רעידות שקורות במקומות ובזמנים שונים ושיכות לתופעות משותפות כגון: מסלולי התפשטות של רעידות האדמה. המחקר מצא גם תופעה חדשה של קשר בין רעידות אדמה באזור ים סוף לרעידות באזור כרתים בים התיכון. ממצאים חדשים תמיד צריך להעביר אישור מומחים, כולל הסבר לאישור, ממצאים טכניים זה לא הכל.
מצורפת דוגמת קלט .
לשים לב, שכדי לקרוא את הקלט, תכנת כריית הנתונים צריכה לדעת להתיחס לשני המשתנים XY כמו למשתנה אחד - מרחק בין שתי נקודות (המרחק מחושב על סמך הפרשי הקואורדינטות XY).

השאלה, האם ל-SAS יש פרוצדורה של חישוב מרחק לפי קואורדינטות, כי אם אין, תצטרך להשלים את זה בקוד חיצוני או בכלל לבצע את הניתוח המרחבי בחוץ.

בפרויקט רעידות אדמה כמו אצלך, הנתונים היו מסוג Unsupervised. אנחנו עובדים בתכנות אחרות, אצלי הכלי בנוי לעבודה עם נתונים לא מפוקחים. אם אצלך אין תמיכה ב-Unsupervised, אולי תרצה לבחור מהנתונים מדגם ולעבוד עליו כאילו הוא supervised.. זה לא כל כך רצוי, כי בבחירה מאבדים חלק מהמידע, לכן עושים את זה רק אם אין ברירה.
צירופים:

בברכה
אדית
עריכה אחרונה: 6 years 7 months ago  ע''י Edith Ohri. סיבה: תמונה שצירפתי לא עולה
הנהלת האתר ביטלה גישת כתיבה ציבורית.

Spatial Data Mining - How we do it? 6 years 7 months ago #8198

אהלן אדית,

תודה רבה על המענה המהיר! בוודאי שיש לי את היכולת לבדוק מרחקים בין קוארדינטות באופן אוטומאטי. מה שלא הבנתי, זה בין איזה נקודה לאיזה נקודה בוצעה בחינת המרחקים? האם בדקת את המרחק בין נקודה 1 ל-2? או בין הנקודה 1 לאיזשהי נקודת 0,0 על הציר?

תודה וכל טוב.

דניאל
הנהלת האתר ביטלה גישת כתיבה ציבורית.

Spatial Data Mining - How we do it? 6 years 7 months ago #8199

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 353
  • קרמה: 0
אכן, כמו שאמרת, מדדתי את המרחק בין כל שני אירועים של רעידות אדמה. ההגיון בזה הוא, שמרחק קצר בין רעידות אדמה עוזר לחשב את המסלול ומהירות התקדמות רעידות אדמה.
אני לא מכירה את הפרויקט שלך, הבנתי שהוא בנושא שירות לקוחות. ניתן לשער שגם בפרויקט שירות לקוחות המרחק בין אירועי שירות מענין, כי הוא נותן אינדיקציה עקיפה למאפינים רבים המשותפים למקומות שקרובים זה לזה, כגון: תנאי סביבה, סוג אוכלוסיה, אופי השירות המבוקש, וכו'.
זה בהחלט רעיון טוב למדוד גם את המרחק למרכז החברה, בנוסף למרחק בין צרכני שירות. המרחק למרכז עשוי להשפיע על מהירות התגובה, העלויות, היעזרות בקבלני משנה ועוד, לכן זה מענין. אמנם יש תלות בין שני שדות המרחק הנ"ל, אבל הם לא זהים,, ורישומם בנפרד עשוי להיות בדיוק הגורם החסר לצורך הסבר תופעות כמו שינויים ברווחיות, ומגמות בשביעות רצון לקוחות.

לשים לב: אחד הדברים השונים בכריית נתונים unsupervised הוא שמותר להכניס משתנים תלויים.

בברכה

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.204 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning