Star inactiveStar inactiveStar inactiveStar inactiveStar inactive
 

אחת הבעיות המובילות בחקר מגיפת הקורונה נוגעת ביצירה של תמונת מצב גלובאלית ומעודכנת של התפשטות הנגיף.

קיימים מספר לא מבוטל של מאגרי מידע המספקים מידע רב ומגוון על המחלה, אך הבעיה נובעת מכך שכול אחד ממאגרי המידע מקורו בגוף אחר – בין אם מדובר בגוף מחקרי-אקדמי, משרדי בריאות של מדינות שונות, האיחוד האירופאי, ארגוני בריאות בינ"ל, ועוד. כול אחד מהגופים מייצר מאגר מידע בפורמט שונה, עם דרך הצגת נתונים שונה, והדבר מצריך חוקרים מסביב לעולם בתחומי הרפואה ובריאות הציבור לבצע עבודת הכנה וסטנדרטיזציה למידע הגולמי לפני שניתן יהיה לאחד את המידע ולהשתמש בו לצורכי מחקר, ניתוח ואנליזה.


Talend, מפתחת של פלטפורמה לניהול ואינטגרציה של נתונים, הודיעה כי פיתחה כלי ETL חינמי, מבוסס על פתרון טעינת המידע Stitch, לביצוע אינטגרציה של מאגרי המידע המרכזיים לחקר הקורונה. הכלי החדש, שפותח בשיתוף עם מפתחים מקהילת הקוד הפתוח Singer ו-Bytecode, מריץ את המידע הגולמי המתקבל מ-6 מאגרי מידע עולמיים ומבצע סטנדרטיזציה של הנתונים, מעשיר אותם במטה-דאטה, ובסופו של תהליך מעביר את המידע האחוד לאגם מידע הפתוח לשימוש על גבי תשתיות הענן של אמזון, מיקרוסופט, גוגל, ועוד.


מאגרי המידע הנמנים הנכללים באיחוד הנתונים כוללים את: בסיס הנתונים של אוניברסיטת ג'ון הופקינס, בסיס הנתונים של האיחוד האירופאי, בסיס הנתונים של משרד הבריאות האיטלקי, בסיס הנתונים של הניו יורק טיימס, בסיס הנתונים של קבוצת המחקר Neher Lab המתמחה בחקר פאתוגנים מאוניברסיטת באזל בשווייץ, וקהילת המחקר COVID-19 Tracking Project.
בפוסט שפרסמה Talend נכתב כי "דאטה מסייע לחוקרים להבין את התפשטות המחלה, האופנים בהם היא מועברת, ואת שיעורי ההדבקה שלה. דאטה הוא יקר ערך במלחמה נגד הוירוס. אולם חוקרים מתמודדים עם אתגר ייחודי כאשר הם עובדים עם נתונים שמקורם במערכות בריאות שונות. לאחד אותם הופך לאתגר בפני עצמו, וגם אם הקבצים אוחדו, עדיין נדרש לבצע בהם פעולות שיבטיחו את הרציפות של הזמנים והמיקומים. במקרים רבים גם נדרש ניקוי של המידע הגולמי. מקצועני דאטה בתחומי בריאות הציבור וחוקרים נוספים זקוקים למידע באיכות גבוהה ביותר ודיוק מקסימלי. ככול שרמת הדיוק והניקיון של המידע האחוד היא גבוהה יותר, כך הם יכולים מהר יותר להגיע למחקר המבוסס על בסיסי נתונים אלו".


יוסי רודריק, מנכ"ל אקורייט (aQurate) מקבוצת UCL, נציגת Talend בישראל, ציין כי "אנחנו רואים את המצב בו על מנת לקבל תמונת מצב עסקית נדרשת עבודה של אינטגרציה ממספר רב של מקורות מידע ארגוניים וחיצוניים. זהו תרחיש עסקי מקובל, ואנו פעילים בעולמות הללו באופן שוטף. ההבדל פה הוא בכך שמדובר במאגרי מידע גלובאליים גדולים ומורכבים, שאיחוד הנתונים שלהם יכול לספק לחוקרים כלים להבנת התפשטות מגיפת הקורונה, שהיא בעלת השפעה חריגה על חיינו - הן ברמה הבריאותית והן ברמה הכלכלית. המידע עובר לרשות החוקרים לאנליטיקה מתקדמת ועיבוד בתוך דקות, במקום ימים או אף שבועות בתהליכים המסורתיים של איחוד המידע והניקוי שלו".


גישה לכלי ה-ETL החינמי מתאפשרת באמצעות הלינק הבא: https://www.stitchdata.com/integrations/covid-19/

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

אירועים קרובים

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning