BigQuery data preparation זמינה כעת באופן כללי (GA). היא מציעה הצעות מונחות בינה מלאכותית מ-Gemini לניקוי, טרנספורמציה והעשרת נתונים.
מבוא להכנת נתונים ב-BigQuery
מסמך זה מציג את תהליך הכנת הנתונים ב-BigQuery בעזרת בינה מלאכותית. תהליך זה מתבצע בעזרת Gemini, כלי AI שמסייע בניקוי, שינוי והעשרת נתונים, ובכך חוסך זמן ומאמץ רב. התזמון של הרצות הנתונים מנוהל על ידי Dataform.
יתרונות
-
קבלת הצעות חכמות מבוססות הקשר לשינוי נתונים, מה שמפחית את הזמן לפיתוח pipelines.
-
תצוגה מקדימה לתוצאות עם הצעות אוטומטיות לשיפור איכות הנתונים.
-
עבודה בתהליך CI/CD עם תמיכה בשיתוף פעולה בצוותים דרך Dataform.
נקודות התחלה
ניתן ליצור ולנהל תהליכי הכנת נתונים בדף BigQuery Studio. כאשר פותחים טבלה, BigQuery מריץ job שמדגם את הנתונים ומציג הצעות לשיפור בעורך.
תצוגות עורך ההכנה
-
תצוגת נתונים (Data view): הצגה של דגימת הנתונים, כולל אינטראקציה, הצעות מ-Gemini ופרופילים סטטיסטיים.
-
תצוגת גרף (Graph view): תצוגה ויזואלית של שלבי ההכנה, כל שלב הוא node.
-
תצוגת סכימה (Schema view): מציגה את הסכימה הנוכחית ומאפשרת פעולות כמו מחיקת עמודות.
הצעות של Gemini
Gemini מציע:
-
טרנספורמציות וחוקי איכות נתונים
-
העשרת נתונים ואוטומציית מיפוי סכימות
-
כרטיסי הצעות שמכילים תיאור, SQL תואם ואפשרות תצוגה/עריכה/יישום
דגימת נתונים
BigQuery מדגם את הנתונים לתצוגה, והדגימה אינה מתעדכנת אוטומטית.
מצבי כתיבה (Write Modes)
-
Full Refresh: מריץ את כל הנתונים מחדש.
-
Append: מוסיף את הנתונים החדשים לשולחן היעד.
-
Incremental: מעבד רק נתונים חדשים או שהשתנו לפי עמודה מוגדרת.
סוגי שלבים נתמכים
-
מקור (Source): הגדרת טבלאות מקור או פעולת Join.
-
טרנספורמציה (Transformation): שינוי הנתונים עם ביטויי SQL.
-
סינון (Filter): הסרת שורות לפי תנאים.
-
ולידציה (Validation): שליחה של נתונים שגויים לטבלת שגיאות.
-
חיבור (Join): שילוב של טבלאות.
-
יעד (Destination): הגדרת טבלת יעד לפלט.
-
מחיקת עמודות: מחיקה מתוך תצוגת הסכימה.
תזמון הרצות
ניתן לקבוע תזמונים להרצת ההכנות מדף העורך או מדף התזמונים של BigQuery.
בניית pipelines
אפשר לבנות pipelines המורכבים מהכנות נתונים, שאילתות SQL ומשימות notebook, ולהריץ אותם לפי לוח זמנים.
בקרת גישה ואבטחה
-
הרשאות IAM למשתמשים ול-Dataform
-
הצפנה עם Cloud KMS
-
הגנה על Dataform ו-BigQuery עם VPC Service Controls
מגבלות
-
מקור ויעד חייבים להיות באותו אזור.
-
נתונים נשלחים ל-Gemini לצורך עיבוד.
-
לא נתמך עם Assured Workloads.
-
אין API ייעודי, יש להשתמש ב-API הקיימים של Gemini ו-BigQuery.
המקור: גוגל בכתובת הזאת.