הצטרפו לקבוצות שלנו לקבלת עדכונים מרוכזים פעם בשבוע:

ווטסאפ:
http://wa.dwh.co.il
טלגרם:
http://telegram.dwh.co.il

חוקרי בינה מלאכותית יוצרת (GenAI) מאנבידיה יצרו מודל AI עשיר, עוצמתי ומגוון ביותר להפקת צלילים מפקודות טקסט.

פוגאטו (Fugatto) יכול להפוך הוראות טקסט פשוטות למוזיקה, קטעי קול, קולות וצלילים - וכל השילובים האפשריים ביניהם - במהירות ובקלות. המודל, שעדיין מצוי בשלב המחקרי, פותח עבור יוצרים, מוזיקאים, מלחינים, פרסומאים, מפתחי משחקים ותוכנות ואנשי תוכן.

פוגאטו יכול בין היתר ליצור מלודיה קצרה על פי הנחיות טקסטואליות, להוסיף או להסיר כלי נגינה משיר, לשלב אפקטים, להטמיע קולות ולשלב ביניהם בגמישות חסרת תקדים כך שלעיתים התוצאה היא צלילים או שילובים שאיש לא שמע מעולם - למשל, סקסופון שנובח כמו כלב או מיילל כמו חתול. המודל מאפשר גם ליצור קריינות באמצעות פקודה טקסטואלית ולשנות את המבטא או את האינטונציה של הדוברים (למשל מטון שמח לעצוב).

יכולת יוצאת דופן של פוגאטו היא ביצירת סאונדים עם מאפיינים שמשתנים ומתפתחים לאורך הזמן, למשל סאונד של סופת גשם עם רעש של רעמים שמתגברים בהדרגה ונמוגים לאיטם. בנוסף, בניגוד לרוב המודלים שיכולים רק ליצור מחדש על בסיס נתוני האימון שנחשפו אליהם, פוגאטו מאפשרת ליצור סאונד שמעולם לא נחשף אליו קודם.

מפיקים מוזיקליים יכולים להשתמש בפוגאטו כדי ליצור סקיצות או רעיונות ליצירות ולנסות סגנונות, קולות וכלי נגינה שונים. הם גם יכולים להוסיף אפקטים להקלטה קיימת, או לשפר את האיכות שלה. בפיתוח המודל היו מעורבים צוותים בינלאומיים על מנת להתאים אותו לשפות ומבטאים שונים. צוות הפיתוח אסף מיליוני דגימות אודיו לאימון המודל ואף פיתח אסטרטגיה המאפשרת לפוגאטו להתרחב וללמוד בעתיד ללא צורך בנתונים נוספים.

"זהו מודל מהפכני", אמר עידו זמישלני, מפיק וכותב שירים ומייסד-שותף של חברת הסטארטאפ One Take Audio המשתתפת ב-NVIDIA Inception, תוכנית הסטארטאפים של NVIDIA. "סאונד הוא ההשראה שלי, והיכולת לייצר צלילים חדשים בזמן אמת באולפן היא דבר מדהים בעיניי. ההיסטוריה של המוזיקה היא גם היסטוריה של טכנולוגיה. הגיטרה החשמלית הביאה לעולם את הרוקנרול. כשהסמפלר הופיע, ההיפ הופ נולד. כעת, עם בינה מלאכותית, אנחנו כותבים את הפרק הבא בתחום המוזיקה. יש לנו כלי מוזיקלי חדש וזה סופר מרגש".

פוגאטו פותח על בסיס עבודות קודמות של החוקרים במידול שפה, קידוד שמע, והבנת שמע. הגרסה המלאה שלו כוללת כ-2.5 מיליארד פרמטרים והוא אומן על גבי מערכות NVIDIA DGX, הכוללות 32 NVIDIA H100 Tensor Core GPUs, תוך שימוש בטכניקה ייחודית בשם ComposableART.

לפניכם סרטון הסבר: