Fugatto генерує і редагує музику, мову або звуки на основі текстових описів. Про розробку повідомляється в блозі Nvidea.
Nvidia представила модель штучного інтелекту Fugatto, яка на основі текстових підказок генерує і перетворює будь-яку комбінацію музики, голосів і звуків. Модель може редагувати готові аудіофайли і, за словами розробників, створювати немислимі поєднання: від нявкаючого саксофона до суміші грози з хуртовиною.
Приклади генерації випадкових звукових ефектів на основі опису
Для створення Fugatto дослідники зібрали великий набір даних, що включає мільйони аудіосемплів. Вони розробили спеціальні інструкції, які “значно розширили спектр завдань моделі, підвищили точність її роботи і дали змогу виконувати нові функції без необхідності в додаткових даних”.
Головна особливість Fugatto – здатність не просто імітувати наявні звуки, а й створювати принципово нові композиції. Наприклад, модель може змусити трубу гавкати, саксофон нявкати, а також генерувати унікальні звукові ландшафти, яких немає в реальному світі. При цьому модель може генерувати звуки і музику, які не “чула” під час навчання.
Модель має не тільки розважальне застосування. Музичні продюсери можуть використовувати Fugatto для прототипування або редагування композицій, додавання ефектів або експериментів із новими жанрами та стилями. Рекламні агентства зможуть адаптувати кампанії під різні ринки, додаючи унікальні акценти та ефекти.
Nvidia поки не уточнює, чи стане технологія і коли доступна для відкритого використання. Також невідомо, які обмеження можуть бути пов’язані з її роботою.
#Музичний #ШІ #Nvidia #генерує #звуки #яких #ніхто #не #чув #відео
Source link