NVIDIA Fugatto
NVIDIA는 혁신적인 생성 AI 모델인 Fugatto(Foundational Generative Audio Transformer Opus 1)를 발표했습니다. 이 모델은 텍스트와 오디오를 입력으로 사용하여 음악, 음성, 사운드를 자유롭게 생성하거나 변환할 수 있는 최첨단 사운드 생성 도구입니다.
Fugatto란?
Fugatto는 NVIDIA의 생성 AI 연구팀이 개발한 다기능 사운드 생성 모델로, 사용자가 텍스트와 오디오 파일을 조합하여 원하는 사운드를 손쉽게 제어할 수 있습니다. 기존의 AI 모델들이 음악을 작곡하거나 음성을 수정하는 데 그쳤다면, Fugatto는 이보다 훨씬 더 다재다능한 기능을 제공합니다.
주요 기능 및 활용 사례
- 음악 생성 및 편집: 텍스트 프롬프트를 기반으로 음악 스니펫을 생성하거나 기존 곡에서 악기를 추가하거나 제거할 수 있습니다.
- 음성 변환: 음성의 억양이나 감정을 변경하여 다양한 목소리를 구현할 수 있습니다.
- 새로운 사운드 창출: 이전에 들어본 적 없는 독창적인 사운드를 생성할 수 있습니다.
- 다양한 산업 적용:
- ㆍ 음악 제작자: 신속한 아이디어 프로토타입 제작 및 스타일, 목소리, 악기 변경.
- ㆍ 광고 대행사: 다양한 지역이나 상황에 맞춘 음성 더빙.
- ㆍ 언어 학습 도구: 사용자가 선택한 음성으로 개인화된 학습 자료 제공.
- ㆍ 비디오 게임 개발자: 게임 내 사운드 자산을 실시간으로 수정하거나 생성.
기술적 세부사항
Fugatto는 2.5억 개의 파라미터를 사용하는 생성 트랜스포머 모델로, NVIDIA의 DGX 시스템과 32개의 NVIDIA H100 Tensor Core GPU를 활용해 훈련되었습니다. 이 모델은 다국적 팀의 협업으로 개발되었으며, 다중 억양과 다국어 지원 능력이 뛰어납니다.
- ComposableART 기법: 훈련 중 개별적으로 학습된 명령어를 결합하여 복합적인 지시를 처리할 수 있습니다.
- 시간적 보간: 소리의 변화 과정을 세밀하게 제어하여 자연스러운 사운드스케이프를 생성합니다.
- 새로운 데이터 생성: 기존 데이터에 의존하지 않고 새로운 사운드스케이프를 창출할 수 있습니다.
결론
음악 프로듀서 아이도 즈미슬라니(Ido Zmishlany)는 “Fugatto는 스튜디오에서 새로운 소리를 즉석에서 창조할 수 있게 해주어 매우 놀랍다”고 말했습니다. 또한, AI 연구원 로한 바들라니(Rohan Badlani)는 사용자들이 예술적이고 주관적인 방식으로 다양한 속성을 결합하여 창의적인 결과물을 만들 수 있다고 강조했습니다.
Fugatto는 오디오 합성 및 변환 분야에서 비지도 학습의 멀티태스킹을 통해 데이터와 모델 규모에서 발생하는 새로운 가능성을 열어갈 것으로 기대됩니다. NVIDIA는 Fugatto를 통해 음악과 사운드 기술의 새로운 장을 열어가며, 다양한 산업에서의 활용을 확대해 나갈 계획이라고 합니다.