NVIDIA Fugatto: 세계에서 가장 유연한 사운드 생성 AI 모델

0

NVIDIA Fugatto

NVIDIA는 혁신적인 생성 AI 모델인 Fugatto(Foundational Generative Audio Transformer Opus 1)를 발표했습니다. 이 모델은 텍스트와 오디오를 입력으로 사용하여 음악, 음성, 사운드를 자유롭게 생성하거나 변환할 수 있는 최첨단 사운드 생성 도구입니다.

Fugatto란?

Fugatto는 NVIDIA의 생성 AI 연구팀이 개발한 다기능 사운드 생성 모델로, 사용자가 텍스트와 오디오 파일을 조합하여 원하는 사운드를 손쉽게 제어할 수 있습니다. 기존의 AI 모델들이 음악을 작곡하거나 음성을 수정하는 데 그쳤다면, Fugatto는 이보다 훨씬 더 다재다능한 기능을 제공합니다.

주요 기능 및 활용 사례

  • 음악 생성 및 편집: 텍스트 프롬프트를 기반으로 음악 스니펫을 생성하거나 기존 곡에서 악기를 추가하거나 제거할 수 있습니다.
  • 음성 변환: 음성의 억양이나 감정을 변경하여 다양한 목소리를 구현할 수 있습니다.
  • 새로운 사운드 창출: 이전에 들어본 적 없는 독창적인 사운드를 생성할 수 있습니다.
  • 다양한 산업 적용:
  • 음악 제작자: 신속한 아이디어 프로토타입 제작 및 스타일, 목소리, 악기 변경.
  • 광고 대행사: 다양한 지역이나 상황에 맞춘 음성 더빙.
  • 언어 학습 도구: 사용자가 선택한 음성으로 개인화된 학습 자료 제공.
  • 비디오 게임 개발자: 게임 내 사운드 자산을 실시간으로 수정하거나 생성.

기술적 세부사항

Fugatto는 2.5억 개의 파라미터를 사용하는 생성 트랜스포머 모델로, NVIDIA의 DGX 시스템과 32개의 NVIDIA H100 Tensor Core GPU를 활용해 훈련되었습니다. 이 모델은 다국적 팀의 협업으로 개발되었으며, 다중 억양과 다국어 지원 능력이 뛰어납니다.

  • ComposableART 기법: 훈련 중 개별적으로 학습된 명령어를 결합하여 복합적인 지시를 처리할 수 있습니다.
  • 시간적 보간: 소리의 변화 과정을 세밀하게 제어하여 자연스러운 사운드스케이프를 생성합니다.
  • 새로운 데이터 생성: 기존 데이터에 의존하지 않고 새로운 사운드스케이프를 창출할 수 있습니다.

결론

음악 프로듀서 아이도 즈미슬라니(Ido Zmishlany)는 “Fugatto는 스튜디오에서 새로운 소리를 즉석에서 창조할 수 있게 해주어 매우 놀랍다”고 말했습니다. 또한, AI 연구원 로한 바들라니(Rohan Badlani)는 사용자들이 예술적이고 주관적인 방식으로 다양한 속성을 결합하여 창의적인 결과물을 만들 수 있다고 강조했습니다.

Fugatto는 오디오 합성 및 변환 분야에서 비지도 학습의 멀티태스킹을 통해 데이터와 모델 규모에서 발생하는 새로운 가능성을 열어갈 것으로 기대됩니다. NVIDIA는 Fugatto를 통해 음악과 사운드 기술의 새로운 장을 열어가며, 다양한 산업에서의 활용을 확대해 나갈 계획이라고 합니다.

Fugatto 데모 영상 보기

답글 남기기