본문 바로가기

AI 소식/오픈소스 AI 모델

[오픈 소스 AI] Suno와 같이 노래를 생성 해주는 AI 모델, "YuE"를 소개합니다.

안녕하세요,

현재 음악 생성과 관련하여 알려진 AI 플랫폼은 Suno나 Udio 등이 있습니다. 이러한 상황에서 최근 음악 생성 AI 모델이 오픈 소스로 공개되었습니다. 이 모델은 "YuE"로 음악 생성은 물론, 보컬을 포함한 노래 또한 생성할 수 있습니다. 그러면 이 YuE 모델에 대해 알아보겠습니다.


반응형

YuE란

YuE는 주어진 가사를 기반으로 전체 곡을 생성하는 'lyrics2song' 작업을 수행하는 오픈소스 음악 생성 모델입니다. 이 모델은 홍콩과학기술대학교(HKUST)와 M-A-P(Multimodal Art Projection)이 공동으로 개발한 프로젝트입니다. YuE라는 이름은 음악과 행복을 뜻하는 중국어 단어 '乐'에서 유래했습니다.

 

출처: YuE 프로젝트 페이지

 

YuE 모델은 최대 5분 길이의 음악을 생성할 수 있습니다. 가사를 기반으로 보컬과 반주가 포함된 완전한 곡을 만들어내며, 음악적 구조를 유지하면서 자연스러운 멜로디와 조화를 형성하도록 설계되었습니다. 또한, 가사 조건을 반영해 일관된 음악 흐름을 유지하며, 매력적인 보컬 멜로디와 적절한 반주를 생성할 수 있습니다. 이 모델은 다양한 장르와 보컬 스타일을 표현할 수 있으며, 영어, 중국어, 일본어, 한국어를 포함한 여러 언어를 지원합니다.

 

YuE의 Hugging Face 페이지에서는 각 모델이 두 가지 버전으로 제공됩니다. "ICL"은 참조 오디오를 입력하여 모델이 특정 스타일을 따르게 하는 방식입니다. 이를 활용하면 높은 품질의 결과를 얻을 수 있지만, 생성 범위가 제한되어 다양성이 줄어드는 단점이 있습니다. 반면, "CoT"는 참조 오디오 없이도 모델이 논리적인 전개 과정을 거쳐 곡을 생성하는 방식입니다. 이 방법은 더 창의적이고 다양한 결과를 만들어낼 수 있어, 자유로운 음악 제작에 적합합니다.

즉, ICL은 특정 스타일을 반영하는 데 유리하며, CoT는 창의적이고 다양한 음악을 생성하는 데 강점이 있습니다. 창의적인 곡을 만들고 싶다면 CoT 버전을, 특정 스타일이나 참조 곡의 분위기를 최대한 반영하고 싶다면 ICL 버전을 선택하는 것이 좋습니다.

 

출처: YuE 허깅페이스

 

 

주요 특징

  • 전체 곡 생성: 최대 5분 길이의 보컬과 반주가 조화된 완전한 곡 생성
  • 다국어 지원: 영어, 중국어(만다린·광동어), 일본어, 한국어 등 다양한 언어 지원
  • 다양한 장르: 재즈, 팝, 록 등 여러 음악 스타일 생성 가능
  • 보컬과 반주의 조화: 듀얼 토큰 기법으로 보컬과 반주를 자연스럽게 동기화

 

 

라이선스

YuE 모델은 Apache License 2.0을 따르며, 상업적 사용, 수정, 배포, 파생 작업이 자유롭게 가능합니다. 단, 저작권 및 라이선스 고지 유지가 필수이며, 책임 및 보증이 제공되지 않음을 명시해야 합니다. 또한, 모델을 사용할 때 원 저작자의 특허 사용이 허가되지만, 라이선스 위반 시 특허 권한이 종료될 수 있습니다.

 

 

필요 하드웨어

YuE 모델을 원활하게 실행하려면 충분한 GPU VRAM이 필요합니다. 24GB 이하의 GPU(RTX 3090, 4090, A6000 등)에서는 최대 2개의 세션을 실행할 수 있으며, OOM(Out of Memory) 오류를 방지하기 위해 세션 수를 제한해야 합니다. 전체 곡을 생성하려면 최소 80GB VRAM이 필요하며, NVIDIA H800, A100(80GB 모델), 또는 다수의 RTX 4090을 Tensor Parallel 방식으로 활용해야 합니다.

YuE는 기본적으로 2개의 세션(1절 + 후렴)으로 실행되며, 사용자가 원하는 만큼 세션 개수를 조정할 수 있습니다. 실행 속도는 NVIDIA H800에서 30초 오디오 생성 시 약 150초, RTX 4090에서는 약 360초가 소요됩니다. 실제 실행 시 필요한 VRAM은 선택한 옵션에 따라 10GB에서 최대 48GB까지 확인되었습니다.

 


 

현재 YuE 모델은 GitHub와 Hugging Face에서 오픈 소스로 공개되어 있습니다. 하지만 아직 안정적으로 실행하기 어려운 상태로 보이며, 실제 활용을 위해서는 추가적인 업데이트가 필요할 것으로 보입니다. 설치 과정은 문제없이 완료되었지만, 음악 생성 과정에서 여러 오류가 발생해 정상적으로 작동하지 않았습니다. 다양한 방법으로 실행을 시도했으나, 계속해서 오류가 발생하며 음악 생성이 불가능했습니다.

 

 

 

에러 발생

 

최근에 공개된 모델인만큼 향후 개선된 버전이 공개될 것으로 예상됩니다. 추후 문제가 해결되어 정상적으로 실행이 가능해지면, 설치부터 실행까지의 과정과 함께 실제 음악 생성 결과를 상세히 공유하는 포스팅을 작성하겠습니다.

 

 

감사합니다. 😊

 

반응형