본문 바로가기

AI 소식/오픈소스 AI 모델

구글이 만든 무료 음악 생성 AI ‘Magenta RT’를 소개합니다! | 오픈소스 AI | 실시간 음악 생성 | Colab 실습

안녕하세요,

최근 구글에서는 다양한 AI 생성 모델들이 공개되며 많은 주목을 받고 있습니다. 이번에 소개해드릴 내용은 그중에서도 실시간으로 음악을 생성할 수 있는 오픈소스 AI 모델, Magenta RT입니다. Magenta RT는 텍스트나 오디오 프롬프트만으로 음악을 생성할 수 있으며, 복잡한 환경 설정 없이 Google Colab에서 몇 번의 클릭만으로 쉽게 실행할 수 있어 AI 음악 생성이 처음이신 분들도 부담 없이 체험해보실 수 있습니다.

이 글에서는 Magenta RT의 개요부터 직접 음악 생성 방법까지 처음 접하는 분도 이해할 수 있도록 단계별로 자세히 알아보겠습니다.


반응형

Magenta RT (Realtime)란?

2025년 6월 20일, 구글은 실시간 음악 생성을 지원하는 AI 모델인 Magenta RT (Realtime)를 공식 오픈소스로 공개했습니다. 이 모델은 Google Brain의 창작 AI 프로젝트인 Magenta의 최신 확장 버전으로, 기존의 자동 작곡 기능을 넘어, 사용자의 입력에 실시간으로 반응하며 음악을 생성할 수 있는 고성능 딥러닝 시스템입니다.

 

 

Magenta RealTime: An Open-Weights Live Music Model

Magenta RealTimeToday, we’re happy to share a research preview of Magenta RealTime (Magenta RT), an open-weights live music model that allows you to interact...

magenta.withgoogle.com

 

Magenta RT는 단순한 음악 생성 도구가 아닌, 사람과 AI가 함께 협업하며 새로운 음악을 만들어가는 창작 파트너로 설계되었습니다. 텍스트나 오디오 프롬프트를 기반으로 다양한 음악 스타일을 표현할 수 있으며, 사용자의 의도에 따라 스타일을 조합하거나 점진적으로 전환하는 등 인터랙티브한 음악 생성 환경을 제공합니다.

 

 

주요 특징

  1. 실시간 음악 생성 지원 : Magenta RT는 단일 프롬프트로 전체 곡을 생성하는 기존 방식과 달리, 텍스트 또는 오디오 스타일 프롬프트를 실시간으로 반영하여, 사용자가 설정한 스타일대로 스트리밍 형태로 음악을 이어서 생성합니다.
    예를 들어, "synthwave"라는 프롬프트를 주면 해당 스타일에 맞는 음악이 실시간으로 생성되며, 다른 스타일(예: "disco funk")으로 전환하면 곧바로 음악 분위기가 바뀝니다.
  2. SpectroStream 기반 생성 구조 : SpectroStream이라는 아키텍처를 사용하여, 오디오를 스펙트로그램 단위로 연속 예측하고, 오디오 품질과 속도를 동시에 확보합니다. 이를 통해 고해상도 음악을 낮은 지연 시간으로 생성할 수 있습니다.
  3. TPU 및 GPU 환경 최적화
    • TPU v2-8에서 동작하도록 최적화
    • Colab 환경에서도 무료로 실시간 음악 생성 가능
    • GPU(A100 등)를 활용한 생성 지원
  4. 프롬프트 믹싱 및 보간 지원 : Magenta RT는 하나의 스타일뿐 아니라 여러 스타일을 조합하거나, 서로 다른 스타일 간의 보간(interpolation) 도 가능합니다.
    예를 들어, synthwave → disco funk로 부드럽게 변화하는 음악을 생성할 수 있으며, 사용자는 guidance, temperature, top-k 등의 샘플링 파라미터로 스타일 반영 강도를 조절할 수 있습니다.

 

 

라이선스

Magenta RT는 아파치 라이선스 2.0(Apache License 2.0)을 적용한 오픈소스 프로젝트입니다. 이 라이선스는 상업적 이용을 포함한 폭넓은 활용을 허용하며, 사용자는 소스코드를 수정하거나 자체 서비스에 통합하여 자유롭게 사용할 수 있습니다. 다만, 원저작자 표기 및 라이선스 고지를 포함하는 조건은 반드시 준수해야 합니다. 따라서 Magenta RT는 상업적 목적의 프로젝트에도 안정적으로 활용하실 수 있는 음악 생성 AI 모델입니다.

 

 

사용 방법 (구글 Colab 사용)

Magenta RT를 가장 쉽게 시작하는 방법은 Google Colab을 사용하는 것입니다. Colab은 구글에서 제공하는 클라우드 기반 Python 실행 환경으로, 별도의 프로그램 설치 없이 웹 브라우저만으로 코드를 실행할 수 있으며, TPU를 무료로 제공하기 때문에 Magenta RT와 같은 고성능 AI 모델도 빠르게 사용할 수 있습니다.

 

Magenta RT는 초보자도 쉽게 실습할 수 있도록 Colab 전용 데모 노트북을 제공합니다. 아래 Magenta RT Colab 실행 링크를 통해 실행하면, 모든 코드와 실행 환경이 사전에 구성된 Magenta RT 시작 화면으로 바로 이동할 수 있습니다.

 

Colab 노트북을 실행한 후에는 상단부터 순서대로 코드 셀을 실행하시면 됩니다. 각 단계별로 수행해야 할 작업은 아래 설명을 참고하시면 어렵지 않게 따라하실 수 있습니다.

Magenta RT Colab 실행 화면

 

[Step1 - 설정]

이 단계는 Magenta RT를 실행하기 위한 환경 설정 단계입니다. 깃허브에서 필요한 코드를 불러오고, 종속 라이브러리를 설치하는 과정으로, 약 5~10분 정도 소요됩니다.

먼저, 본격적인 실행에 앞서 Colab 런타임 유형을 TPU (v2-8)로 변경해주셔야 합니다. 상단 메뉴에서 [런타임] → [런타임 유형 변경]으로 이동한 후, 하드웨어 가속기를 TPU (v2-8)로 설정하시면 됩니다. 아래 이미지는 그 변경 과정을 보여줍니다.

또한, 실행 중간에 GEMINI_API_KEY 입력을 요청받는 셀이 등장할 수 있습니다. 이 API 키를 입력하면 Magenta RT의 오픈소스 모델 대신, Google의 최신 멀티모달 음악 생성 모델인 Lyria Realtime API를 사용할 수 있게 됩니다. 단, 해당 키는 선택 사항이므로 입력하지 않으셔도 기본 Magenta RT 모델로 실행이 가능합니다.

코드를 실행하려면 각 셀에 마우스를 올려두면, 셀의 왼쪽에 ▶️ 아이콘(실행 버튼)이 나타나며, 이를 클릭하면 해당 코드가 실행됩니다. 실행이 길어져서 잠깐 끊길 수 있는데, 다시 실행해주시면 됩니다.

Step1 : 설정 (런타임 변경)

 

[Step2 - 실시간 음악 생성]

이 단계에서는 Magenta RT를 사용하여 연속적으로 음악을 생성하게 됩니다. 사용자는 슬라이더와 프롬프트 입력란을 활용해 생성 음악의 스타일과 특성을 실시간으로 조절할 수 있습니다. 음악 스타일은 텍스트 프롬프트 또는 오디오 파일을 통해 지정할 수 있으며, 각 스타일별 가중치를 슬라이더로 조정하여 여러 스타일을 혼합할 수도 있습니다.

 

[sampling options]

샘플링 옵션은 생성 음악의 다양성과 품질에 영향을 줍니다.

  • temperature: 생성의 무작위성(창의성)을 조절합니다. 값이 낮을수록 안정적이고 예측 가능한 음악이, 높을수록 실험적이고 창의적인 음악이 생성됩니다. (예: 0.8 ~ 1.5 권장)
  • topk: 다음 음을 선택할 때 고려하는 후보의 개수입니다. 값이 낮으면 더 제한된 범위에서 선택되어 일관성 있는 결과가 나오고, 높으면 더 다양한 결과가 나올 수 있습니다.
  • guidance: 프롬프트(스타일)에 얼마나 충실하게 따를지를 결정합니다. 값이 높을수록 스타일에 더 강하게 반응하고, 낮을수록 자유로운 창작이 이루어집니다.
  • reset: 위 슬라이더 값들을 모두 초기화합니다.

[prompts]

음악 스타일은 텍스트 또는 오디오 기반으로 입력할 수 있습니다.

  • 텍스트 프롬프트 입력: 예시로 "synthwave", "flamenco guitar", "ambient piano" 등을 입력할 수 있습니다. 각 프롬프트 오른쪽의 슬라이더를 조정하여 해당 스타일이 전체 음악에 얼마나 영향을 미칠지 지정할 수 있습니다.
  • 오디오 파일 업로드: .wav, .mp3, .ogg 형식의 음원을 업로드하면, 앞 10초 구간을 분석하여 스타일로 사용할 수 있습니다. 이를 통해 사용자가 만든 음악 또는 참고 음원을 기반으로 새로운 음악을 생성할 수 있습니다.

 

위 설정을 완료하고 start 버튼을 누르면 설정한 스타일에 따라 실시간 음악 생성이 시작됩니다. 음악은 스트리밍 형태로 재생되며, 스타일 조합과 샘플링 설정을 변경하면 즉시 반영됩니다. stop 버튼을 누르면 음악 생성이 중지됩니다. 프롬프트와 슬라이더를 다시 조정하고 start를 누르면 새롭게 반영된 스타일로 다시 생성됩니다.

 

Step2 : 실시간 음악 생성

 

[Step3 - 음악 생성]

  • 음악 생성 : 이 단계에서는 Magenta RT를 사용하여 초 단위로 음악을 생성하게 됩니다. 가장 먼저, 원하는 스타일을 prompt에 입력하면 해당 스타일에 맞는 약 2초 분량의 음악 조각(chunk) 이 생성됩니다. 이 조각은 이후 단계에서 연장하거나 다른 스타일로 전환하는 기반이 됩니다.
  • 음악 연장 : 다음 단계에서는 음악을 길게 연장하는 코드를 실행합니다. 여기서 num_chunks 값에 따라 생성되는 음악 길이가 달라집니다. 예를 들어, num_chunks = 4로 설정하면 약 8초 분량의 음악이 생성됩니다. 이는 각 chunk가 약 2초씩 생성되기 때문입니다.
  • 스타일 전환 : 세 번째 코드에서는 styles 리스트를 활용하여 다양한 스타일이 순차적으로 반영된 음악을 생성합니다. 이때 각 스타일은 model.embed_style(...)을 통해 개별적으로 임베딩되며, 음악 생성 시 state 값을 계속 넘겨주어 음악 흐름이 자연스럽게 이어지도록 합니다.
  • 스타일 보간 :마지막 단계는 embed_a, embed_b를 통해 두 스타일 사이를 부드럽게 연결하는 음악을 생성하는 과정입니다. np.linspace(0, 1, N)을 활용해 생성된 weight 값에 따라, synthwave에서 disco funk로 점진적으로 전환되는 중간 스타일 임베딩을 생성합니다. 각 임베딩으로 음악을 생성하고 이어 붙이면, 자연스럽게 변화하는 하나의 음악 트랙이 만들어집니다.

Step3 : 음악 생성 (음악 생성, 연장, 스타일 전환, 보간 순서)

 

 

실행 결과

Magenta RT의 스타일 보간(style interpolation) 기능을 활용하여 약 30초 분량의 음악을 생성했습니다. 음악 생성을 완료하기 까지 약 15초 정도 소요되었으며, 스타일은 disco synthwavedisco funk 두 가지를 사용했습니다. 곡의 초반부는 disco synthwave 스타일로 시작해, 후반으로 갈수록 자연스럽게 disco funk 스타일로 전환되며 매끄럽게 이어지는 구성이 인상적이었습니다. 두 스타일의 중간 지점을 부드럽게 연결하며, AI가 만들어낸 스타일 전환의 완성도를 확인할 수 있는 예시입니다.

Magenta RT 생성 결과

 

이처럼 Magenta RT는 누구나 쉽게 접근할 수 있는 실시간 음악 생성 AI 도구로, Google Colab 환경만으로도 강력한 생성 모델을 체험해볼 수 있는 훌륭한 오픈소스 프로젝트입니다. 텍스트 프롬프트, 오디오 샘플, 슬라이더 조절 등을 통해 다양한 스타일의 음악을 실시간으로 생성하며, AI 음악 생성의 원리와 가능성을 직접 느껴볼 수 있다는 점에서 매우 유용합니다.

 

향후에는 Magenta RT를 기반으로 한 커스터마이징, 다른 멀티모달 모델과의 연동, 또는 Lyria API 활용 등 다양한 확장 가능성도 기대해볼 수 있습니다.


Colab을 통해 간편하게 시작해보시고, 여러분만의 창의적인 음악을 만들어보시기 바랍니다.

감사합니다. 😊

 

반응형