안녕하세요,
최근 AI 기술의 발전으로 누구나 손쉽게 음악을 만들 수 있는 시대가 되었습니다. AI를 활용한 음원 생성 방법으로는 Suno, Udio와 같은 플랫폼을 이용하는 것이 가장 간편하지만, 오픈소스 모델인 Ace-step을 활용하는 방법도 있습니다.
Ace-step은 오픈소스로 공개되었음에도 뛰어난 음원 생성 능력을 갖추고 있어, 비용 부담 없이 고품질 음악을 제작할 수 있습니다. 이번 글에서는 Ace-step의 주요 특징과 장점, 그리고 로컬 환경에 설치해 사용하는 방법을 자세히 소개해 드리겠습니다.
ACE-Step 이란
Ace-step은 기존 오디오에서 텍스트 설명과 가사를 입력하면 새로운 스타일의 고품질 음악을 빠르게 생성할 수 있는 최신 오픈소스 기반 음악 생성 AI 모델입니다. 중국의 ACE Studio와 StepFun이 공동 개발했으며, 여러 첨단 기술을 결합해 4분 분량의 음악을 A100 GPU 기준 약 20초 만에 만들어냅니다. 이는 기존 LLM 기반 모델에 비해 약 15배 빠른 속도입니다. 또한 다양한 음악 스타일과 다국어 가사를 지원하여, 사용자가 원하는 분위기의 창의적인 음원을 손쉽게 제작할 수 있습니다.
- ACE-Step 프로젝트 페이지 : https://ace-step.github.io/
주요 특징
- 고품질 오디오 리페인팅: 기존 오디오를 기반으로 자연스러운 편집과 재생성을 지원합니다.
- 다국어 가사 입력 지원: 중국어, 일본어, 한국어 등 여러 언어를 영어 문자로 변환해 입력할 수 있습니다.
- 유연한 노이즈 조절: KSampler의 denoise 파라미터를 통해 원본 오디오와의 유사성을 세밀하게 조절할 수 있습니다.
- 다양한 음악 스타일 적용: 사용자가 원하는 스타일 태그를 입력해 다양한 장르와 분위기의 음악 제작 가능.
- ComfyUI 호환: ComfyUI 환경에서 손쉽게 모델을 다운로드하고 사용할 수 있습니다.
라이선스
Ace-step은 Apache 2.0 라이선스를 따릅니다. 이 라이선스는 사용, 복제, 수정, 배포를 자유롭게 허용하며, 상업적 이용도 가능합니다. 단, 소스 코드 변경 시 변경 사항을 명시해야 하고, 원저작자에 대한 저작권 표시와 라이선스 고지를 포함해야 합니다. 또한, 라이선스에 명시된 특허권 보장 조항도 적용됩니다. 따라서 개발과 상용 프로젝트에 모두 안전하게 사용할 수 있는 자유로운 오픈소스 라이선스입니다.
사전 준비 사항
이 포스팅에서는 ComfyUI에서 Ace-step을 활용하는 방법을 다룹니다. 본문을 읽기 전에 아래 항목들을 미리 설치해 주세요. 이번 포스팅에서는 Stability Matrix&ComfyUI를 사용하여 진행했지만, 로컬에 직접 설치하여 실행해도 무방합니다.
[Stabiliy Matrix&ComfyUI 설치하기]
- ComfyUI 설치: [Marcus' Story] - [ComfyUI] 초보자도 쉽게 따라하는 Stability Matrix 활용하기
- ComfyUI-Manager 설치: [Marcus' Story] - [ComfyUI] Stability Matrix에 ComfyUI-Manager 설치하기
[로컬에 직접 ComfyUI 설치하기]
- ComfyUI 설치: [Marcus' Story] - [ComfyUI] [로컬 환경] ComfyUI 로컬 환경에 설치 및 실행 방법
- ComfyUI-Manager 설치: [Marcus' Story] - [ComfyUI] [로컬 환경] ComfyUI 관리 도구, ComfyUI-Manager 설치하기
목차
1. 실행 환경
2. ComfyUI 사용 노드
3. 다운로드 및 위치 설정
4. 오디오 생성
1. 실행 환경
- 운영체제 : Windows 11
- ComfyUI : 0.3.34
- ComfyUI-Manager : V3.30
- Python : 3.10.11
- torch : 2.7.0 + cu128
- GPU : NVIDIA GeForce RTX 4060 Ti
2. ComfyUI 사용 노드
이번 포스팅에서는 별도의 커스텀 노드 다운로드 없이 진행됩니다. 다만, ComfyUI는 최신 버전으로 업데이트해야 합니다. 최신 버전으로 업데이트할 경우 모델과의 호환성이 극대화되고, 성능 향상 및 버그 수정으로 최적의 결과를 얻을 수 있습니다.
- Stability Matrix를 사용하는 경우 → Stability Matrix 화면에서 "Update" 버튼을 클릭하여 간편하게 업데이트할 수 있습니다.
- ComfyUI를 로컬에 설치한 경우 → ComfyUI-Manager에서 "Update ComfyUI" 버튼을 눌러 최신 버전으로 업데이트하세요.
3. 다운로드 및 위치 설정
1) Workflow 및 오디오 파일 다운로드
Ace-step는 text to audio, audio to audio 방식을 모두 지원합니다. audio to audio 방식을 활용하여 오디오를 생성하기 위해서는 ComfyUI가 작동할 Workflow와 예제 오디오 파일이 필요합니다. 이 데이터는 아래 ComfyUI 공식페이지에서 다운로드할 수 있습니다.
- Ace-step Workflow (text to audio) : https://docs.comfy.org/tutorials/audio/ace-step/ace-step-v1#1-download-workflow-and-related-models
- Ace-step Workflow (audio to audio) 및 오디오 파일 : https://docs.comfy.org/tutorials/audio/ace-step/ace-step-v1#1-download-workflow-file
2) 모델 다운로드 및 위치 설정
ComfyUI가 최신 버전일 경우, ComfyUI를 실행한 후 Ace-step Workflow를 실행하면 필요한 모델을 설치할지 묻는 알림창이 나타납니다. 이 기능을 통해 모델을 자동으로 다운로드하고 적절한 위치에 저장할 수 있습니다.
만약 직접 수동으로 설치하고자 한다면, 아래 안내에 따라 진행해 주세요.
[수동 설치 방법]
1) 아래 허깅페이스 링크에서 Ace-step 모델을 다운로드합니다.
2) 다운로드한 모델 파일을 다음 경로로 이동시켜 주세요.
- 경로 : StabilityMatrix → Data → Packages → ComfyUI → models → checkpoints
만약 StabilityMatrix를 사용하지 않고 로컬에 ComfyUI를 직접 설치한 경우에는, [StabilityMatrix → Data → Packages] 경로는 생략하고, 바로 ComfyUI 폴더 내의 models → checkpoints 디렉토리로 이동하시면 됩니다.
4. 오디오 생성
이제 앞서 설치한 Ace-step 모델을 활용하여 직접 오디오를 생성해보겠습니다. 먼저 ComfyUI를 실행한 뒤, Ace-step workflow를 실행합니다. 위에서 다운로드한 Ace-step workflow를 ComfyUI 실행 화면으로 드래그하여 실행하면 됩니다.
(텍스트 → 오디오 생성) : TextEncodeAceStepAudio 노드에서는 생성하고자 하는 음악 스타일과 가사를 설정할 수 있습니다. 노드 상단 입력란에는 원하는 음악 스타일을 입력하고, 하단 입력란에는 노래할 가사를 입력하세요. 입력 가능한 언어는 일본어와 영어만 지원하며, 다른 언어를 입력할 경우에는 노래가 생성되긴 하지만 이해하기 어려운 언어로 노래가 만들어질 수 있습니다.
(오디오 → 오디오 생성) : 기본 음원 파일을 입력하면, 해당 음원과 비슷한 분위기에 다른 가사를 입히거나 완전히 새로운 스타일의 음악을 만들 수 있습니다. 이 워크플로우는 (텍스트 → 오디오 생성) 과정에 음원 파일을 입력하는 노드가 추가된 형태입니다. 가사와 노래 스타일 설정은 TextEncodeAceStepAudio 노드에서 동일하게 진행하며, KSampler 노드에서 원본 음성과의 유사성을 조절할 수 있습니다. denoise 값을 조절해 원본 음원과의 유사도를 제어할 수 있는데, 값이 0에 가까울수록 원본과 거의 동일하며, 1에 가까울수록 완전히 다른 스타일로 생성됩니다.
[오디오 생성 결과]
(텍스트 → 오디오) 생성에서는 10GB VRAM을 사용하여 약 40초 만에 2분 길이의 고품질 오디오를 생성할 수 있었습니다. 이때 사용한 프롬프트는 해당 workflow에서 설정된 기본값을 사용했습니다.
(오디오 → 오디오) 생성에서는 8.8GB VRAM을 사용하여 약 10초 만에 30초 길이의 고품질 오디오를 생성할 수 있었습니다. 사용한 프롬프트는 다음과 같으며, 한글 부분은 참고용으로 실제 입력 시에는 제외해야 합니다.
- [스타일] : Calm, soft female vocals, ballad, emotional, piano, acoustic guitar, lyrical, bittersweet beauty
- [가사] : [verse]
[ko]nan neol saranghae (난 널 사랑해)
[ko]i ttae gieok soge (이 때 기억 속에)
[ko]hangukseo mannan nal (한국서 만난 날)
[verse]
[ko]han beon deo malhae (한 번 더 말해)
[ko]nae gamjeong (내 감정)
[ko]neowa hamkke hal geoya (너와 함께 할 거야)
[ko]yeongwonhi yeongwonhi (영원히 영원히)
Ace-step 모델은 여러 언어를 지원하며, 한국어도 포함되어 있습니다. 다만 한글로 직접 가사 프롬프트를 작성하면 제대로 인식되지 않아, 한글 발음을 영문 알파벳으로 표기해야 어느 정도 인식이 가능했습니다. 이 방식으로 생성된 음원은 꽤 높은 퀄리티를 보였지만, 한국어 지원은 아직 완벽하지 않습니다.
영문으로 한글 발음을 표기하는 과정에서 정확한 매칭이 어렵다 보니, 생성된 음원에선 가사가 불명확하거나 일부 구절이 생략되는 경우도 있었습니다. 그럼에도 불구하고 오픈소스 모델로서 이 정도 수준의 자연스러운 노래와 음질을 구현한 점은 매우 인상적이며, 앞으로 한국어 지원이 개선되면 더욱 완성도 높은 음악 제작이 기대됩니다.
Ace-step 모델은 유료 서비스인 Suno나 Udio처럼 음악을 생성하는 AI 모델입니다. 무료로 제공되지만 예상보다 뛰어난 음원 퀄리티를 자랑해 많은 사용자가 부담 없이 활용할 수 있다는 점이 큰 장점입니다. 낮은 컴퓨팅 환경에서도 원활하게 작동하며, 오픈소스 특성 덕분에 누구나 자유롭게 사용하고 개선에 참여할 수 있어 앞으로의 발전이 더욱 기대됩니다.
더욱 향상된 모델이 공개되면 빠르게 포스팅하여 소개해 드리겠습니다.
감사합니다.😊
'ComfyUI > 오디오 생성' 카테고리의 다른 글
[ComfyUI x 오디오 생성 AI] 영상을 보고 알맞은 소리를 생성해주는 AI, MMAudio를 소개합니다. (0) | 2025.03.08 |
---|