본문 바로가기

AI 소식/오픈소스 AI 모델

[음성 생성 AI] 마이크로소프트 VibeVoice TTS 모델 소개 및 사용 가이드 (ComfyUI 활용)

안녕하세요,

최근 인공지능 기술은 텍스트를 넘어 음성 생성 영역에서도 빠르게 발전하고 있습니다. 특히 마이크로소프트에서 공개한 VibeVoice는 텍스트 입력만으로도 자연스럽고 풍부한 음성을 만들어낼 수 있는 최신 TTS(Text-to-Speech) 모델입니다. 이 모델은 영어뿐만 아니라 한국어에서도 높은 품질을 보여주며, 연구와 창작, 실험적 활용 등 다양한 분야에서 가능성을 입증하고 있습니다.

이번 글에서는 VibeVoice 모델의 주요 특징을 살펴보고, ComfyUI 환경에서 직접 활용할 수 있는 방법을 단계별로 소개합니다. 설치 과정부터 음성 스타일 참조, 실제 생성 예시까지 자세히 안내하여, 누구나 손쉽게 VibeVoice를 체험할 수 있도록 구성하였습니다.


반응형

VibeVoice란

VibeVoiceMicrosoft에서 개발한 오픈소스 텍스트-투-스피치(Text-to-Speech, TTS) 프레임워크입니다. 이 모델은 단순히 짧은 문장을 음성으로 바꾸는 수준을 넘어, 텍스트를 기반으로 최대 90분에 달하는 표현력 있는 장기 대화형 음성을 생성할 수 있도록 설계되었습니다. 예를 들어, 여러 화자가 참여하는 팟캐스트 형식의 오디오를 자연스럽게 만들어내는 데 최적화되어 있습니다. 또한 기존 TTS 시스템에서 흔히 지적되던 한계인 확장성 부족, 화자의 일관성 저하, 부자연스러운 화자 전환 문제를 개선하여, 더 매끄럽고 실제와 가까운 음성을 생성할 수 있도록 한 것이 가장 큰 특징입니다.

 

 

VibeVoice

VibeVoice: A Frontier Open-Source Text-to-Speech Model 📄 Report · Code · 🤗 Hugging Face VibeVoice is a novel framework designed for generating expressive, long-form, multi-speaker conversational audio, such as podcasts, from text. It addresses sign

microsoft.github.io

 

[모델 정보 요약]

항목 VibeVoice-1.5B VibeVoice-Large (7B)
파라미터  1.5B 7B
문맥 길이 64K 32K
생성 길이 약 90분 약 45분
특징 빠른 추론 속도단일 화자 환경에서 우수한 성능 상대적으로 속도는 느리지만 음성 품질이 높고,
다수 화자 대화에 적합

 

 

주요 특징

VibeVoice가 지닌 핵심적인 특징들은 다음과 같습니다.

  1. 장시간 음성 처리 및 다중 화자 지원 : 최대 90분 길이의 연속적인 대화를 최대 4명의 서로 다른 화자로 자연스럽게 생성할 수 있습니다. 이는 기존 모델들이 대부분 1–2명 화자에만 대응했던 한계를 크게 뛰어넘은 성능입니다.
  2. 초저 프레임율의 연속 음성 토크나이저 : Acoustic 및 Semantic 토크나이저는 7.5 Hz의 매우 낮은 프레임율에서 동작하며, 음성 품질 보존과 긴 음성 시퀀스 처리 효율을 동시에 달성합니다. 특히, arXiv 기술 보고서에서는 이를 기존 인기 모델(Encodec) 대비 데이터 압축 성능 80배 향상으로 표현하고 있습니다.
  3. next-token diffusion 구조 기반 생성 : 대형 언어 모델(LLM, 예: Qwen2.5-1.5B 등)이 문맥을 이해하고, diffusion head가 세밀한 음향 정보를 생성하는 구조입니다. 학습된 문맥 길이(max context)는 최대 64k 토큰에 이릅니다.
  4. 다양한 표현력과 다국어 기능 : 감정 표현, 즉흥적 노래, 배경음악 삽입, 영어–중국어 간의 크로스-링구얼(cl-lingual) 전환 등 다양한 스타일 표현이 가능합니다. 예를 들어, 감정 표현이 포함된 즉흥 대화, 배경음악과 함께하는 팟캐스트, Mandarin–English 또는 English–Mandarin 전환 등도 지원합니다.
  5. 다양한 모델 크기 및 사용 옵션 : 현재 공개된 모델로는, 1.5B 파라미터 (64k 컨텍스트, 90분 생성 가능)와 7B 파라미터 (32k 컨텍스트, 45분 생성 가능) 버전이 있으며, 실시간 처리를 위한 0.5B 경량 모델도 개발 중입니다. 로컬 GPU 환경에서는 VRAM 요구량이 7GB부터 최대 18GB 수준입니다.
  6. 다양한 활용 가능성 : 팟캐스트 제작 외에도 접근성 도구, AI 어시스턴트 음성 합성, 향후 음성 클로닝 등의 활용이 기대됩니다.

 

 

성능

VibeVoice는 다른 최신 TTS 모델들과 비교했을 때 월등히 긴 발화 길이를 처리할 수 있는 성능을 보여주고 있습니다. 기존 VALL-E, NaturalSpeech-2, CosyVoice, SpeechSSM 등과 비교하여 출력 음성 길이가 수천 초 단위로 확장되어 있으며, 2025년 시점에서 가장 높은 위치에 자리하고 있습니다.

주관적 평가에서도 VibeVoice-7B는 선호도 3.75점, 사실성 3.71점, 풍부함 3.81점으로 타 모델 대비 안정적인 우위를 기록하였습니다. 경량 모델인 VibeVoice-1.5B 역시 Gemini-2.5-Pro-Preview-TTS와 Eleven-V3(Alpha)보다 높은 점수를 보이며 품질을 입증하였습니다.

종합적으로, VibeVoice는 긴 맥락 처리 능력과 주관적 음질 평가 모두에서 가장 앞선 결과를 보여주는 TTS 모델입니다.

출처: VibeVoice 허깅페이스 (클릭시 페이지 이동)

 

 

⚠️ 주의사항

VibeVoice는 음성 스타일을 참조하여 특정 화자의 목소리와 유사한 결과를 생성할 수 있습니다. 그러나 이 기능을 불법적인 목적이나 타인의 권리를 침해하는 방식으로 활용해서는 안 됩니다. 음성 합성 기술은 창작과 실험, 연구 목적으로는 유익하지만, 오용될 경우 심각한 사회적 문제를 초래할 수 있습니다.

따라서 본 기술을 사용할 때에는 반드시 책임감 있는 AI 활용 원칙을 준수하시길 권장합니다. AI 음성 생성은 창의적인 도구이자 연구 자산으로서, 올바른 방향으로 사용될 때 가장 큰 가치를 발휘합니다.

 

 

사전준비사항

이 포스팅에서는 ComfyUI와 VibeVoice 모델을 사용하여 음성 생성 방법을 소개합니다. 본문을 따라 하기 전, ComfyUI를 미리 설치해 주시기 바랍니다. 이번 글에서는 VibeVoice 모델을 중심으로 음성 생성 과정을 단계별로 안내드립니다.

 

[Stabiliy Matrix&ComfyUI 설치하기] (포스팅에서 사용한 방식)

[로컬에 직접 ComfyUI 설치하기]

 


음성 생성하기

음성 생성을 위해 로컬 환경에서 ComfyUI와 VibeVoice 모델을 활용하는 방법을 살펴보겠습니다. 현재 VibeVoice는 1.5B 버전과 Large(7B) 버전이 공개되어 있으며, 여기에 더해 양자화된 커스텀 모델도 오픈소스로 제공되고 있습니다.

이번 과정에서는 1.5B 모델양자화 모델을 중심으로 테스트를 진행하겠습니다.

 

1. 실행 환경

  • 운영체제 : Windows 11
  • ComfyUI : 0.3.57
  • ComfyUI-Manager : V3.30
  • torch : 2.8.0 + cu128
  • GPU : NVIDIA GeForce RTX 4060 Ti (vram : 16GB)

 

2. ComfyUI 사용 노드

이번 포스팅에서는 "VibeVoice ComfyUI" 커스텀 노드를 활용합니다. 이 노드는 단순한 텍스트 음성 변환 기능을 넘어, 다양한 매개변수를 조정하고 실험할 수 있어 음성의 품질과 스타일을 세밀하게 제어할 수 있습니다. 사용자는 원하는 문장을 입력한 뒤 모델 종류, 샘플링 옵션, 생성 길이 등을 직접 설정하여 자신만의 맞춤형 음성을 제작할 수 있습니다.

  • 커스텀 노드 설치 : ComfyUI Manager → ComfyUI Nodes Manager → VibeVoice ComfyUI 검색 후 설치

커스텀 노드 설치

 

3. Workflow 실행

VibeVoice ComfyUI 커스텀 노드를 설치하면 해당 폴더 경로에 Workflow 파일이 함께 제공됩니다. 아래 경로로 이동하여 Workflow 파일을 실행하시면 됩니다.

  • StabilityMatrix를 통해 ComfyUI를 사용하는 경우
파일 경로 : StabilityMatrix → Data → Packages → ComfyUI → custom_nodes → VibeVoice-ComfyUI → examples
  • 일반 ComfyUI를 사용하는 경우
파일 경로 : ComfyUI → custom_nodes → VibeVoice-ComfyUI → examples

 

Workflow 파일 경로

 

4. 음성 생성

모델 파일은 처음 실행 시 자동으로 다운로드됩니다. 현재는 VibeVoice-1.5B, VibeVoice-Large, VibeVoice-Large-Quant-4Bit 세 가지 모델을 지원합니다. LoadAudio 노드를 활용하면 입력한 음성과 스타일을 유사하게 만들 수 있으며, 해당 노드를 비활성화하면 기본 제공되는 목소리로 음성이 생성됩니다.

 

아래 프롬프트를 사용하여 음성을 생성했습니다.

  • 입력 프롬프트 : This is a voice generated with VibeVoice. It was created as part of a short test. You are now hearing the test audio output.

[VibeVoice-1.5B 생성 결과]

 

  • 음성 참조 없이 생성: 매번 다른 목소리로 음성이 생성되었으며, VRAM은 약 7GB 사용, 생성 시간은 10~15초가 소요되었습니다.
  • 음성을 참조하여 생성: 특정 화자의 음성 스타일을 반영했을 때 VRAM 사용량은 동일했으나, 생성 시간은 약 30초가 걸렸습니다. 이때 테스트에서는 로버트 다우니 주니어의 음성 스타일을 참고하였습니다.
VibeVoice-1.5B - 음성 참조 X
VibeVoice-1.5B - 음성 참조 O

 

[VibeVoice-Large-Quant-4Bit 생성 결과]

VibeVoice는 공식적으로 한국어 지원을 명시하고 있지는 않지만, 실제 테스트에서는 한국어 음성도 큰 어색함 없이 자연스럽게 생성할 수 있었습니다. 이번 실험에서는 VibeVoice-Large-Quant-4Bit 모델을 사용하여 두 화자가 대화하는 형식의 음성을 생성하였으며, 화자의 스타일은 하하 님과 지석진 님의 음성을 참고했습니다.

이때 VRAM 사용량은 약 8.1GB, 생성 시간은 약 2분 30초 정도 소요되었습니다.

VibeVoice-Large-Quant-4Bit

 


 

VibeVoice 모델은 비교적 적은 컴퓨팅 자원만으로도 충분히 높은 품질의 음성을 생성할 수 있는 강력한 도구입니다. 영어뿐만 아니라 한국어 음성도 자연스럽고 품질 높게 생성할 수 있었으며, 이를 통해 연구와 창작은 물론 다양한 실험적 활용에서 많은 가능성을 보여주고 있습니다.

 

그러나 이와 같은 기술은 어디까지나 긍정적이고 건전한 목적으로 사용되어야 하며, 불법적이거나 타인의 권리를 침해하는 방식으로 활용되어서는 안 됩니다. 책임감 있는 AI 활용을 통해 VibeVoice가 가진 잠재력을 올바른 방향에서 최대한 발휘할 수 있기를 바랍니다.

 

감사합니다. 😊

 

반응형