본문 바로가기

AI 소식/오픈소스 AI 모델

[오픈소스 AI] 감정 표현까지 되는 무료 음성 생성 AI, Chatterbox 설치부터 활용까지

안녕하세요,

최근 몇 년 사이, AI 기반 음성 합성 기술은 눈에 띄는 발전을 이루어 왔습니다. 단순히 텍스트를 읽는 수준을 넘어, 감정까지 담아내는 자연스러운 음성 생성이 가능해졌습니다. 특히 텍스트를 음성으로 변환하는 TTS(Text-to-Speech) 기술은 콘텐츠 제작, 음성 비서, 고객 응대 시스템 등 다양한 분야에서 폭넓게 활용되고 있습니다.

이러한 가운데, 놀랍게도 오픈소스로 공개된 고성능 TTS 모델이 등장했습니다. 바로 Chatterbox입니다. 음성 AI로 잘 알려진 ElevenLabs의 상용 모델에 견줄 만한 성능을 갖추고 있다고 합니다. 과연 어느 정도일지 이번 포스팅에서 함께 살펴보겠습니다.


반응형

Chatterbox란?

Chatterbox는 Resemble AI에서 개발한 오픈소스 TTS(Text-to-Speech) 모델입니다. 고품질의 음성 합성 기능을 제공하며, 감정 과장 조절 기능을 지원하는 오픈소스 TTS 모델로, 음성의 감정 강도를 자유롭게 조절할 수 있는 것이 특징입니다. 상용 TTS 솔루션인 ElevenLabs와의 벤치마크에서도 일관되게 우수한 평가를 받으며, 뛰어난 음성 품질을 입증했습니다. 또한 약 5초 분량의 참조 음성만으로 새로운 음성을 생성할 수 있는 제로샷 음성 클로닝 기능을 제공하며, 실시간 애플리케이션에 적합한 빠른 응답 속도를 자랑합니다. 생성된 오디오에는 PerTh 워터마커가 삽입되어 콘텐츠의 출처를 확인할 수 있습니다.

 

출처: Resemble AI 공식페이지 (클릭시 페이지 이동)

 

 

주요 특징

  • 감정 과장 조절 : Chatterbox는 감정의 강도를 조절할 수 있는 기능을 제공합니다. 이를 통해 음성의 감정을 단조로운 톤에서 극적으로 표현된 톤까지 조절할 수 있습니다. 이 기능은 음성의 표현력을 높여 다양한 콘텐츠에 생동감을 부여합니다.
  • 제로샷 음성 클로닝 : Chatterbox는 5초 정도의 참조 음성만으로 새로운 음성을 생성할 수 있는 제로샷 음성 클로닝 기능을 제공합니다. 이 기능은 별도의 훈련 없이도 다양한 음성을 생성할 수 있어, 사용자 맞춤형 음성 생성에 유용합니다.
  • 실시간 음성 합성 : Chatterbox는 약 200ms의 낮은 지연 시간으로 실시간 음성 합성이 가능합니다. 이러한 빠른 응답 속도는 음성 비서, 인터랙티브 미디어 등 실시간 애플리케이션에 적합합니다.
  • 워터마킹 기능 : Chatterbox는 생성된 오디오에 PerTh(Perceptual Threshold) 워터마커를 삽입하여 콘텐츠의 출처를 확인할 수 있습니다. 이 워터마커는 MP3 압축, 오디오 편집 등 일반적인 조작에도 견딜 수 있도록 설계되어, 생성된 콘텐츠의 신뢰성을 높입니다.
  • 고품질 데이터 학습 : Chatterbox는 50만 시간 이상의 정제된 고품질 데이터를 기반으로 학습되어, 안정적이고 자연스러운 음성 합성이 가능합니다.

 

 

라이선스 및 주의 사항

Chatterbox는 오픈소스 라이선스 중 가장 자유로운 형태인 MIT 라이선스를 따릅니다. 이 라이선스는 개인과 기업 누구나 자유롭게 사용할 수 있으며, 수정, 재배포, 상업적 활용까지 모두 허용됩니다. 또한, 소스코드를 공개할 의무도 없습니다.
단, 원 저작자의 저작권 고지 및 라이선스 사본을 반드시 포함해야 한다는 점은 유의해야 합니다.

⚠️ 사용 시 반드시 지켜야 할 사항

Chatterbox는 강력한 기능을 갖춘 AI 음성 합성 도구이지만, 다음과 같은 법적·윤리적 기준을 반드시 지켜야 합니다.

  • 신원 도용 금지
    타인의 동의 없이 실제 인물의 목소지를 모방하거나 유사한 음성을 생성하지 마세요.
  • 허위 정보 생성 금지
    가짜 뉴스, 조작된 발언 등 오해를 불러일으킬 수 있는 콘텐츠 생성에 사용해서는 안 됩니다.
  • 불법 및 악의적 사용 금지
    법률을 위반하거나, 타인에게 피해를 줄 수 있는 악의적 목적으로의 사용은 금지되어 있습니다.

AI 기술은 사회적 신뢰를 바탕으로 성장합니다. 책임감 있는 사용과 올바른 윤리 기준을 지키는 것이 우리 모두의 역할이며, 이를 통해 AI가 더욱 건강하고 지속 가능하게 발전할 수 있도록 함께 노력해야 합니다.

 

 

목차
1. 실행 환경
2. 다운로드 및 환경 설정
3. 음성 생성

1. 실행 환경

  • 운영체제 : Windows 11
  • Python : 3.10.0
  • torch : 2.6.0 + cu126
  • torchaudio : 2.6.0 + cu126
  • numpy : 1.26.0
  • GPU : NVIDIA GeForce RTX 4060 Ti

 

 

2. 다운로드 및 환경 설정

Chatterbox는 음성만으로 새로운 음성을 생성할 수 있는 기능을 제공하며, 실시간 애플리케이션에 적합한 빠른 응답 속도를 자랑합니다. 설치도 간단해 누구나 쉽게 시작할 수 있습니다.

 

1) 코드 다운로드

Chatterbox의 전체 소스 코드는 GitHub를 통해 공개되어 있으며, 아래 링크에서 다운로드할 수 있습니다. 

출처: Resemble AI 깃허브 페이지 (클릭시 페이지 이동)

 

2) 모델 다운로드 (선택사항)

Chatterbox 모델을 실행할 때, 깃허브의 gradio_tts_app.py 파일을 실행하면 필요한 모델이 자동으로 다운로드됩니다. 수동으로 다운로드를 원하시는 경우, 아래의 Resemble AI의 허깅페이스에서 직접 받을 수 있습니다. 단, 수동 설치 시 경로 설정과 코드 수정이 필요하므로, 자동 설치 방법을 사용하는 것을 권장합니다.

 

3) 가상 환경 설치 (선택사항)

프로젝트를 보다 깔끔하고 안정적으로 관리하기 위해 가상 환경을 생성하는 것을 권장합니다. 가상 환경을 사용하면 시스템 파이썬 환경과 독립적으로 패키지를 설치하고 관리할 수 있어, 프로젝트 간 패키지 충돌을 방지할 수 있습니다.

 

아래 명령어를 통해 가상 환경을 생성할 수 있습니다.

# Windows PowerShell
cd \path\to\Chatterbox        # Chatterbox 폴더로 이동 (사용자 경로에 맞게 수정)
python -m venv .venv          # 가상 환경 생성
.\.venv\Scripts\Activate.ps1  # 가상 환경 실행

 

가상 환경이 정상적으로 활성화되면 명령어 입력창 왼쪽에 (.venv) 표시가 나타납니다. 이 표시가 보이면 가상 환경이 성공적으로 설정된 것입니다.

 

4) 필수 패키지 설치

아래 명령어를 통해 필수 패키지들을 설치합니다.

# Windows PowerShell
pip install chatterbox-tts  # 필수 패키지 설치
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu126  # CUDA 버전으로 설치

 

 

3. 음성 생성

환경 설정을 모두 완료하셨다면, 이제 실제로 음성을 생성해볼 수 있습니다. 이번 포스팅에서는 텍스트를 음성으로 변환하는 방식(Text-to-Speech) 을 사용해 예제 파일을 만들어보겠습니다. 이를 위해 gradio_tts_app.py 파일을 실행해줍니다.

# Windows PowerShell
python gradio_tts_app.py  # 텍스트 → 음성 변환
python gradio_vc_app.py   # 음성 → 음성 변환

 

모델을 실행했을 때 약 6GB의 VRAM이 사용되었으며, 음성 생성까지 약 30초 정도 소요되었습니다. 생성 속도는 매우 빠른 편이었고, 말투와 억양 역시 실제와 매우 유사하게 구현되었습니다. 특히 이 모델은 Exaggeration 옵션을 통해 감정을 과장하여 표현하는 기능을 지원하는데, 이를 활용하면 더욱 풍부한 감정 표현이 가능합니다.

아래는 직접 생성한 예시 결과입니다.

  • 첫 번째 영상은 기본 설정으로 생성된 결과이며,
  • 두 번째 영상은 감정을 과장하여 생성한 버전입니다.

 

[사용 데이터]

  • 음성 참고 대상: 미국 배우 덴젤 워싱턴
  • 텍스트 프롬프트:
    "Hello, and welcome to Macus's blog. This voice was generated using AI technology."

 

[생성 결과]

첫 번째 생성 결과
두 번째 생성 결과

 


 

Chatterbox는 오픈소스임에도 불구하고 상용 TTS 솔루션에 견줄 만큼 뛰어난 성능을 보여주는 모델입니다. 감정 표현, 제로샷 음성 클로닝, 실시간 생성 속도 등 다양한 기능을 갖추고 있어, 개인 프로젝트는 물론 상업적 서비스에도 충분히 활용할 수 있습니다.

무엇보다 MIT 라이선스를 기반으로 누구나 자유롭게 사용할 수 있다는 점은 개발자와 크리에이터에게 매우 큰 장점입니다. 다만, 그만큼 법적·윤리적 책임도 함께 따른다는 점을 명심해야 합니다.

 

AI 음성 기술이 점점 더 현실을 닮아가는 지금, Chatterbox는 누구나 쉽게 시작할 수 있는 강력한 도구입니다. 무료로 TTS 생성 기술을 직접 체험해보고 싶으신 분들께도 적극 추천드립니다.

 


감사합니다. 😊

 

반응형