본문 바로가기

AI 소식/오픈소스 AI 모델

[오픈 소스 AI] [로컬 환경] 음성을 복제하여 텍스트를 음성으로 바꿔주는 AI, SWivid TTS(Text to Speech)를 소개합니다.

안녕하세요,

최근 텍스트를 음성으로 변환하는 기술이 발전하면서, 더욱 자연스럽고 감정 표현이 풍부한 음성을 생성하는 TTS(Text-to-Speech) 모델들이 주목받고 있습니다. 이러한 기술 중 하나인 SWivid TTS는 사용자에게 마치 실제 사람처럼 들리는 음성을 제공하기 위해 'Flow Matching' 기법을 사용합니다. 이 글에서는 SWivid TTS의 주요 기능과 설치 방법, 그리고 실행 과정에 대해 알아보겠습니다.

 


반응형

SWivid TTS AI

SWivid TTS는 텍스트를 음성으로 변환해주는 모델로, 자연스럽고 감정을 잘 표현하는 음성을 생성하기 위해 'Flow Matching' 기법을 사용합니다. 이 기법은 음성의 흐름을 자연스럽게 이어지도록 설계되어, 마치 사람이 이야기하는 것처럼 들리게 합니다. 특히, 감정 표현을 잘 반영한 음성을 생성하여, 사용자에게 더 몰입감 있는 경험을 제공합니다. 사용자는 이 모델을 이용해 직접 음성을 생성할 수 있을 뿐만 아니라, 모델을 재학습(파인튜닝)하여 자신만의 스타일로 음성을 맞춤 설정할 수도 있습니다.

 

 

GitHub - SWivid/F5-TTS: Official code for "F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching"

Official code for "F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching" - SWivid/F5-TTS

github.com

 

SWivid TTS는 Gradio 인터페이스를 통해 쉽게 사용할 수 있습니다. 이를 통해 GUI 환경에서 텍스트 입력을 받아 음성을 생성하고, 실시간으로 확인할 수 있습니다. '청크 추론(Chunk Inference)' 기능은 긴 텍스트도 효율적으로 처리할 수 있도록 도와주며, '다양한 음성 유형 생성(Multiple Speech-Type Generation)' 기능을 통해 다양한 스타일의 음성을 생성할 수 있습니다. 또한, 팟캐스트 생성 기능을 활용해 오디오 콘텐츠를 제작할 수 있으며, 음성 편집 기능을 통해 생성된 음성을 수정하는 것도 가능합니다. 이 모든 기능은 직관적인 웹 인터페이스를 통해 제공되기 때문에, 음성 합성 작업을 보다 손쉽게 수행할 수 있습니다.

 

 

SWivid TTS 라이선스

SWivid TTS는 MIT 라이선스를 사용하고 있어 상업적 사용이 가능합니다. MIT 라이선스는 누구나 소프트웨어를 자유롭게 사용하고, 수정하고, 배포할 수 있도록 허가해주는 오픈 라이선스입니다. 따라서 SWivid TTS를 이용해 자신만의 음성 애플리케이션을 개발하거나 상업적으로 활용하는 데 제약이 없습니다. 단, 소프트웨어를 사용할 때는 저작권 공지와 라이선스 내용을 모든 복사본에 포함해야 하며, 사용 과정에서 발생하는 모든 책임은 사용자에게 있음을 명심해야 합니다.

 

 

목차
1. 실행 환경
2. SWivid TTS 패키지 설치
3. SWivid TTS 실행

 


728x90

1. 실행 환경

  • 운영체제 : Windows 11
  • Python : 3.10.0
  • torch : 2.3.0 + cu118
  • torchaudio : 2.3.0 + cu118
  • GPU : NVIDIA GeForce RTX 4060 Ti

 

 

2. SWivid TTS 패키지 설치

SWivid TTS 모델을 실행하기 위해 필요한 패키지 및 모델을 다운로드하고 설치하는 방법은 다음과 같습니다.

 

1) SWivid TTS 코드 다운로드

아래 명령어를 통해 SWivid 깃허브 SWivid TTS 코드를 다운받습니다.

# Windows PowerShell
git clone https://github.com/SWivid/F5-TTS.git

 

 

2) SWivid TTS 패키지 다운로드

다운로드한 폴더로 이동한 뒤 필요한 패키지를 설치합니다.

# Windows PowerShell
cd F5-TTS  # 다운받은 폴더로 경로 이동
pip install -r requirements.txt  # 패키지 설치

 

 

3) torch 버전 수정

SWivid TTS 깃허브에 명시된 torch 및 torchaudio 버전으로 수정하려면 아래 명령어를 실행하세요.

# Windows PowerShell
pip install torch==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
pip install torchaudio==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118

 

 

 

3. SWivid TTS 실행

설치가 완료되었으면 아래 명령어를 통해 모델을 실행할 수 있습니다.

# Windows PowerShell
python gradio_app.py

 

위 명령어를 실행하면 Gradio 인터페이스가 실행됩니다. 이 인터페이스는 사용하기 매우 직관적입니다.

 

인터페이스 상단에는 복사할 음성을 업로드할 수 있는 부분이 있습니다. 사용자는 음성 파일을 업로드하거나 마이크를 통해 직접 목소리를 업로드할 수도 있습니다. 가운데에는 텍스트를 입력하는 부분이 있으며, 입력한 텍스트를 선택한 음성이 말하게 됩니다. "Synthesize" 버튼을 클릭하면, 선택한 음성이 입력된 텍스트를 말하는 음성 파일을 생성할 수 있습니다. 또한, 화면 하단 좌측에 F5-TTS와 E2-TTS 두 개의 버튼이 있는데, 이는 각각 다른 목소리 모델을 나타냅니다. 개인적으로 사용해본 결과, F5-TTS 모델의 성능이 좀 더 우수한 것으로 보입니다.

SWivid TTS Gradio 인터페이스

 

사용한 음성 파일은 이전 포스팅에서 사용했던 샘플 파일을 이용했습니다. 그리고 입력한 텍스트는 "Hi, my name is Marcus. Have a nice day!" 입니다. 아래는 사용한 샘플 파일과 SWivid TTS로 생성한 결과 파일입니다.

샘플 파일

 

결과 파일

 


SWivid TTS는 텍스트를 자연스럽고 감정적으로 표현된 음성으로 변환할 수 있는 매우 강력한 도구입니다. 'Flow Matching' 기법을 통해 사람과 같은 음성을 생성하며, Gradio 인터페이스를 활용해 쉽게 접근하고 사용할 수 있습니다. 설치와 실행 과정 또한 간단하며, 다양한 기능을 활용해 사용자 맞춤형 음성 합성 프로젝트를 구현할 수 있습니다. 이러한 점에서 SWivid TTS는 연구뿐만 아니라 상업적 목적에서도 뛰어난 활용성을 자랑합니다. 앞으로도 이 기술을 통해 창의적인 프로젝트에 도전해 보시기 바랍니다. SWivid TTS가 여러분의 아이디어를 현실로 만드는 데 큰 도움이 될 것입니다.

 

 

감사합니다. 😊