본문 바로가기

AI 소식/오픈소스 AI 모델

[OpenAudio S1-mini] 가볍고 강력한 AI 음성 생성 모델 설치 및 실행 가이드 | 오픈소스 AI | 한국어 TTS

안녕하세요,

최근 인공지능 기술의 발전으로 고품질 음성을 손쉽게 생성할 수 있는 TTS(Text-to-Speech) 모델들이 빠르게 등장하고 있습니다. 특히, OpenAudio S1-mini는 가볍고 빠르면서도 한국어까지 자연스럽게 지원하는 오픈소스 음성 합성 모델로 주목받고 있습니다. 이 글에서는 Docker를 활용하여 OpenAudio S1-mini 모델을 설치하고 실행하는 방법을 단계별로 안내합니다. 또한, 한국어 문장을 기반으로 음성을 생성하는 실제 예제를 통해, 이 모델의 품질과 성능을 직접 확인해볼 수 있습니다.

 

한국어 TTS 모델을 찾고 계시거나, 로컬 환경에서 직접 음성 합성 모델을 테스트해보고 싶으신 분들께 도움이 되길 바랍니다. 그럼 설치부터 실행, 결과 확인까지 차근차근 살펴보겠습니다.


반응형

OpenAudio S1이란?

2025년 6월 3일, OpenAudio에서 음성 생성 모델 S1을 공개했습니다. OpenAudio S1은 Fish Audio와 Hanabi AI(OpenAudio 연구소)가 공동 개발한 오픈소스 TTS(Text-to-Speech) 모델입니다. 다국어 기반 음성 합성 모델로, 감정 표현, 말투, 음성 효과 등 다양한 요소를 텍스트로 세밀하게 조정할 수 있는 점이 특징이고, 한국어 또한 제공해줍니다. 상용 서비스인 ElevenLabs, OpenAI의 TTS 등과 비교해도 손색없는 음질과 제어 성능을 제공하며, 경량 모델인 S1-mini는 일반 데스크탑 환경에서도 실행 가능합니다.

 

 

Introducing S1

Our cutting-edge text-to-speech model that performs like voice actors

openaudio.com

 

 

주요 특징

1) 감정 제어 및 음성 디렉션

  • OpenAudio S1은 텍스트 내에 (angry), (sad), (whispering) 같은 지시어를 삽입함으로써 감정, 음색, 특수효과 등을 자유롭게 조정할 수 있습니다.
  • 사용자가 디렉팅하듯 정교하게 조작할 수 있어, 마치 ‘AI 성우’처럼 감정 연기까지 구현 가능합니다.

2) 제로샷 음성 클로닝

  • 10~30초 분량의 샘플 음성만으로 새로운 음성을 생성할 수 있는 제로샷 음성 클로닝 기능을 제공합니다.
  • 훈련 과정 없이도 개성 있는 보이스 스타일을 복제할 수 있어 사용자 맞춤형 콘텐츠 제작에 유용합니다.

3) 실시간 음성 생성 속도

  • OpenAudio S1은 GPU 환경에서 sub-100ms의 낮은 지연 시간으로 실시간 합성이 가능합니다.
  • 대화형 AI, 음성 비서, 게임 등 실시간 반응이 중요한 분야에 적합한 성능을 보여줍니다.

4) 다국어 지원

  • 현재는 영어, 일본어, 한국어, 중국어, 프랑스어, 독일어, 아랍어, 스페인어 등 총 8개 언어를 지원합니다.
  • 각 언어에 최적화된 음성 합성을 제공하며, 국가별 억양이나 발음을 자연스럽게 반영합니다.

5) 경량화 모델(S1-mini)

  • S1-mini는 0.5B 파라미터의 경량화 모델로, 일반 PC나 엣지 디바이스에서도 실행 가능합니다.
  • 오픈소스로 제공되어 비상업적 목적으로 자유롭게 활용할 수 있으며, 성능 역시 상위 모델과 비교해도 우수한 수준입니다.

 

 

라이선스 및 주의 사항

OpenAudio S1 모델은 오픈소스로 공개되어 누구나 자유롭게 접근하고 활용할 수 있지만, 적용된 라이선스는 CC BY-NC-SA 4.0(Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International)으로, 비상업적 용도로만 사용이 허용됩니다. 따라서 연구, 학습, 비영리 프로젝트 등에는 자유롭게 사용할 수 있으나, 수익을 목적으로 한 상업적 이용이나 배포를 원할 경우에는 별도의 라이선스 협의가 필요합니다.

⚠️ 사용 시 반드시 지켜야 할 사항

OpenAudio S1 모델은 강력한 기능을 갖춘 AI 음성 합성 도구이지만, 다음과 같은 법적·윤리적 기준을 반드시 지켜야 합니다.

  • 신원 도용 금지
    타인의 동의 없이 실제 인물의 목소지를 모방하거나 유사한 음성을 생성하지 마세요.
  • 허위 정보 생성 금지
    가짜 뉴스, 조작된 발언 등 오해를 불러일으킬 수 있는 콘텐츠 생성에 사용해서는 안 됩니다.
  • 불법 및 악의적 사용 금지
    법률을 위반하거나, 타인에게 피해를 줄 수 있는 악의적 목적으로의 사용은 금지되어 있습니다.

AI 기술은 사회적 신뢰를 바탕으로 성장합니다. 책임감 있는 사용과 올바른 윤리 기준을 지키는 것이 우리 모두의 역할이며, 이를 통해 AI가 더욱 건강하고 지속 가능하게 발전할 수 있도록 함께 노력해야 합니다.

 

 

사전 준비 사항

이 포스팅에서는 Docker를 활용하여 OpenAudio S1 모델을 실행하는 방법을 안내합니다. 진행에 앞서 Docker Desktop이 사전에 설치되어 있어야 하며, 모델을 실행하려면 기본 학습용 음성 데이터 해당 음성이 말하는 텍스트가 필요합니다.

 

 

목차
1. 실행 환경
2. 다운로드 및 환경 설정
3. 음성 생성

 


1. 실행 환경

  • 운영체제 : Windows 11
  • Docker : 28.1.1
  • Python : 3.10.12
  • torch : 2.5.1 + cu121
  • torchaudio : 2.5.1 + cu121
  • numpy : 1.26.4
  • GPU : NVIDIA GeForce RTX 4060 Ti

 

 

2. 다운로드 및 환경 설정

아래 깃허브 저장소에서 OpenAudio S1 (fish-speech) 모델의 실행 코드를 다운로드합니다. 현재 오픈소스로 공개된 모델은 S1-mini 버전이며, 이번 포스팅에서는 이 모델을 활용해보겠습니다. 해당 깃허브 코드를 실행하면 모델 파일이 자동으로 다운로드되며, 아래 허깅페이스 링크를 통한 수동 다운로드는 선택 사항입니다.

 

[모델 실행 코드 및 다운로드 링크]

출처: OpenAudio S1 (fish-speech) 깃허브 및 허깅페이스 (클릭시 이미지 확대)

 

[환경 설정]

깃허브에서 다운로드한 파일의 압축을 먼저 풀어줍니다. 압축을 해제하면 Dockerfile이라는 파일이 포함되어 있으며, 이 파일을 이용해 도커 실행 환경을 구성할 수 있습니다.

 

아래는 Windows PowerShell 기준 명령어입니다.

# Windows PowerShell
cd /Path/to/fish-speech              # 깃허브에서 다운로드한 경로 (사용자 환경에 맞게 수정)
docker build -t openaudio-s1-mini .  # Docker 이미지 빌드 (가상 환경 설정 파일)
docker run -it --rm --gpus all -v /Path/to/audio:/input openaudio-s1-mini bash  # Docker 실행 (가상 환경 실행)

 

위 명령어는 도커 이미지를 기반으로 일회성 컨테이너를 생성하고, 컨테이너 내부의 bash 터미널에 접속하는 방식입니다. GPU를 활용하며, 컨테이너는 종료 시 자동으로 삭제됩니다.
명령어에 포함된 "-v /Path/to/audio:/input" 옵션은 로컬 "audio 폴더"를 도커 내부 "input 폴더"에 연결(mount)하기 위한 설정입니다. 이 경로에 학습에 사용할 음성 파일을 저장하여 도커 내부로 전달하기 위함입니다.

docker run 실행시 정상 출력 화면 (예시)

 

 

3. 음성 생성

이제 도커 환경에서 파이썬 코드를 실행하여 AI 음성 파일을 직접 생성할 수 있습니다. 미리 준비한 기본 학습용 음성 데이터는 앞서 마운트한 "Path/to/audio" 폴더 안에 위치시켜 주세요. 이 모델은 총 3단계 과정을 통해 음성을 생성합니다.

  1. 참조 오디오에서 VQ 토큰 추출
  2. 텍스트로부터 의미 토큰 생성
  3. 의미 토큰을 바탕으로 최종 음성 생성

아래는 Windows PowerShell 기준으로 작성되었습니다.

 

1) 참조 오디오에서 VQ 토큰 얻기

# Windows PowerShell
python fish_speech/models/dac/inference.py \
    -i /input/ref_audio_name.wav \
    --checkpoint-path "checkpoints/openaudio-s1-mini/codec.pth"

 


2)
텍스트로부터 의미 토큰 생성

# Windows PowerShell
python fish_speech/models/text2semantic/inference.py \
    --text "AI에게 말하게 하고 싶은 문장" \
    --prompt-text "[기본 학습용 음성이 실제로 말한 문장]" \
    --prompt-tokens "fake.npy" \
    --compile


3)
의미 토큰을 바탕으로 최종 음성 생성

# Windows PowerShell
python fish_speech/models/dac/inference.py \
    -i "codes_0.npy" \
    --output-path /input/output.wav \

 

[생성 결과]

S1-mini 모델을 실행한 결과, 각 단계에서 사용된 자원과 처리 시간은 다음과 같습니다. 먼저, 텍스트에서 의미 토큰을 생성하는 과정에서는 약 4.2GB의 VRAM이 사용되었으며, 모델이 메모리에 로드되는 데 약 35초가 소요되었습니다. 실제 추론 시간은 약 3초로 비교적 빠르게 처리되었습니다. 이어지는 의미 토큰을 기반으로 음성을 생성하는 단계에서도 동일하게 약 4.2GB의 VRAM이 사용되었으며, 음성 합성 과정은 약 3초 만에 완료되었습니다.

 

S1-mini 모델을 사용할 때 가장 시간이 오래 걸린 부분은 모델을 로드하는 과정이었습니다. 반면, 실제 추론에 소요되는 시간과 사용되는 VRAM은 매우 적은 수준이었고, 가볍게 실행되는 점이 인상적이었습니다. 아래 예시는 많은 분들이 익숙하실 류승룡 배우님의 목소리 스타일을 참고하여 AI 음성을 생성한 결과입니다. 개인적으로는 상당히 유사하게 생각합니다. 직접 들어보시고 여러분은 어떻게 느끼시는지 판단해보시면 좋겠습니다.

S1-mini 모델 실행 결과

 

S1-mini 모델을 사용하면서 가장 인상 깊었던 점은 한국어 인식이 매우 정확했다는 것입니다. 한국어 문장을 입력했을 때 어색한 발음이나 억양 없이 자연스럽게 음성이 생성되었고, 의도한 감정이나 말투도 꽤 정교하게 반영되었습니다. 또한, 비교적 간단한 하드웨어 환경에서도 이 정도의 성능을 보여준다는 점에서 개인 프로젝트나 연구용 실험에도 충분히 활용 가치가 있는 모델이라고 느꼈습니다.

 

최근에는 S1-mini처럼 작고 효율적인 모델임에도 불구하고, 한국어 음성 합성을 매우 자연스럽게 수행하는 사례가 점점 더 많아지고 있습니다. 이러한 흐름은 앞으로의 TTS 기술이 경량화되면서도 품질은 유지되는 방향으로 발전하고 있음을 보여줍니다.

 

감사합니다.

 

반응형