안녕하세요,
최근 GPU 없이도 온디바이스 환경에서 빠르게 음성을 생성할 수 있는 TTS 모델이 공개되었습니다. 이 모델은 국내 기업 수퍼톤에서 개발한 기술로, 현재 오픈소스로 제공되어 누구나 손쉽게 다운로드하고 활용할 수 있는 점이 특징입니다. 가벼운 구조와 높은 처리 속도를 바탕으로 다양한 기기에서 활용 가능성이 주목받고 있습니다.
이번 포스팅에서는 해당 모델의 주요 기능과 성능, 사용 방법에 대해 자세히 살펴보겠습니다.
Supertonic이란
2025년 11월 21일, 국내 기업 Supertone은 텍스트를 음성으로 변환하는 경량 TTS(Text-to-Speech) 모델인 Supertonic을 공개했습니다. Supertonic은 온디바이스 실행을 전제로 설계된 TTS 모델 & 시스템으로, 외부 서버 호출 없이 로컬 환경에서 직접 음성을 합성하도록 구성되어 있습니다. ONNX Runtime 기반으로 동작하며 CPU나 웹 브라우저 환경에서도 빠른 속도를 보여 사용자 입력을 자연스러운 음성으로 변환하는 데 최적화되어 있습니다. 숫자, 날짜, 통화, 약어와 같이 복잡한 표현도 정교하게 처리할 수 있으며, 파라미터 규모가 약 6,600만 개로 매우 가벼운 편에 속해 모바일이나 엣지 디바이스에서도 충분히 활용할 수 있는 점이 특징입니다.
- Supertone 공식페이지 : https://www.supertone.ai/ko

주요 특징
- 엄청난 속도 : 입력 문자 수 대비 처리 속도가 매우 빠르며, 예를 들어 M4 Pro CPU 환경에서 문자당 초당 처리(characters per second) 수치가 900 ~ 1 260 수준에 이르며, 웹GPU 및 RTX4090과 같은 고성능 환경에서는 더 높은 수치를 기록하고 있습니다.
- 실시간 인퍼런스 가능성 : 실시간 요소를 측정하는 Real-Time Factor(RTF) 수치에서, M4 Pro CPU 환경에서도 0.012~0.015 수준으로 나타나며 이는 음성 길이 대비 생성 시간이 매우 짧음을 의미합니다.
- 초경량 모델 구조 : 약 66백만 개 파라미터로 구성되어 있어 메모리와 계산 자원 요구량이 낮은 편입니다.
- 온디바이스 실행 : 모든 프로세싱이 사용자 기기에서 이루어지는 구조이므로 외부 서버와의 통신이 필요하지 않아 보안 측면에서도 안정적인 환경을 제공합니다.
- 광범위한 플랫폼 지원 : Python, Node.js, 브라우저(WebGPU/WASM), Java, C++, C#, Go, Swift(iOS), Rust 등 다양한 환경에서 사용 가능합니다.
- 복잡한 텍스트 처리 능력 : 단순 문장뿐 아니라 숫자, 날짜, 통화, 약어 등 다양한 표현을 별도 전처리 없이 자연스럽게 처리할 수 있도록 설계되어 있습니다.
- 구성 가능성 및 배포 유연성 : 배치 처리(batch inference), 추론 스텝 조정, 다양한 런타임 백엔드 지원 등 사용자의 요구에 맞춘 파인튜닝이 가능하도록 설계되어 있습니다.
벤치마크 성능
Supertonic은 온디바이스 환경에서 매우 빠른 처리 속도를 보여주는 것이 특징이며, CPU·WebGPU·GPU 모두에서 기존 클라우드 기반 TTS API보다 월등한 성능을 기록했습니다. 문자 처리 속도(Characters per Second)와 실시간성 지표(Real-Time Factor) 두 항목 모두에서 경쟁 모델 대비 뛰어난 결과를 보였으며, 특히 RTX 4090에서의 성능은 동급 모델 중 가장 우수한 처리 효율을 보여줍니다.
[처리 속도 비교 (초당 생성 문자수 / 높을수록 우수)]
| 모델 / 환경 | Short (59 chars) | Mid (152 chars) | Long (266 chars) |
| Supertonic (M4 Pro – CPU) | 912 | 1,048 | 1,263 |
| Supertonic (M4 Pro – WebGPU) | 996 | 1,801 | 2,509 |
| Supertonic (RTX 4090) | 2,615 | 6,548 | 12,164 |
| ElevenLabs Flash v2.5 (API) | 144 | 209 | 287 |
| OpenAI TTS-1 (API) | 37 | 55 | 82 |
| Gemini 2.5 Flash TTS (API) | 12 | 18 | 24 |
| Supertone Sona Speech 1 (API) | 38 | 64 | 92 |
| Kokoro (Open Source) | 104 | 107 | 117 |
| NeuTTS Air (Open Source) | 37 | 42 | 47 |
[실시간성 비교 (Real-Time Factor / 낮을수록 우수)]
| 모델 / 환경 | Short (59 chars) | Mid (152 chars) | Long (266 chars) |
| Supertonic (M4 Pro – CPU) | 0.015 | 0.013 | 0.012 |
| Supertonic (M4 Pro – WebGPU) | 0.014 | 0.007 | 0.006 |
| Supertonic (RTX 4090) | 0.005 | 0.002 | 0.001 |
| ElevenLabs Flash v2.5 (API) | 0.133 | 0.077 | 0.057 |
| OpenAI TTS-1 (API) | 0.471 | 0.302 | 0.201 |
| Gemini 2.5 Flash TTS (API) | 1.060 | 0.673 | 0.541 |
| Supertone Sona Speech 1 (API) | 0.372 | 0.206 | 0.163 |
| Kokoro (Open Source) | 0.144 | 0.124 | 0.126 |
| NeuTTS Air (Open Source) | 0.390 | 0.338 | 0.343 |
출처: Supertone 허깅페이스
라이선스
Supertonic은 BigScience Open RAIL-M 라이선스를 기반으로 제공되며, 상업적 활용이 가능한 점이 특징입니다. 해당 라이선스는 서비스 운영, 파인튜닝, 변형 모델의 재배포, 상업용 애플리케이션·웹 서비스·API(SaaS) 제공 등 다양한 형태의 활용을 별도의 비용이나 로열티 없이 허용합니다. 다만, 모델의 사용 방식에는 반드시 준수해야 하는 조건이 포함되어 있으며, 이는 상업적 서비스에도 동일하게 적용됩니다.
[반드시 준수해야 하는 조건]
- 금지 용도(Use-based Restrictions) 준수 : 개인정보 생성, 의료 진단, 허위 정보 유포, 사칭·딥페이크 제작, 차별·편향 목적 활용, 사법·수사·이민국 판단 등 지정된 금지 항목은 어떠한 형태로도 사용할 수 없습니다. 이러한 제한은 서비스 사용자에게도 그대로 적용되어야 하며, 서비스 약관에 반영해야 합니다.
- 라이선스 전문 제공 의무 : 모델 또는 파인튜닝된 파생 모델을 배포하거나 서비스에 포함할 경우, 라이선스 전문을 함께 제공해야 하며 수정 사항이 있을 경우 이를 명확하게 표기해야 합니다.
- 파인튜닝 및 재배포 조건 준수 : 파인튜닝 자체는 허용되지만, 금지 용도 조항은 변경 없이 유지해야 합니다. 재배포 시에도 동일한 라이선스 조항을 포함해야 합니다.
- 브랜드·로고 사용 금지 : BigScience나 BLOOM 등 원저작자가 보유한 로고, 브랜드, 상표는 상업적 목적으로 활용할 수 없습니다.
- 출력(Output) 책임 규정 : 모델이 생성한 모든 출력물은 사용자에게 귀속되지만, 출력물 또한 금지 용도에 포함될 수 없으며 그 책임은 사용자에게 있습니다.
간단한 사용 예시
Supertonic 모델은 Supertone의 깃허브와 허깅페이스에 코드와 모델이 함께 공개되어 있습니다. 로컬 환경에서 바로 실행해볼 수 있으며, 아래에서는 모델을 간단히 불러와 음성을 생성하는 방법을 살펴보겠습니다.
1. 실행 환경
2. Supertonic 모델 및 패키지 설치
3. 코드 작성
4. 실행
1. 실행 환경
- 운영체제 : Window 11
- Python : 3.10.11
- onnxruntime : 1.23.1
- numpy : 1.26.0
2. Supertonic 모델 및 패키지 설치
Supertonic 모델은 아래 허깅페이스에서 다운로드할 수 있습니다.
- Supertone 허깅페이스 : https://huggingface.co/Supertone/supertonic/tree/main
아래 명령어를 통해 해당 모델을 실행하는데 필요한 패키지를 모두 설치해줍니다.
# 패키기 설치
pip install onnxruntime==1.23.1 numpy>=1.26.0 soundfile>=0.12.1 librosa>=0.10.0 PyYAML>=6.0
3. 코드 작성
Supertonic 모델 실행에 필요한 코드는 Supertone의 깃허브에서 내려받을 수 있습니다. 다양한 언어 예제가 제공되지만, 이번 포스팅에서는 파이썬 예제를 기준으로 설명하겠습니다.
- Supertone 깃허브 : https://github.com/supertone-inc/supertonic

다운로드한 코드 폴더에서 py → example_onnx.py 파일을 통해 모델을 실행할 수 있습니다.
아래는 Windows PowerShell 기준 실행 예시입니다.
# Windows PowerShell
cd Path/to/supertonic/py # 사용자 환경에 맞게 수정 (깃허브에서 내려받은 경로)
python example_onnx.py `
--onnx-dir Path/to/supertonic/onnx ` # 모델 경로 (허깅페이스에서 다운로드한 파일 경로)
--voice-style Path/to/supertonic/voice_styles/M2.json ` # 음성 스타일 설정 파일 경로 (허깅페이스에서 다운로드한 파일 경로)
--n-test 2 ` # 생성할 음성 파일 개수
--text "Hello, nice to meet you. Welcome to Marcus' blog." ` # 변환할 텍스트
--speed 0.9 # 발화 속도 설정값
4. 실행
위 예제를 통해 실제로 생성된 음성이며, 아래에서는 Supertonic의 출력 결과를 직접 확인할 수 있습니다.
간단한 문장을 입력했음에도 CPU만 사용한 상태에서 1초도 걸리지 않고 음성이 생성되었으며, 지금까지 확인했던 다양한 TTS 모델과 비교했을 때도 가장 빠른 수준의 처리 속도를 보여주었습니다. 온디바이스 기반 모델임에도 자연스러운 음질을 유지한다는 점 역시 인상적입니다. 다만 초기 버전 기준으로는 한국어 음성 생성은 지원되지 않는 것으로 확인되었습니다.
다만, 현재 제공되는 음성 스타일은 네 가지 정도로 제한되어 있고, 한국어는 지원되지 않는 것으로 보입니다. 추후 더 다양한 스타일을 생성하는 방법을 연말까지 공개할 계획이라고 합니다.
Supertonic은 온디바이스 환경에서 빠르고 가벼운 음성 합성을 목표로 설계된 모델로, 최소한의 자원만으로도 높은 처리 속도와 안정적인 음질을 제공하는 점이 큰 장점입니다. 텍스트를 실시간에 가까운 속도로 음성으로 변환할 수 있어 다양한 서비스 환경에 적용하기 용이하며, 특히 모바일이나 엣지 디바이스에서도 부담 없이 활용할 수 있는 구조가 돋보입니다.
현재 제공되는 음성 스타일과 지원 언어는 제한적이지만, 향후 한국어 지원 확대와 다양한 스타일 추가, 그리고 보다 폭넓은 환경에 맞춘 최적화가 이루어질 것으로 예상됩니다. 이러한 개선은 사용자에게 더욱 유연하고 즉각적인 음성 생성 경험을 제공하는 데 기여할 것이며, 온디바이스 TTS 기술의 가능성을 한층 더 확장하는 기반이 될 것입니다.
감사합니다. 😊
'AI 소식 > 오픈소스 AI 모델' 카테고리의 다른 글
| [오픈소스 AI] Essential AI가 공개한 차세대 언어 모델, Rnj-1 소개 (1) | 2025.12.11 |
|---|---|
| [오픈소스 AI] Mistral 3 시리즈 공개, 로컬에서도 비전 인식이 가능한 오픈소스 AI 모델 (0) | 2025.12.09 |
| [오픈소스 AI] 중국 바이두의 비전 인식 모델, ERNIE 4.5 VL 모델 소개 (0) | 2025.11.17 |
| [오픈소스 AI] Moonshot AI의 추론형 모델, Kimi-K2-Thinking 공개 (0) | 2025.11.12 |
| [한국어 AI 모델] 모티프 테크놀로지 Motif 2 특징과 간단한 사용 가이드 | 로컬환경 | 오픈소스 AI (0) | 2025.11.07 |