본문 바로가기

AI 소식/오픈소스 AI 모델

[오픈소스 AI] Mistral AI 실시간 음성 전사 모델, Voxtral-Mini-4B-Realtime-2602 소개

안녕하세요,

최근 음성 인식 기술은 단순한 녹취 수준을 넘어, 실시간 자막 생성과 음성 에이전트 구축까지 확장되고 있습니다. 특히 스트리밍 기반 Speech-to-Text(STT) 모델은 대화형 서비스와 실시간 인터페이스 구현에서 핵심 요소로 자리 잡고 있습니다. 이러한 흐름 속에서 프랑스 AI 기업 Mistral AI에서 경량 규모로 실시간 전사를 지원하는 모델을 공개하여 주목을 받았습니다.

이번 글에서는 해당 모델, Voxtral-Mini-4B-Realtime-2602의 구조적 특징과 지연 시간(Delay)에 따른 성능 변화, 간단한 사용 예시를 토대로 알아보겠습니다.


반응형

Voxtral-Mini-4B-Realtime 모델이란

2026년 2월 4일, 프랑스 AI 기업 Mistral AI는 음성 전사 모델 패밀리 Voxtral Transcribe 2를 공식 발표했습니다. 해당 발표에서는 배치 처리용 전사 모델과 실시간 스트리밍 전사 모델을 포함한 새로운 음성 인식 라인업이 소개되었습니다. 이와 함께 공개된 Voxtral-Mini-4B-Realtime-2602는 Voxtral Transcribe 2 패밀리 중 Realtime 계열을 기반으로, 오픈소스 형태로 배포된 모델입니다. 즉, 공식 API로 제공되는 실시간 전사 모델과 동일한 기술 계열에 속하지만, 개발자가 직접 실행할 수 있도록 가중치가 공개된 버전이라고 정리할 수 있습니다. 해당 모델은 약 4B(40억) 파라미터 규모로 설계된 실시간 스트리밍 음성-텍스트 변환(STT) 모델입니다. 실시간 응답 환경을 전제로 한 구조를 채택하여, 음성 입력이 들어오는 즉시 텍스트를 생성하는 스트리밍 처리에 최적화된 구성을 갖습니다.

 

 

Voxtral transcribes at the speed of sound. | Mistral AI

Precision diarization, real-time transcription, and a new audio playground.

mistral.ai

 

[모델 정보 요약]

항목 내용
모델명 Voxtral-Mini-4B-Realtime-2602
개발사 Mistral AI
파라미터 수 4B
아키텍처 · Transformer 기반 오디오-텍스트 통합 모델
· 실시간 스트리밍 특화 인코더-디코더 아키텍처
특징 - 실시간 스트리밍 음성 전사 지원
- 낮은 지연(latency) 처리 구조
- 멀티링구얼 지원
- 로컬 및 서버 환경 배포 가능
사용 환경 로컬 환경 / 외부 서버
라이선스 Apache License 2.0
모델 경로 Hugging Face 제공

 

 

주요 특징

  • 실시간 스트리밍 기반 아키텍처 : 오디오를 일정 단위로 나누어 처리하는 기존 청크 방식과 달리, 입력되는 음성을 즉시 처리하는 스트리밍 구조를 채택합니다. 음성 입력과 동시에 텍스트를 생성하는 방식으로 설계되어 라이브 자막, 음성 비서, 실시간 음성 에이전트와 같은 대화형 환경에 적합합니다.
  • 조절 가능한 초저지연 처리 : 지연 시간은 약 240ms에서 2.4초 범위 내에서 설정할 수 있으며, 환경에 따라 정확도와 응답 속도의 균형을 조정할 수 있습니다. 약 480ms 수준으로 설정할 경우, 오프라인 모델에 준하는 정확도와 실시간 처리 성능 간 균형을 기대할 수 있습니다.
  • 다국어 전사 지원 : 한국어를 포함하여 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어 등 총 13개 언어를 지원하는 멀티링구얼 전사 모델입니다. 글로벌 서비스 환경이나 다국어 음성 데이터 처리에 활용할 수 있습니다.
  • 화자 분리 및 타임스탬프 기능 : 화자 분리(Diarization) 기능과 단어 단위 타임스탬프 정보를 지원하여, 회의록 자동화, 인터뷰 분석, 자막 생성 등 구조화된 음성 기록 작업에 적용할 수 있습니다.
  • 4B 규모 대비 높은 전사 정확도 : 약 40억 개(4B) 파라미터 규모의 모델이지만, 기존 오프라인 전사 모델과 비교 가능한 정확도를 목표로 설계되었습니다. 경량 구조와 실시간 처리 성능을 동시에 고려한 균형형 모델에 해당합니다.

 

 

성능 지표

Voxtral-Mini-4B-Realtime-2602 모델은 허깅페이스를 통해 지연 시간(Delay) 설정에 따른 전사 성능 지표를 공개하고 있습니다. 벤치마크 결과에 따르면, 160ms와 같은 초저지연 설정에서는 평균 오류율(AVG)이 12.60% 수준으로 나타나며, 지연 시간을 2400ms까지 확장할 경우 6.73%까지 낮아집니다. English와 Korean 모두 동일한 경향을 보이며, 지연 시간이 증가할수록 오류율이 점진적으로 감소하는 구조를 확인할 수 있습니다. 특히 480ms 설정은 실시간 응답성을 유지하면서도 오류율이 안정적으로 낮아지는 구간에 해당합니다. 

지연 시간 (Delay) 추천 용도 한국어 (오류율) 영어 (오류율)
160ms (0.16초) 초고속 반응 19.81% 6.46%
240ms (0.24초) 빠른 대화 17.56% 5.91%
480ms (0.48초) 밸런스 (권장) 15.74% 4.90%
960ms (0.96초) 정밀 모드 14.90% 4.34%
2400ms (2.4초) 고품질 자막 14.30% 4.05%
출처: Mistral 허깅페이스

 

 

라이선스

Voxtral-Mini-4B-Realtime-2602는 Apache License 2.0 라이선스로 공개됩니다. Apache 2.0은 상업적 활용에 제약이 적은 대표적인 오픈소스 라이선스로, 기업 환경에서도 비교적 자유롭게 도입할 수 있는 구조를 제공합니다.

 

Apache 2.0 라이선스의 주요 특징은 다음과 같습니다.

  • 상업적 사용 가능: 개인 및 기업 모두 상업적 서비스에 활용할 수 있습니다.
  • 수정 및 재배포 허용: 모델을 수정하거나 파생 모델을 제작하여 배포할 수 있습니다.
  • 소스 공개 의무 없음: 수정 후 배포하더라도 변경된 소스를 반드시 공개할 의무는 없습니다.
  • 특허 사용권 명시: 라이선스에 특허 사용권이 포함되어 있어 법적 안정성이 비교적 명확합니다.

이러한 특성 덕분에 Voxtral-Mini-4B-Realtime-2602는 연구 목적뿐만 아니라 제품화, SaaS 서비스 통합, 온프레미스 배포 등 다양한 상용 시나리오에 적용할 수 있습니다. 특히 로컬 서버 환경에서 직접 추론 파이프라인을 구성하거나, 기존 음성 인식 시스템에 통합하는 방식으로도 활용 가능합니다.

 


 

간단한 사용 예시

Voxtral-Mini-4B-Realtime-2602는 로컬 실험 환경부터 서버 기반 실시간 전사 서비스 구축까지 다양한 방식으로 활용할 수 있습니다. 지연 시간(Delay)을 조절할 수 있는 구조이므로, 초저지연 음성 인터페이스부터 정확도 중심 자막 생성 환경까지 목적에 맞는 설정을 선택할 수 있습니다.

 

1. Hugging Face Space에서 직접 체험

해당 모델은 허깅페이스의 Space인 Voxtral-Mini-Realtime에서 데모 형태로 제공됩니다. 해당 Space는 브라우저에서 마이크 입력을 통해 실시간 전사 기능을 직접 체험할 수 있도록 구성되어 있으며, 사용을 위해서는 Mistral API Key 입력이 필요합니다. API 키는 Mistral 콘솔에서 발급받아 입력해야 정상적으로 스트리밍 전사가 동작합니다.

  • 특징: 웹 기반 실시간 전사 데모, 마이크 입력 지원, 지연 시간 기반 스트리밍 처리 확인 가능
  • 비용: Mistral API 사용량에 따른 과금 구조 적용
  • 활용: 모델 성능 사전 검증, 지연 시간 체감 테스트, 서비스 도입 전 평가
  • 경로: Hugging Face Space

출처: Mistral AI - Hugging Face Space (클릭시 페이지 이동)

 

 

2. 외부 서버 환경 (vLLM 기반 스트리밍 서빙)

Voxtral-Mini-4B-Realtime-2602는 vLLM과 같은 고성능 추론 프레임워크를 통해 서버 환경에 배포할 수 있습니다. WebSocket 기반 스트리밍 세션을 구성하면 다수의 동시 요청을 처리하는 실시간 전사 API를 구축할 수 있습니다.

지연 시간은 80ms 단위로 80~2400ms 범위 내에서 조절할 수 있으며, 480ms 설정은 실시간성과 정확도 간 균형을 고려한 실용적인 선택지로 활용할 수 있습니다.

  • 특징: 스트리밍 기반 실시간 전사, 지연 시간 세밀 조절 가능
  • 비용: 서버 및 GPU 인프라 비용
  • 활용: 실시간 회의 전사 API, 음성 비서 서비스, 고객 상담 자동 기록 시스템
  • 참고 문서: vLLM Blog

 

3. 로컬 GPU 환경 실행

Voxtral-Mini-4B-Realtime-2602 모델은 Hugging Face에 공개된 오픈 가중치를 기반으로 로컬 GPU 환경에서 직접 실행할 수 있습니다. 개인 개발 환경이나 연구·실험 목적에 적합하며, 실시간 전사 성능을 직접 검증하거나 딜레이 설정에 따른 정확도 변화를 테스트하는 데 활용할 수 있습니다. 스트리밍 오디오 입력을 구성하면 간단한 실시간 자막 시스템이나 음성 기록 도구를 구현할 수 있으며, 전처리·후처리 로직을 결합한 커스터마이징도 가능합니다.

 

[패키지 설치]

# Windows PowerShell
pip install "mistral-common[audio]"
pip install transformers accelerate
pip install torch==2.6.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu126

 

[간단한 예시 코드 ]

from transformers import VoxtralRealtimeForConditionalGeneration, AutoProcessor
from mistral_common.tokens.tokenizers.audio import Audio

repo_id = "Path/To/Voxtral-Mini-4B-Realtime-2602"  # 사용자 환경에 맞게 수정
audio_file = "Path/To/Voxtral-Mini-4B-Realtime-2602/audio/part_ENG.mp3"  # 사용자 환경에 맞게 수정

processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralRealtimeForConditionalGeneration.from_pretrained(
    repo_id,
    device_map="auto",
    local_files_only=True,
)

audio = Audio.from_file(audio_file, strict=False)
audio.resample(processor.feature_extractor.sampling_rate)

inputs = processor(audio.audio_array, return_tensors="pt")
inputs = inputs.to(model.device, dtype=model.dtype)

outputs = model.generate(**inputs)
decoded_outputs = processor.batch_decode(outputs, skip_special_tokens=True)

print(decoded_outputs[0])

 

[실행 결과]

Voxtral-Mini-4B-Realtime-2602 모델을 활용하여 음성 파일 전사를 진행했습니다. 첫 번째 테스트는 미국 배우 덴젤 워싱턴의 약 25초 길이 영어 음성 영상으로 수행했습니다. 해당 파일을 입력한 결과, 추론 과정에서 약 9.5GB 수준의 GPU 메모리가 사용되었으며, 전사 완료까지 약 30초가 소요되었습니다. 또한 모델의 한국어 지원 여부를 확인하기 위해 약 6초 길이의 한국어 영화 대사를 동일한 환경에서 전사했습니다. GPU 메모리 사용량은 영어 테스트와 큰 차이를 보이지 않았으며, 전사 완료까지는 약 10초가 소요되었습니다.

 

초기 모델 로딩 시간을 제외하면, 전사에 소요되는 시간은 입력 음성 길이에 대체로 비례하는 경향을 보였습니다. 이는 모델이 오디오를 순차적으로 처리하며 텍스트를 생성하는 구조임을 보여줍니다. 다만, 실제 동작 방식은 스트리밍 기반이므로 환경 구성, GPU 성능, 지연 시간(Delay) 설정에 따라 체감 처리 속도는 달라질 수 있습니다.

 

아래에는 사용된 음성 파일과 전사 결과입니다.

 

[사용된 음성]

영문 음성 (25초, 덴젤 워싱턴)
한국어 음성 (6초, 극한직업 중 일부)

 

[모델 추론 결과]

 

벤치마크 결과에서 확인할 수 있듯이, 영어 음성의 경우 전반적으로 높은 정확도를 보였으며 실제 테스트에서도 거의 오류 없이 전사가 이루어졌습니다. 반면 한국어 음성에서는 일부 오인식 사례가 확인되었습니다. 예를 들어 “이무배”를 “이 부부”로 잘못 인식하거나, “조명될 때까지”를 “조용될 때까지”로 전사하는 경우가 있었습니다.

 


 

Voxtral-Mini-4B-Realtime-2602는 실시간 스트리밍 기반 음성 전사를 중심으로 설계된 모델로, 지연 시간 조절을 통해 정확도와 응답 속도 사이의 균형을 유연하게 설정할 수 있다는 점이 핵심적인 강점입니다. 4B 규모의 비교적 경량 모델임에도 불구하고, 영어 환경에서는 오프라인 모델에 근접한 정확도를 보였으며, 한국어를 포함한 다국어 전사도 지원하여 실제 서비스 환경에 적용 가능한 구조를 갖추고 있습니다. 특히 480ms 구간에서 확인되는 안정적인 성능은 실시간 음성 인터페이스 구축에 실질적인 선택지를 제공합니다.

 

다만 한국어 전사에서는 일부 고유명사나 발음이 유사한 단어에서 오인식 사례가 확인되어 다소 아쉬운 부분도 있었습니다. 그럼에도 불구하고 비교적 낮은 컴퓨팅 자원 환경에서 이 정도의 실시간 전사 성능을 구현했다는 점은 의미 있는 성과로 볼 수 있습니다. 실제 사용 환경에서 직접 테스트해보며 지연 시간 설정과 전사 품질을 함께 비교해보시길 바랍니다.

 

감사합니다. 😊

 

반응형