안녕하세요,
최근 인공지능 모델은 텍스트를 넘어 음성, 이미지 등 다양한 형태의 데이터를 처리하는 방향으로 확장되고 있습니다. 특히 음성과 관련된 AI 모델들이 빠르게 등장하며, 실제 서비스 환경에서의 활용도 또한 높아지고 있습니다. 이번에 소개해드릴 모델은 Cohere에서 개발한 Cohere Transcribe입니다. 이 모델은 음성을 텍스트로 변환하는 ASR 기능을 제공하며, 회의 기록, 음성 검색, 콜센터 자동화 등 다양한 분야에서 활용할 수 있습니다.
이번 글에서는 Cohere Transcribe 모델의 개념과 주요 특징, 성능, 그리고 간단한 사용 방법까지 정리해보겠습니다.
Cohere Transcribe란
2026년 3월 26일, Cohere에서 공개한 Cohere Transcribe는 음성을 텍스트로 변환하는 ASR(Automatic Speech Recognition) 모델입니다. 약 2B(20억) 파라미터 규모로 설계되어 비교적 효율적인 자원 사용이 가능하며, 실제 서비스 환경에서 활용을 고려한 실용적인 모델로 공개되었습니다. 특히 텍스트 중심 모델을 주로 개발해온 Cohere가 오디오 영역으로 확장하며 선보인 첫 음성 인식 모델이라는 점에서 의미가 있으며, 다양한 음성 데이터를 기반으로 안정적인 인식 성능을 제공하는 것을 목표로 설계되었습니다.
- Cohere-transcribe 소개글 : https://huggingface.co/blog/CohereLabs/cohere-transcribe-03-2026-release
Introducing Cohere-transcribe: state-of-the-art speech recognition
A Blog post by Cohere Labs on Hugging Face
huggingface.co
[모델 정보 요약]
| 항목 | 내용 |
| 모델 버전 | Cohere Transcribe |
| 개발사 | Cohere |
| 파라미터 수 | 약 2B (약 20억) |
| 구조 특징 | Conformer 기반 인코더-디코더 구조 |
| 주요 기능 | 고정밀 음성 인식(ASR), 다국어 음성 지원, 긴 오디오 자동 분할 처리, 실시간 처리 대응 |
| 지원 언어 | 영어, 프랑스어, 독일어, 이탈리아어, 스페인어, 포르투갈어, 그리스어, 네덜란드어, 폴란드어, 중국어, 일본어, 한국어, 베트남어, 아랍어 |
| 사용 목적 | 회의 기록 자동화, 콜센터 음성 분석, 음성 데이터 검색, 음성 기반 서비스 구현 |
| 라이선스 | Apache 2.0 라이선스 |
| 모델 경로 | Hugging Face 제공 |
주요 특징
- 높은 음성 인식 정확도 : 다양한 벤치마크에서 낮은 오류율(WER)을 기록하며, 기존 ASR 모델 대비 안정적인 인식 성능을 제공합니다.
- 빠른 처리 속도 : 동급 모델 대비 빠른 추론 속도를 제공하여 실시간 처리나 대량 음성 데이터 처리 환경에 적합합니다.
- 다국어 지원 : 한국어를 포함한 총 14개 언어를 지원하여 다양한 글로벌 환경에서 활용할 수 있습니다.
- 서비스 환경 최적화 : 긴 음성 데이터를 자동으로 분할하여 처리하며, 실제 서비스 적용을 고려한 구조로 설계되었습니다.
벤치마크 성능
Cohere Transcribe는 다양한 음성 데이터셋 기준 WER(단어 오류율) 비교에서 전반적으로 낮은 오류율을 기록하며, 주요 ASR 모델 대비 경쟁력 있는 성능을 보입니다. 특히 Average WER 기준에서 안정적인 평균 성능을 유지하며, 회의 환경을 반영한 AMI 데이터셋에서도 낮은 오류율을 통해 실사용 환경에서의 활용 가능성을 함께 확인할 수 있습니다.
아래 표는 주요 모델 간 WER 기준 비교 결과입니다. (값이 낮을수록 성능이 우수합니다)
| 벤치마크 지표 | Cohere Transcribe |
Whisper Large v3 |
ElevenLabs Scribe v2 |
BM Granite 4.0 1B Speech |
| Average WER (전체 데이터셋 평균 오류율) |
5.42 | 7.44 | 5.83 | 5.52 |
| AMI (회의 음성 인식 오류율) |
8.15 | 15.95 | 11.86 | 8.48 |
| Tedlium (강연/발표 음성 인식 오류율) |
2.49 | 3.86 | 2.37 | 3.10 |
출처: Cohere-transcribe 소개글
라이선스
Cohere Transcribe 모델은 허깅페이스에서 Apache 2.0 License로 공개되었습니다. 이 라이선스는 연구 목적뿐 아니라 상업적 활용까지 폭넓게 허용하는 오픈소스 라이선스로, 실제 서비스 환경에서도 자유롭게 적용할 수 있는 구조를 갖고 있습니다. 즉, 개인 프로젝트부터 기업 서비스까지 별도의 제약 없이 활용할 수 있으며, 수정 및 재배포 또한 허용됩니다.
Apache 2.0 License의 주요 특징은 다음과 같습니다.
- 연구 및 상업적 사용 모두 자유롭게 허용
- 모델 수정 및 파생 모델 생성 가능
- 재배포 및 배포 가능 (라이선스 및 저작권 고지 유지 필요)
- 특허 사용 권한(Patent Grant) 제공
- 개인, 기업, 서비스 등 다양한 환경에서 자유로운 적용 가능
이 라이선스는 상업적 활용과 배포를 명확하게 허용하면서도, 특허 권리까지 포함해 보다 안정적인 활용이 가능한 오픈소스 라이선스 형태라고 정리할 수 있습니다.
간단한 사용 예시
Cohere Transcribe 모델은 음성 데이터를 입력으로 받아 텍스트로 변환하는 ASR 모델로, 다양한 환경에서 유연하게 활용할 수 있습니다. 공식 허깅페이스 페이지에서는 이 모델이 Transformers와 vLLM 기반 실행을 지원하며, 데모 페이지를 통해 별도 설치 없이도 기능을 바로 확인할 수 있도록 제공하고 있습니다.
이번 예시에서는 1) 허깅페이스 데모, 2) vLLM 기반 서버 실행, 3) Transformers 기반 로컬 실행으로 나누어 간단히 살펴보겠습니다. 데모 방식은 가장 빠르게 결과를 확인할 수 있는 방법이며, vLLM은 서비스 환경에 적합하고, Transformers는 로컬 개발 및 테스트 환경에서 활용하기 좋습니다.
1. 허깅페이스 데모 페이지로 바로 사용
Cohere Transcribe는 Hugging Face 데모 페이지를 통해 별도 설치 없이 바로 사용할 수 있습니다. 브라우저에서 음성 파일을 업로드하면 즉시 텍스트 변환 결과를 확인할 수 있으며, 모델 성능을 빠르게 테스트해보는 용도로 적합합니다. 이 방식은 별도의 추론 환경을 구성하지 않아도 되기 때문에, 모델의 인식 성능을 간단히 확인하거나 기능을 빠르게 검증하는 데에 유용합니다.
- 특징: 별도 설치 없이 즉시 사용 가능, 브라우저 기반 실행, 빠른 테스트 가능
- 비용: 무료 (데모 환경 기준)
- 활용: 모델 성능 확인, 초기 테스트, 기능 검증
- 경로: https://huggingface.co/spaces/CohereLabs/cohere-transcribe-03-2026
2. vLLM 기반 서버 실행
Cohere Transcribe는 vLLM을 통해 서버 형태로 배포하여 사용할 수 있습니다. 이 방식은 API 형태로 음성 인식 기능을 제공할 수 있어, 실시간 서비스나 대규모 처리 환경에 적합합니다. vLLM 환경에서는 모델을 서버로 띄운 후 요청 기반으로 음성 데이터를 처리할 수 있으며, 높은 처리량과 안정적인 응답 속도를 요구하는 서비스에 활용할 수 있습니다.
- 특징: 서버 기반 API 제공, 대량 요청 처리 가능, 실시간 서비스 적합
- 비용: 서버 및 GPU 자원 기준
- 사용 환경: Linux 기반 GPU 서버 환경 권장 (클라우드/온프레미스)
- 활용: 음성 인식 API 구축, 서비스 백엔드 연동, 실시간 처리 시스템
- 경로: https://huggingface.co/CohereLabs/cohere-transcribe-03-2026/tree/main (Cohere 허깅페이스)
3. Transformers 기반 로컬 실행
Cohere Transcribe는 Transformers 라이브러리를 통해 로컬 환경에서 직접 실행할 수 있습니다. 음성 파일을 입력으로 받아 텍스트를 생성하는 방식으로, 개발 환경에서 테스트하거나 기능을 직접 구현할 때 활용할 수 있습니다. 이 방식은 로컬 GPU 또는 CPU 환경에서 실행 가능하며, 모델 동작을 세밀하게 제어하거나 후처리 로직을 함께 구성할 수 있다는 장점이 있습니다.
- 특징: 로컬 실행 가능, 개발 환경 통합 용이, 세부 제어 가능
- 비용: 로컬 GPU/CPU 자원 기준
- 사용 환경: Windows / Linux / macOS (GPU 환경 권장)
- 활용: 기능 테스트, 프로토타입 개발, 개인 프로젝트 및 연구 환경
- 경로: https://huggingface.co/CohereLabs/cohere-transcribe-03-2026/tree/main (Cohere 허깅페이스)
[패키지 설치]
로컬 환경에서 모델을 실행하기 위해서는 Transformers 패키지 설치와 Cohere Transcribe 모델 다운로드가 필요합니다. 해당 모델은 위 경로를 통해 다운로드하고, 패키지는 Windows PowerShell에서 아래 명령어를 통해 설치할 수 있습니다.
# Windows PowerShell
pip install transformers>=5.4.0 librosa accelerate
pip install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu126
[간단한 예시 코드 ]
from transformers import AutoProcessor, CohereAsrForConditionalGeneration
from transformers.audio_utils import load_audio
import torch
# 1. 설정: 모델 경로와 테스트할 파일 경로 입력
model_local_path = "Path/to/Cohere/cohere-transcribe-03-2026" # 모델 폴더 경로
test_audio_path = "Path/to/test_audio/haha_part1.mp3" # 테스트할 한국어 음성 파일명
# 2. 모델 및 프로세서 로드
processor = AutoProcessor.from_pretrained(model_local_path)
model = CohereAsrForConditionalGeneration.from_pretrained(
model_local_path,
device_map="auto",
torch_dtype=torch.float16
)
# 3. 로컬 음성 파일 로드 및 전처리
audio = load_audio(test_audio_path, sampling_rate=16000)
# 한국어(ko) 설정을 명시적으로 추가합니다.
inputs = processor(audio, sampling_rate=16000, return_tensors="pt", language="ko")
inputs = inputs.to(model.device, dtype=model.dtype)
# 4. 텍스트 생성 (추론)
with torch.no_grad():
outputs = model.generate(**inputs, max_new_tokens=448)
# 5. 결과 출력
transcription = processor.decode(outputs[0], skip_special_tokens=True)
print("\n" + "="*40)
print(f"입력 파일: {test_audio_path}")
print(f"전사 결과: {transcription}")
print("="*40)
[실행 결과]
Cohere Transcribe 모델을 실행했을 때, 모델 로드에는 약 1분 40초 정도가 소요되었습니다. 이후 음성 파일 전사는 약 1~2초 내외로 완료되었으며, 이 과정에서 약 5.3GB의 VRAM이 사용되었습니다. 전반적으로 매우 빠른 처리 속도를 보였으며, 전사 결과 또한 높은 정확도를 확인할 수 있었습니다. 테스트에는 연예인 하하님의 음성을 활용하여 실제 전사 성능을 확인했습니다.
사용된 음성 파일은 다음과 같습니다.
[전사 결과]

전사 결과 일부 단어에서 작은 오류가 확인되었으나, 전체적인 문맥과 내용은 대부분 정확하게 인식되었습니다. 예를 들어 “저 하하입니다.”가 “저하입니다.”로 인식되었고, “넘게”가 “넉게”로 변환된 부분이 있었습니다. 실제 음성 파일을 들어보면 해당 구간의 발음이 비교적 작거나 명확하지 않게 들리는 부분이 있어, 이러한 인식 오류가 발생한 것으로 볼 수 있습니다. 전체적인 결과를 기준으로 보면, 현재까지 확인된 ASR 모델 중에서도 한국어 인식 성능이 높은 수준으로 생각됩니다.
Cohere Transcribe는 음성 데이터를 텍스트로 변환하는 ASR 모델로서, 낮은 오류율 기반의 안정적인 인식 성능과 빠른 처리 속도를 함께 고려한 구조를 갖추고 있습니다. 특히 다양한 벤치마크 환경에서 경쟁력 있는 결과를 보이며, 실제 회의나 강연과 같은 실사용 상황에서도 적용 가능한 수준의 성능을 확인할 수 있습니다. 또한 Apache 2.0 라이선스를 기반으로 상업적 활용까지 허용된다는 점에서, 개발부터 서비스 적용까지 폭넓은 활용이 가능한 모델입니다.
직접 음성 데이터를 활용해 전사 결과를 확인해보고, 다양한 환경에서의 인식 성능을 비교해보는 것도 좋은 방법입니다. 실제 사용 환경에 적용해보며 성능을 체감해보시기를 권장드립니다.
감사합니다. 😊
'AI 소식 > 오픈소스 AI 모델' 카테고리의 다른 글
| [오픈소스 AI] GLM-5.1 모델 소개 | 코딩·에이전트 AI 성능, 비용, 간단한 사용 예시 (1) | 2026.04.14 |
|---|---|
| [오픈소스 AI] 구글 Gemma 4 공개: 멀티모달·온디바이스 모델 정리 (0) | 2026.04.03 |
| [오픈소스 AI] Z.AI에서 공개한 OCR 모델, GLM-OCR을 소개합니다. (0) | 2026.03.26 |
| [오픈소스 AI] S2-Pro TTS 모델 소개 – 감정 표현·Voice Cloning 지원 음성 생성 AI (0) | 2026.03.19 |
| [오픈소스 AI] Hume AI Tada TTS 모델 소개 | Text-to-Speech 성능 및 사용법 (0) | 2026.03.18 |
