본문 바로가기

AI 소식/오픈소스 AI 모델

엔비디아 오디오 AI 모델 공개 - Audio Flamingo 3와 Canary-Qwen-2.5B 비교 | 오픈소스 AI | 오디오 AI

안녕하세요,

AI 기술이 비약적으로 발전하면서, 이제는 텍스트를 넘어 소리를 이해하고 분석하는 '오디오 AI'의 시대가 열리고 있습니다. 이 기술 혁신의 중심에 있는 엔비디아(NVIDIA)가 최근 두 가지 강력한 오픈소스 오디오 AI 모델, 'Audio Flamingo 3'와 'Canary-Qwen-2.5B'를 공개했습니다. 하나는 소리의 의미를 깊이 있게 파악하는 '오디오 지능'에, 다른 하나는 압도적인 정확도로 음성을 텍스트로 변환하는 데에 초점을 맞추고 있습니다. 이 두 모델이 무엇이며, 어떤 차이가 있는지, 그리고 어떻게 활용할 수 있는지 알아보겠습니다.


반응형

엔비디아의 오디오 AI 모델

엔비디아(NVIDIA)는 2025년 7월, 불과 일주일 간격으로 두 가지의 혁신적인 오디오 AI 모델을 연이어 오픈소스로 공개하였습니다. 7월 10일에 'Audio Flamingo 3 (AF3)' 를, 바로 뒤이어 17일에는 'Canary-Qwen-2.5B' 모델을 선보였습니다. 이 두 모델은 모두 소리를 이해하고 처리하는 최신 AI 기술의 집약체라는 공통점을 가지고 있으며, 엔비디아의 오디오 AI 기술 리더십을 다시 한번 증명하는 계기가 되었습니다.

 

 

각 모델 주요 특징

[AUDIO-FLAMINGO-3] - 다재다능한 오디오 지능

Audio Flamingo 3는 단순히 음성을 텍스트로 바꾸는 것을 넘어, 오디오 자체의 의미를 깊이 이해하고 추론하는 데 초점을 맞춘 모델입니다.

  • 다중 모드 오디오 이해: 사람의 말소리뿐만 아니라, 새소리, 자동차 소리 같은 일반적인 소리와 음악까지 이해하고 분석할 수 있습니다. 예를 들어, "이 오디오에서 들리는 새의 종류는 무엇인가?" 또는 "이 음악의 장르와 분위기를 설명해 줘"와 같은 질문에 답할 수 있습니다.
  • 긴 문맥 처리 및 추론: 최대 10분 길이의 오디오를 한 번에 처리하고, 오디오 내용에 대해 깊이 있는 추론이 가능합니다. "연쇄적 사고(Chain-of-Thought)" 기능을 통해 복잡한 질문에 대해 논리적인 단계를 거쳐 답변을 생성할 수 있습니다.
  • 오디오 대화: 여러 개의 오디오 파일을 입력받아, 그 내용들을 종합하여 대화하는 능력을 갖추고 있습니다.

 

 

[CANARY-QWEN-2.5B] - 최고의 영어 받아쓰기 전문가

Canary-Qwen-2.5B는 영어 음성을 텍스트로 변환(Automatic Speech Recognition, ASR)하는 작업에 고도로 특화된 모델입니다.

  • 최고 수준의 정확도: Hugging Face의 공개 ASR 리더보드에서 가장 낮은 단어 오류율(WER, Word Error Rate)을 기록하며, 현재 공개된 모델 중 가장 정확한 영어 음성 인식을 자랑합니다.
  • 두 가지 작동 모드:
    1. ASR 모드: 오디오를 텍스트로 빠르고 정확하게 변환합니다.
    2. LLM 모드: 변환된 텍스트를 기반으로 요약, 질문 답변 등 추가적인 언어 작업을 수행합니다. 오디오 자체를 다시 분석하는 것이 아니라, 텍스트화된 결과를 활용합니다.
  • 빠른 속도와 상업적 활용: 높은 정확도에도 불구하고 빠른 추론 속도를 보여주어 실시간 서비스에 적용하기 용이합니다. 또한, 상업적으로 사용 가능한 라이선스를 가지고 있어 기업 환경에서 활용하기 좋습니다.
Audio Flamingo 3 : 소리, 음악, 말을 모두 이해하여 깊이 있는 분석을 제공하는 '오디오 지능 연구원' 입니다. 연구, 콘텐츠 분석, 오디오 기반 질의응답 등 오디오의 '의미'를 파악하는 것이 중요한 분야에 적합한 종합 오디오 이해 모델입니다.
Canary-Qwen-2.5B : 타의 추종을 불허하는 정확도로 영어를 받아쓰는 '최고의 ASR 전문가' 입니다. 실시간 통화 내용 기록, 회의록 작성, 영상 자막 생성 등 정확하고 빠른 영어 텍스트 변환이 핵심인 서비스에 최적화된 전문 ASR 모델입니다.

 

 

모델 비교 요약

구분 Audio Flamingo 3 (오디오 박사) Canary-Qwen-2.5B (영어 받아쓰기 전문가)
모델 종류 대규모 오디오-언어 모델 (LALM) 하이브리드 자동 음성 인식 (ASR) + LLM
핵심 기능 다양한 오디오(음성, 소리, 음악)의 의미 이해 및 추론 영어 음성의 정확하고 빠른 텍스트 변환
처리 대상 🗣️ 음성, 🎵 음악, 🔊 일반 소리 등 모든 오디오 🗣️ 영어 음성
특장점 - 최대 10분 길이의 긴 오디오 컨텍스트 파악
- 복잡한 추론 (Chain-of-Thought)
- 여러 오디오를 활용한 대화형 분석
- 세계 최고 수준의 낮은 단어 오류율(WER)
- 빠른 추론 속도로 실시간 처리에 유리
언어 지원 다국어 지원 가능 (학습 기반) 영어에 고도로 최적화
라이선스 비상업용 (연구 및 개발 목적) 상업용 (CC-BY)

 


사용 방법

두 모델 모두 오픈소스로 공개되어 있어 허깅페이스에서 직접 모델을 다운로드하여 사용할 수 있습니다. 이번 포스팅에서는 그중 Canary-Qwen-2.5B 모델을 간단히 테스트해보겠습니다.

 

Canary-Qwen-2.5B 실행

[모델 다운로드]

아래 허깅페이스에서 Canary-Qwen-2.5B 모델을 다운로드 합니다.

 

[패키지 설치]

아래 명령어를 통해 Canary-Qwen-2.5B 모델을 실행하는 데 필요한 패키지를 설치합니다.

# Windows PowerShell
pip install "nemo_toolkit[asr] @ git+https://github.com/NVIDIA/NeMo.git"
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu126
pip install sacrebleu

 

[코드 작성]

다음 코드를 작성하여 모델을 실행합니다.

# Python
from nemo.collections.speechlm2.models import SALM

# 로컬 경로에서 모델 로드
model_path = 'Path/to/canary-qwen-2.5b'  # canary-qwen-2.5b (사용자 환경에 맞게 수정)
model = SALM.from_pretrained(model_path)

# 오디오 경로 지정 및 프롬프트 구성
audio_file = 'Path/to/sample.wav'  # 테스트 음성 파일 경로 (사용자 환경에 맞게 수정)
prompt = [{
    "role": "user",
    "content": f"Transcribe the following: {model.audio_locator_tag}",
    "audio": [audio_file],
}]

answer_ids = model.generate(
    prompts=[prompt],
    max_new_tokens=128
)

print(model.tokenizer.ids_to_text(answer_ids[0].cpu()))

 

[결과]

약 25초 분량의 음성 파일을 활용해 테스트를 진행하였습니다. 모델 로딩이 완료된 이후, 음성을 텍스트로 전사하는 데에는 10초 미만의 시간이 소요되었으며, 실행 환경은 GPU가 아닌 CPU였습니다. 전사된 내용은 실제 음성과 비교해도 높은 정확도를 보여주었으며, 테스트에 사용된 음성은 미국 배우 덴젤 워싱턴의 연설 장면 중 일부입니다.

 

아래에는 테스트에 사용된 음성 파일과 전사 결과를 확인할 수 있는 이미지가 함께 포함되어 있습니다.

테스트 음성파일

전사 결과

  • 전사 결과 : How to be a gentle man the Most important person in my life 40 years 40 years of sacrifice 40 years of forgiveness She taught me about faith love real love unwavering love in spite of

 

이번 포스팅에서는 NVIDIA가 공개한 두 가지 오디오 AI 모델, Audio Flamingo 3와 Canary-Qwen-2.5B를 중심으로 살펴보았습니다. Audio Flamingo 3는 소리의 맥락과 의미를 복합적으로 이해하고, 멀티턴 대화까지 수행할 수 있는 범용 오디오 지능으로 발전하고 있습니다. 반면 Canary-Qwen-2.5B는 높은 정밀도와 빠른 처리 속도를 갖춘 전문화된 음성 인식 도구로, 특정 작업에서 최고의 효율을 추구하는 방향성을 보여줍니다. 특히 이번 테스트에서 다룬 Canary-Qwen-2.5B는 CPU 환경에서도 빠른 속도와 우수한 정확도를 입증하였으며, 실용성과 접근성 면에서 매우 인상적인 성능을 보였습니다.

 

한편, 최근에는 국내에서도 다양한 한국형 AI 모델들이 활발히 개발되고 있습니다. 자연어 처리 중심의 대형 언어 모델뿐 아니라, 이번 NVIDIA의 모델처럼 한국어 음성을 정밀하게 인식하고 이해할 수 있는 오디오 AI 모델 또한 함께 발전해나가기를 기대해봅니다.
한국어 음성 인식과 멀티모달 추론이 가능한 오픈소스 모델이 등장한다면, 국내 산업과 연구 환경 전반에서 AI의 활용 범위는 더욱 넓어질 것입니다.

 

감사합니다. 😊

 

반응형