안녕하세요,
최근 중국 알리바바가 또 한 번 주목할 만한 인공지능 모델을 공개했습니다. 이번에 발표된 Qwen3-Omni 모델은 단순히 텍스트만 이해하는 기존 언어 모델을 넘어, 오디오·이미지·비디오까지 입력받아 종합적으로 이해하고 답변할 수 있는 멀티모달 AI 모델입니다. 특히 명령 수행, 단계별 추론, 오디오 이해와 캡셔닝 등 다양한 기능을 하나의 모델에서 처리할 수 있어 연구·개발뿐 아니라 실무 서비스에도 활용 가치가 높습니다.
이번 포스팅에서는 Qwen3-Omni 모델의 주요 특징과 세부 버전(Instruct, Thinking, Captioner), 그리고 경쟁 모델과의 벤치마크 비교까지 차근차근 살펴보겠습니다.
Qwen3-Omni-30B-A3B
2025년 9월 22일, Alibaba Tongyi Qianwen 팀은 최신 멀티모달 언어 모델 Qwen3-Omni-30B-A3B를 공개했습니다. 모델명에 담긴 “Omni”라는 이름처럼 텍스트, 이미지, 오디오, 비디오를 모두 처리할 수 있는 통합형 모델로 설계되었습니다. 이 모델은 Thinker–Talker 구조를 기반으로 텍스트 우선 사전 학습과 멀티모달 혼합 학습을 병행해 다양한 매체를 유기적으로 이해하고 생성할 수 있는 능력을 갖추고 있습니다. 특히 Instruct 버전은 사용자의 지시를 정교하게 따르며, 텍스트와 오디오 출력을 동시에 생성할 수 있는 점이 특징입니다.
- Qwen3-Omni 공식 블로그 : https://qwen.ai/blog?id=65f766fc2dcba7905c1cb69cc4cab90e94126bf4&from=research.latest-advancements-list
Qwen
qwen.ai
[모델 정보 요약]
항목 | 모델명 | ||
버전 | Qwen3-Omni-30B-A3B- Instruct |
Qwen3-Omni-30B-A3B- Thinking |
Qwen3-Omni-30B-A3B- Captioner |
파라미터 수 | 활성 파라미터 3B / 전체 파라미터 30B | ||
개발사 | Alibaba Cloud | ||
언어지원 | 119개 텍스트 언어, 19개 음성 입력 언어, 10개 음성 출력 언어 지원 (한국어 포함) | ||
입력값 | 텍스트 / 이미지 / 오디오 / 비디오 | 텍스트 / 이미지 / 오디오 / 비디오 | 오디오 |
출력값 | 텍스트 / 음성 | 텍스트 | 텍스트 |
특징 | 1) 텍스트·오디오·비디오 입력 처리 2) 텍스트·음성 출력 지원, 실시간 명령·대화 수행 3) Thinker+Talker 구조 |
1) 텍스트 중심 단계별 추론 2) 복잡한 논리·플래닝 문제 해결 3) Chain-of-Thought reasoning 특화 |
1) 오디오 정밀 캡션·설명, 환각 최소화 2) 소리 분석·무음 감지·음악 특징 파악 특화 |
라이선스 | Apache-2.0 | Apache-2.0 | Apache-2.0 |
모델 경로 (허깅페이스) |
https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct/tree/main | https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Thinking/tree/main | https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Captioner/tree/main |
주요 특징
- 멀티모달 통합 처리 : 텍스트, 이미지, 오디오, 비디오 입력을 모두 지원하며, 텍스트와 음성 출력까지 가능한 완전한 멀티모달 모델입니다.
- Thinker–Talker 아키텍처 : Thinker(추론)와 Talker(발화) 구조를 통해 단계별 사고(Chain-of-Thought) 추론부터 실시간 음성 응답까지 유연하게 처리할 수 있습니다.
- 강력한 추론 및 플래닝 능력 : 복잡한 논리 연산, 다중 단계 추론, 수리·계획 문제 해결에 특화되어 고난도 reasoning 태스크에 강점을 보입니다.
- 정교한 오디오 이해와 캡셔닝 : 오디오 입력에 대한 세부 묘사, 소리·음악 분석, 무음 감지 등을 높은 정확도로 수행하며, 잘못된 생성(환각)을 최소화합니다.
- 실시간 대화·명령 수행 지원 : 사용자 지시를 즉시 반영하는 실시간 스트리밍 응답을 제공하여 인터랙티브한 사용 경험을 지원합니다.
- 광범위한 언어 지원 : 119개 텍스트 언어, 19개 음성 입력 언어, 10개 음성 출력 언어를 지원하며 한국어 포함 다국어 환경에 적합합니다.
- 대규모 30B 파라미터 MoE 모델 : 활성 파라미터 3B 규모로 동작해 효율성을 확보하면서도, 전체 30B 파라미터의 표현력을 활용할 수 있습니다.
벤치마크 성능
Qwen3-Omni-30B-A3B는 텍스트·오디오·이미지·비디오 전 영역에서 우수한 멀티모달 성능을 보여주며, 특히 오디오 이해(MMALU-v0.5), 음성 생성(MiniMax-avg), 비디오 이해(MLVU)에서 경쟁 모델 대비 높은 점수를 기록했습니다. GPT-4o와 Gemini 2.5 Flash와 비교했을 때 전반적으로 더 높은 멀티모달 처리 능력을 보여줍니다.
벤치마크 | Qwen3-Omni-30B-A3B | GPT-4o | Gemini 2.5 Flash |
텍스트 (WritingBench) | 82.6 | 75.5 | 80.5 |
오디오 (VoiceBench) | 90.8 | 89.8 | 88.4 |
오디오 (MMALU-v0.5) | 77.5 | 62.5 | 65.7 |
음성 생성 (MiniMax-avg) | 1.9058 | 2.98 | – |
이미지 (MMMU-pro) | 57.0 | 51.9 | 56.1 |
비디오 (MLVU) | 75.2 | 64.6 | 71.0 |
- 음성 생성 (MiniMax-avg) 점수는 낮을수록 더 우수한 성능을 의미
출처
Qwen3-Omni 공식 블로그 : https://qwen.ai/blog?id=65f766fc2dcba7905c1cb69cc4cab90e94126bf4&from=research.latest-advancements-list
라이선스
Qwen3-Omni-30B-A3B 모델은 Apache-2.0 라이선스로 공개되어 있습니다. Apache-2.0은 대표적인 오픈소스 라이선스로, 아래와 같은 특징을 가집니다.
- 상업적 사용 가능 – 기업·개인 프로젝트, 상업 서비스, SaaS 등 다양한 상업적 환경에서 자유롭게 활용할 수 있습니다.
- 변경 및 재배포 허용 – 모델 파라미터를 수정하거나 파생 모델을 학습시켜 재배포할 수 있으며, 이를 상업적 용도로 사용할 수도 있습니다.
- 명시적 라이선스 고지 필요 – 배포 시 원본 라이선스와 저작권 고지를 유지해야 하며, 변경 사항이 있을 경우 명시해야 합니다.
- 보증 책임 없음 – Apache-2.0은 모델에 대한 보증을 제공하지 않으며, 사용에 따른 책임은 사용자에게 있습니다.
즉, Qwen3-Omni-30B-A3B는 상업 프로젝트에도 바로 적용할 수 있는 모델이며, 커스터마이징 및 2차 저작물 제작에도 제약이 적어 기업 환경에서 활용하기 적합합니다.
간단히 사용해보기
Qwen3-Omni-30B-A3B 모델은 오픈소스로 공개되어 있지만, 모델 크기가 약 63~70 GB에 달해 개인 로컬 PC에서 직접 실행하기에는 다소 부담이 있습니다. 다만, 간단히 체험할 수 있는 데모 환경이 제공되어 손쉽게 테스트할 수 있습니다.
- Qwen3-Omni-30B-A3B-Captioner 모델은 허깅페이스 스페이스에서 직접 체험할 수 있습니다.
- 전체 모델의 공식 데모는 없지만, Qwen3-Omni-Flash라는 경량화 모델이 Qwen 플랫폼에서 제공되어 웹 환경에서 가볍게 테스트할 수 있습니다.
Qwen3-Omni-30B-A3B는 텍스트, 오디오, 이미지, 비디오를 모두 아우르는 멀티모달 AI 모델로, 명령 수행부터 복잡한 추론, 오디오 이해와 캡셔닝까지 폭넓은 기능을 제공합니다. 오픈소스로 공개되어 상업적 활용이 가능하며, 연구·개발·서비스 구축 등 다양한 영역에서 활용할 잠재력을 지니고 있습니다.
앞으로 Qwen 팀이 선보일 차세대 멀티모달 모델과 기능 확장이 더욱 기대되며, 이러한 발전이 다양한 프로젝트와 서비스 혁신으로 이어질 것으로 보입니다.
감사합니다. 😊
'AI 소식 > 오픈소스 AI 모델' 카테고리의 다른 글
[오픈소스 AI] 알리바바 최신 언어 모델 Qwen3-Next 공개 – 학습비용 90% 절감, 추론 속도 10배↑ (1) | 2025.09.24 |
---|---|
[오픈소스 AI] 맥북에서 실행 가능한 초경량 LLM – Qwen3-4B-MLX-4bit 모델을 소개합니다. (0) | 2025.09.22 |
AI 에이전트 최적화 모델, GUI-Owl 소개|오픈소스 VLM (1) | 2025.09.11 |
[음성 생성 AI] 마이크로소프트 VibeVoice TTS 모델 소개 및 사용 가이드 (ComfyUI 활용) (4) | 2025.09.09 |
[오픈소스 AI] 야놀자, 한국어 번역 특화 AI 모델 EEVE-Rosetta-4B 공개 | 로컬 실행 가이드 (2) | 2025.09.03 |