[오픈소스 AI] 멀티모달 AI 끝판왕? Qwen3-Omni-30B-A3B 기능·성능 총정리

안녕하세요,

최근 중국 알리바바가 또 한 번 주목할 만한 인공지능 모델을 공개했습니다. 이번에 발표된 Qwen3-Omni 모델은 단순히 텍스트만 이해하는 기존 언어 모델을 넘어, 오디오·이미지·비디오까지 입력받아 종합적으로 이해하고 답변할 수 있는 멀티모달 AI 모델입니다. 특히 명령 수행, 단계별 추론, 오디오 이해와 캡셔닝 등 다양한 기능을 하나의 모델에서 처리할 수 있어 연구·개발뿐 아니라 실무 서비스에도 활용 가치가 높습니다.

이번 포스팅에서는 Qwen3-Omni 모델의 주요 특징과 세부 버전(Instruct, Thinking, Captioner), 그리고 경쟁 모델과의 벤치마크 비교까지 차근차근 살펴보겠습니다.

Qwen3-Omni-30B-A3B

2025년 9월 22일, Alibaba Tongyi Qianwen 팀은 최신 멀티모달 언어 모델 Qwen3-Omni-30B-A3B를 공개했습니다. 모델명에 담긴 “Omni”라는 이름처럼 텍스트, 이미지, 오디오, 비디오를 모두 처리할 수 있는 통합형 모델로 설계되었습니다. 이 모델은 Thinker–Talker 구조를 기반으로 텍스트 우선 사전 학습과 멀티모달 혼합 학습을 병행해 다양한 매체를 유기적으로 이해하고 생성할 수 있는 능력을 갖추고 있습니다. 특히 Instruct 버전은 사용자의 지시를 정교하게 따르며, 텍스트와 오디오 출력을 동시에 생성할 수 있는 점이 특징입니다.

Qwen3-Omni 공식 블로그 : https://qwen.ai/blog?id=65f766fc2dcba7905c1cb69cc4cab90e94126bf4&from=research.latest-advancements-list

Qwen

qwen.ai

[모델 정보 요약]

항목	모델명
버전	Qwen3-Omni-30B-A3B- Instruct	Qwen3-Omni-30B-A3B- Thinking	Qwen3-Omni-30B-A3B- Captioner
파라미터 수	활성 파라미터 3B / 전체 파라미터 30B
개발사	Alibaba Cloud
언어지원	119개 텍스트 언어, 19개 음성 입력 언어, 10개 음성 출력 언어 지원 (한국어 포함)
입력값	텍스트 / 이미지 / 오디오 / 비디오	텍스트 / 이미지 / 오디오 / 비디오	오디오
출력값	텍스트 / 음성	텍스트	텍스트
특징	1) 텍스트·오디오·비디오 입력 처리 2) 텍스트·음성 출력 지원, 실시간 명령·대화 수행 3) Thinker+Talker 구조	1) 텍스트 중심 단계별 추론 2) 복잡한 논리·플래닝 문제 해결 3) Chain-of-Thought reasoning 특화	1) 오디오 정밀 캡션·설명, 환각 최소화 2) 소리 분석·무음 감지·음악 특징 파악 특화
라이선스	Apache-2.0	Apache-2.0	Apache-2.0
모델 경로 (허깅페이스)	https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct/tree/main	https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Thinking/tree/main	https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Captioner/tree/main

주요 특징

멀티모달 통합 처리 : 텍스트, 이미지, 오디오, 비디오 입력을 모두 지원하며, 텍스트와 음성 출력까지 가능한 완전한 멀티모달 모델입니다.
Thinker–Talker 아키텍처 : Thinker(추론)와 Talker(발화) 구조를 통해 단계별 사고(Chain-of-Thought) 추론부터 실시간 음성 응답까지 유연하게 처리할 수 있습니다.
강력한 추론 및 플래닝 능력 : 복잡한 논리 연산, 다중 단계 추론, 수리·계획 문제 해결에 특화되어 고난도 reasoning 태스크에 강점을 보입니다.
정교한 오디오 이해와 캡셔닝 : 오디오 입력에 대한 세부 묘사, 소리·음악 분석, 무음 감지 등을 높은 정확도로 수행하며, 잘못된 생성(환각)을 최소화합니다.
실시간 대화·명령 수행 지원 : 사용자 지시를 즉시 반영하는 실시간 스트리밍 응답을 제공하여 인터랙티브한 사용 경험을 지원합니다.
광범위한 언어 지원 : 119개 텍스트 언어, 19개 음성 입력 언어, 10개 음성 출력 언어를 지원하며 한국어 포함 다국어 환경에 적합합니다.
대규모 30B 파라미터 MoE 모델 : 활성 파라미터 3B 규모로 동작해 효율성을 확보하면서도, 전체 30B 파라미터의 표현력을 활용할 수 있습니다.

벤치마크 성능

Qwen3-Omni-30B-A3B는 텍스트·오디오·이미지·비디오 전 영역에서 우수한 멀티모달 성능을 보여주며, 특히 오디오 이해(MMALU-v0.5), 음성 생성(MiniMax-avg), 비디오 이해(MLVU)에서 경쟁 모델 대비 높은 점수를 기록했습니다. GPT-4o와 Gemini 2.5 Flash와 비교했을 때 전반적으로 더 높은 멀티모달 처리 능력을 보여줍니다.

벤치마크	Qwen3-Omni-30B-A3B	GPT-4o	Gemini 2.5 Flash
텍스트 (WritingBench)	82.6	75.5	80.5
오디오 (VoiceBench)	90.8	89.8	88.4
오디오 (MMALU-v0.5)	77.5	62.5	65.7
음성 생성 (MiniMax-avg)	1.9058	2.98	–
이미지 (MMMU-pro)	57.0	51.9	56.1
비디오 (MLVU)	75.2	64.6	71.0

음성 생성 (MiniMax-avg) 점수는 낮을수록 더 우수한 성능을 의미

출처
Qwen3-Omni 공식 블로그 : https://qwen.ai/blog?id=65f766fc2dcba7905c1cb69cc4cab90e94126bf4&from=research.latest-advancements-list

라이선스

Qwen3-Omni-30B-A3B 모델은 Apache-2.0 라이선스로 공개되어 있습니다. Apache-2.0은 대표적인 오픈소스 라이선스로, 아래와 같은 특징을 가집니다.

상업적 사용 가능 – 기업·개인 프로젝트, 상업 서비스, SaaS 등 다양한 상업적 환경에서 자유롭게 활용할 수 있습니다.
변경 및 재배포 허용 – 모델 파라미터를 수정하거나 파생 모델을 학습시켜 재배포할 수 있으며, 이를 상업적 용도로 사용할 수도 있습니다.
명시적 라이선스 고지 필요 – 배포 시 원본 라이선스와 저작권 고지를 유지해야 하며, 변경 사항이 있을 경우 명시해야 합니다.
보증 책임 없음 – Apache-2.0은 모델에 대한 보증을 제공하지 않으며, 사용에 따른 책임은 사용자에게 있습니다.

즉, Qwen3-Omni-30B-A3B는 상업 프로젝트에도 바로 적용할 수 있는 모델이며, 커스터마이징 및 2차 저작물 제작에도 제약이 적어 기업 환경에서 활용하기 적합합니다.

간단히 사용해보기

Qwen3-Omni-30B-A3B 모델은 오픈소스로 공개되어 있지만, 모델 크기가 약 63~70 GB에 달해 개인 로컬 PC에서 직접 실행하기에는 다소 부담이 있습니다. 다만, 간단히 체험할 수 있는 데모 환경이 제공되어 손쉽게 테스트할 수 있습니다.

Qwen3-Omni-30B-A3B-Captioner 모델은 허깅페이스 스페이스에서 직접 체험할 수 있습니다.
전체 모델의 공식 데모는 없지만, Qwen3-Omni-Flash라는 경량화 모델이 Qwen 플랫폼에서 제공되어 웹 환경에서 가볍게 테스트할 수 있습니다.

Qwen3-Omni-30B-A3B는 텍스트, 오디오, 이미지, 비디오를 모두 아우르는 멀티모달 AI 모델로, 명령 수행부터 복잡한 추론, 오디오 이해와 캡셔닝까지 폭넓은 기능을 제공합니다. 오픈소스로 공개되어 상업적 활용이 가능하며, 연구·개발·서비스 구축 등 다양한 영역에서 활용할 잠재력을 지니고 있습니다.

앞으로 Qwen 팀이 선보일 차세대 멀티모달 모델과 기능 확장이 더욱 기대되며, 이러한 발전이 다양한 프로젝트와 서비스 혁신으로 이어질 것으로 보입니다.

감사합니다. 😊

저작자표시 비영리 변경금지 (새창열림)

'AI 소식 > 오픈소스 AI 모델' 카테고리의 다른 글

[오픈소스 AI] 알리바바 최신 언어 모델 Qwen3-Next 공개 – 학습비용 90% 절감, 추론 속도 10배↑ (1)	2025.09.24
[오픈소스 AI] 맥북에서 실행 가능한 초경량 LLM – Qwen3-4B-MLX-4bit 모델을 소개합니다. (0)	2025.09.22
AI 에이전트 최적화 모델, GUI-Owl 소개｜오픈소스 VLM (1)	2025.09.11
[음성 생성 AI] 마이크로소프트 VibeVoice TTS 모델 소개 및 사용 가이드 (ComfyUI 활용) (4)	2025.09.09
[오픈소스 AI] 야놀자, 한국어 번역 특화 AI 모델 EEVE-Rosetta-4B 공개 \| 로컬 실행 가이드 (2)	2025.09.03

Marcus' Stroy

[오픈소스 AI] 멀티모달 AI 끝판왕? Qwen3-Omni-30B-A3B 기능·성능 총정리

Qwen3-Omni-30B-A3B

주요 특징

벤치마크 성능

라이선스

간단히 사용해보기

'AI 소식 > 오픈소스 AI 모델' 카테고리의 다른 글

티스토리툴바

[오픈소스 AI] 멀티모달 AI 끝판왕? Qwen3-Omni-30B-A3B 기능·성능 총정리

Qwen3-Omni-30B-A3B

주요 특징

벤치마크 성능

라이선스

간단히 사용해보기

'AI 소식 > 오픈소스 AI 모델' 카테고리의 다른 글

'AI 소식/오픈소스 AI 모델' Related Articles

티스토리툴바