본문 바로가기

AI 소식/오픈소스 AI 모델

[오픈소스 AI] 멀티모달 AI 끝판왕? Qwen3-Omni-30B-A3B 기능·성능 총정리

안녕하세요,

최근 중국 알리바바가 또 한 번 주목할 만한 인공지능 모델을 공개했습니다. 이번에 발표된 Qwen3-Omni 모델은 단순히 텍스트만 이해하는 기존 언어 모델을 넘어, 오디오·이미지·비디오까지 입력받아 종합적으로 이해하고 답변할 수 있는 멀티모달 AI 모델입니다. 특히 명령 수행, 단계별 추론, 오디오 이해와 캡셔닝 등 다양한 기능을 하나의 모델에서 처리할 수 있어 연구·개발뿐 아니라 실무 서비스에도 활용 가치가 높습니다.

이번 포스팅에서는 Qwen3-Omni 모델의 주요 특징과 세부 버전(Instruct, Thinking, Captioner), 그리고 경쟁 모델과의 벤치마크 비교까지 차근차근 살펴보겠습니다.


반응형

Qwen3-Omni-30B-A3B

2025년 9월 22일, Alibaba Tongyi Qianwen 팀은 최신 멀티모달 언어 모델 Qwen3-Omni-30B-A3B를 공개했습니다. 모델명에 담긴 “Omni”라는 이름처럼 텍스트, 이미지, 오디오, 비디오를 모두 처리할 수 있는 통합형 모델로 설계되었습니다. 이 모델은 Thinker–Talker 구조를 기반으로 텍스트 우선 사전 학습과 멀티모달 혼합 학습을 병행해 다양한 매체를 유기적으로 이해하고 생성할 수 있는 능력을 갖추고 있습니다. 특히 Instruct 버전은 사용자의 지시를 정교하게 따르며, 텍스트와 오디오 출력을 동시에 생성할 수 있는 점이 특징입니다.

 

 

Qwen

 

qwen.ai

 

[모델 정보 요약]

항목 모델명
버전 Qwen3-Omni-30B-A3B-
Instruct
Qwen3-Omni-30B-A3B-
Thinking
Qwen3-Omni-30B-A3B-
Captioner
파라미터 수 활성 파라미터 3B / 전체 파라미터 30B
개발사 Alibaba Cloud
언어지원 119개 텍스트 언어, 19개 음성 입력 언어, 10개 음성 출력 언어 지원 (한국어 포함)
입력값 텍스트 / 이미지 / 오디오 / 비디오 텍스트 / 이미지 / 오디오 / 비디오 오디오
출력값 텍스트 / 음성 텍스트 텍스트
특징 1) 텍스트·오디오·비디오 입력 처리
2) 텍스트·음성 출력 지원, 실시간 명령·대화 수행
3) Thinker+Talker 구조
1) 텍스트 중심 단계별 추론
2) 복잡한 논리·플래닝 문제 해결
3) Chain-of-Thought reasoning 특화
1) 오디오 정밀 캡션·설명, 환각 최소화
2) 소리 분석·무음 감지·음악 특징 파악 특화
라이선스 Apache-2.0 Apache-2.0 Apache-2.0
모델 경로
(허깅페이스)
https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct/tree/main https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Thinking/tree/main https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Captioner/tree/main

 

 

주요 특징

  • 멀티모달 통합 처리 : 텍스트, 이미지, 오디오, 비디오 입력을 모두 지원하며, 텍스트와 음성 출력까지 가능한 완전한 멀티모달 모델입니다.
  • Thinker–Talker 아키텍처 : Thinker(추론)와 Talker(발화) 구조를 통해 단계별 사고(Chain-of-Thought) 추론부터 실시간 음성 응답까지 유연하게 처리할 수 있습니다.
  • 강력한 추론 및 플래닝 능력 : 복잡한 논리 연산, 다중 단계 추론, 수리·계획 문제 해결에 특화되어 고난도 reasoning 태스크에 강점을 보입니다.
  • 정교한 오디오 이해와 캡셔닝 : 오디오 입력에 대한 세부 묘사, 소리·음악 분석, 무음 감지 등을 높은 정확도로 수행하며, 잘못된 생성(환각)을 최소화합니다.
  • 실시간 대화·명령 수행 지원 : 사용자 지시를 즉시 반영하는 실시간 스트리밍 응답을 제공하여 인터랙티브한 사용 경험을 지원합니다.
  • 광범위한 언어 지원 : 119개 텍스트 언어, 19개 음성 입력 언어, 10개 음성 출력 언어를 지원하며 한국어 포함 다국어 환경에 적합합니다.
  • 대규모 30B 파라미터 MoE 모델 : 활성 파라미터 3B 규모로 동작해 효율성을 확보하면서도, 전체 30B 파라미터의 표현력을 활용할 수 있습니다.

 

 

벤치마크 성능

Qwen3-Omni-30B-A3B는 텍스트·오디오·이미지·비디오 전 영역에서 우수한 멀티모달 성능을 보여주며, 특히 오디오 이해(MMALU-v0.5), 음성 생성(MiniMax-avg), 비디오 이해(MLVU)에서 경쟁 모델 대비 높은 점수를 기록했습니다. GPT-4o와 Gemini 2.5 Flash와 비교했을 때 전반적으로 더 높은 멀티모달 처리 능력을 보여줍니다.

벤치마크 Qwen3-Omni-30B-A3B GPT-4o Gemini 2.5 Flash
텍스트 (WritingBench) 82.6 75.5 80.5
오디오 (VoiceBench) 90.8 89.8 88.4
오디오 (MMALU-v0.5) 77.5 62.5 65.7
음성 생성 (MiniMax-avg) 1.9058 2.98
이미지 (MMMU-pro) 57.0 51.9 56.1
비디오 (MLVU) 75.2 64.6 71.0
  • 음성 생성 (MiniMax-avg) 점수는 낮을수록 더 우수한 성능을 의미
출처
Qwen3-Omni 공식 블로그  : https://qwen.ai/blog?id=65f766fc2dcba7905c1cb69cc4cab90e94126bf4&from=research.latest-advancements-list

 

 

라이선스

Qwen3-Omni-30B-A3B 모델은 Apache-2.0 라이선스로 공개되어 있습니다. Apache-2.0은 대표적인 오픈소스 라이선스로, 아래와 같은 특징을 가집니다.

  • 상업적 사용 가능 – 기업·개인 프로젝트, 상업 서비스, SaaS 등 다양한 상업적 환경에서 자유롭게 활용할 수 있습니다.
  • 변경 및 재배포 허용 – 모델 파라미터를 수정하거나 파생 모델을 학습시켜 재배포할 수 있으며, 이를 상업적 용도로 사용할 수도 있습니다.
  • 명시적 라이선스 고지 필요 – 배포 시 원본 라이선스와 저작권 고지를 유지해야 하며, 변경 사항이 있을 경우 명시해야 합니다.
  • 보증 책임 없음 – Apache-2.0은 모델에 대한 보증을 제공하지 않으며, 사용에 따른 책임은 사용자에게 있습니다.

즉, Qwen3-Omni-30B-A3B는 상업 프로젝트에도 바로 적용할 수 있는 모델이며, 커스터마이징 및 2차 저작물 제작에도 제약이 적어 기업 환경에서 활용하기 적합합니다.

 

 

간단히 사용해보기

Qwen3-Omni-30B-A3B 모델은 오픈소스로 공개되어 있지만, 모델 크기가 약 63~70 GB에 달해 개인 로컬 PC에서 직접 실행하기에는 다소 부담이 있습니다. 다만, 간단히 체험할 수 있는 데모 환경이 제공되어 손쉽게 테스트할 수 있습니다.

  • Qwen3-Omni-30B-A3B-Captioner 모델은 허깅페이스 스페이스에서 직접 체험할 수 있습니다.
  • 전체 모델의 공식 데모는 없지만, Qwen3-Omni-Flash라는 경량화 모델이 Qwen 플랫폼에서 제공되어 웹 환경에서 가볍게 테스트할 수 있습니다.

출처: Qwen 허깅페이스 스페이스 및 플랫폼 (클릭시 이미지 확대)

 


 

Qwen3-Omni-30B-A3B는 텍스트, 오디오, 이미지, 비디오를 모두 아우르는 멀티모달 AI 모델로, 명령 수행부터 복잡한 추론, 오디오 이해와 캡셔닝까지 폭넓은 기능을 제공합니다. 오픈소스로 공개되어 상업적 활용이 가능하며, 연구·개발·서비스 구축 등 다양한 영역에서 활용할 잠재력을 지니고 있습니다.

 

앞으로 Qwen 팀이 선보일 차세대 멀티모달 모델과 기능 확장이 더욱 기대되며, 이러한 발전이 다양한 프로젝트와 서비스 혁신으로 이어질 것으로 보입니다.

 

감사합니다. 😊

 

반응형