안녕하세요,
최근 알리바바 클라우드에서 개발한 최신 엔드투엔드 멀티모달 AI 모델, Qwen 2.5 Omni 모델이 등장했습니다. 이 모델은 보고 듣고 말하고 쓰고 모두 해주는 AI로, 다양한 멀티 모달 기능이 탑재되어 많은 기능들을 활용할 수 있습니다. 알리바바의 Qwen 시리즈는 뛰어난 성능임에도 오픈 소스로 공개하여 제 블로그에서 자주 다뤘습니다. 이번에 출시된 모델 또한 오픈 소스로 공개가 되었습니다. 그러면 Qwen 2.5 Omni 모델에 대하 알아보겠습니다.
Qwen 2.5 Omni 란
2025년 3월 31일, 알리바바 클라우드에서 최신 엔드투엔드 멀티모달 AI 모델, Qwen 2.5 Omni를 공개했습니다. 이 AI 모델은 텍스트, 이미지, 오디오, 비디오 등 다양한 입력을 실시간으로 처리할 뿐만 아니라, 텍스트 생성 및 자연스러운 음성 합성을 통해 응답할 수 있습니다.
- Qwen2.5 Omni 프로젝트 페이지 : https://qwenlm.github.io/blog/qwen2.5-omni/
주요 특징
- Thinker-Talker 구조: 텍스트 생성(Thinker)과 음성 합성(Talker)을 분리해 안정성과 성능 향상
- TMRoPE & 스트리밍 처리: 비디오·오디오 동기화 및 실시간 저지연 응답 지원
- 멀티모달 대응력: 텍스트, 음성, 이미지, 비디오 등 다양한 입력 처리 가능
- 자연스러운 음성 응답: 기존보다 더 부드럽고 정확한 음성 생성
- 효율적인 설계: 7B 경량 구조로도 고성능 유지, 엣지 환경 최적화
- 다양한 학습 기반: 복합 데이터와 강화학습으로 상황 인식 및 반응 품질 강화
모델 비교
Qwen2.5-Omni는 다양한 모달리티 평가에서 기존 모델들(Qwen2-Audio, Qwen2.5-VL-7B, Gemini-1.5-Pro 등)보다 우수하거나 동등한 성능을 보여주었습니다.
- OmniBench: 56.1점으로 Gemini-1.5-Pro(42.9점)보다 월등히 높은 성능
- CV15 (음성 인식): 92.4점으로 Qwen2-Audio(91.4점)보다 우수
- CoVoST2 (음성 번역): 29.4점으로 Qwen2-Audio(24.4점)보다 확연히 높음
- MMAU (오디오 이해): 65.6점으로 Qwen2-Audio(49.2점)보다 우세
- MMMU / MMStar (이미지 추론): 각각 64.0점 / 63.9점으로 Qwen2.5-VL(62.0점 / 58.6점)보다 높은 성능
- MVBench (비디오 이해): 70.3점으로 Qwen2.5-VL(69.6점)보다 근소하게 우위
- Seed-tts-eval (음성 생성): 93.5점으로 CosyVoice 2(93.2점)보다 근소하게 높음
- NMOS (음성 자연도): 4.51점으로 사람과 동등한 수준
종합적으로 Qwen2.5-Omni는 70억 파라미터 모델임에도 불구하고, 더 큰 모델이나 단일 모달 특화 모델들과 경쟁하거나 이를 능가하는 전방위적 성능을 보여주고 있으며, 특히 멀티모달 통합 처리(OmniBench), 음성 번역, 오디오 이해, 이미지·비디오 추론 영역에서 강력한 경쟁력을 입증했습니다.
라이선스
Qwen2.5-Omni는 Apache License 2.0을 따르는 오픈소스 모델입니다. 이 라이선스를 통해 사용자는 Qwen2.5-Omni를 자유롭게 사용, 수정, 복제 및 배포할 수 있으며, 상업적인 활용 또한 허용됩니다. 단, 사용 시에는 원 저작자 및 라이선스 정보를 명확히 표시해야 하며, 소프트웨어는 "있는 그대로" 제공되므로 성능이나 안정성에 대한 보증은 포함되지 않습니다. 또한, Apache 2.0 라이선스는 특허 사용에 대한 권한도 포함하고 있어, 기업 및 개발자들이 보다 안전하게 모델을 활용할 수 있도록 지원합니다. 즉, Qwen2.5-Omni는 연구용뿐만 아니라 상업적 프로젝트에도 활용이 가능한 범용 멀티모달 AI 모델입니다.
목차
1. 실행 환경
2. 모델 및 패키지 다운로드 및 실행코드 작성
3. Qwen2.5-Omni 모델 실행
1. 실행 환경
- 운영체제 : Windows 11
- torch : 2.3.1 + cu121
- numpy : 1.26.4
- GPU : NVIDIA GeForce RTX 4060 Ti
2. 모델 및 패키지 다운로드 및 실행코드 작성
아래 허깅페이스 링크를 통해 Qwen2.5-Omni 모델을 다운로드 합니다.
[Qwen2.5-Omni 모델 파일 다운로드]
- Qwen2.5-Omni 허깅페이스 : https://huggingface.co/Qwen/Qwen2.5-Omni-7B/tree/main
[필요 패키지 설치]
# Windows PowerShell
pip install torch==2.3.1+cu121 torchvision==0.18.1+cu121 torchaudio==2.3.1+cu121 -f https://download.pytorch.org/whl/torch_stable.html
pip install git+https://github.com/BakerBunker/transformers@21dbefaa54e5bf180464696aa70af0bfc7a61d53
pip install qwen_omni_utils accelerate ipython soundfile
pip install numpy==1.26.4 # 버전 수정
[실행 코드 작성]
# Python
import soundfile as sf
import torch
from transformers import Qwen2_5OmniForConditionalGeneration, Qwen2_5OmniProcessor
from qwen_omni_utils import process_mm_info
# default: Load the model on the available device(s)
model = Qwen2_5OmniForConditionalGeneration.from_pretrained(
"E:/ai_model/Qwen/Qwen2.5-Omni-7B", # 실제 로컬 경로로 수정
#torch_dtype="auto",
torch_dtype=torch.float16,
device_map="auto"
)
processor = Qwen2_5OmniProcessor.from_pretrained("E:/ai_model/Qwen/Qwen2.5-Omni-7B") # 실제 로컬 경로로 수정
conversation = [
{
"role": "system",
"content": "You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech.",
},
{
"role": "user",
"content": [
{
"type": "image",
"image": "E:/ai_model/Qwen/input/test02.png" # 입력할 영상 데이터 (실제 로컬 경로로 수정)
},
{
"type": "text",
"text": "Tell me about this image." # 입력 프롬프트
},
],
},
]
# set use audio in video
USE_AUDIO_IN_VIDEO = False # 영상 입력 X
# Preparation for inference
print("[1] 텍스트 템플릿 적용 중...")
text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
print("[2] 멀티모달 데이터 전처리 중 (process_mm_info)...")
audios, images, videos = process_mm_info(conversation, use_audio_in_video=USE_AUDIO_IN_VIDEO)
print("[3] Processor로 모델 입력 준비 중...")
inputs = processor(text=text, audio=audios, images=images, videos=videos, return_tensors="pt", padding=True, use_audio_in_video=USE_AUDIO_IN_VIDEO)
inputs = inputs.to(model.device).to(model.dtype)
# Inference: Generation of the output text and audio
print("[4] 모델 추론 중 (generate)...")
text_ids= model.generate(**inputs, return_audio=False)
print("[5] 디코딩 및 출력 준비 중...")
text = processor.batch_decode(text_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)
print("[6] 완료")
print(text)
3. Qwen2.5-Omni 모델 실행
Qwen2.5-Omni는 텍스트는 물론 이미지, 음성, 영상 등 다양한 형태의 입력을 처리할 수 있는 강력한 멀티모달 AI 모델입니다.
당초 영상 파일을 입력하여 모델의 반응을 확인해보려 했으나, 테스트 환경의 VRAM 한계로 인해 영상 처리가 어려운 상황이 발생했습니다. 약 5초 분량의 영상을 입력하기 위해서는 최소 40GB 이상의 VRAM이 필요한 것으로 추정됩니다.
이에 따라 이번 실험에서는 이미지를 입력하고 해당 이미지에 대한 모델의 응답을 확인하는 방식으로 진행하였습니다.
- 사용 프롬프트 : Tell me about this image.
[실행 결과]
- Qwen2.5-Omni 모델 답변 : This image shows a woman standing outdoors in a sunny setting. She's wearing a white, long-sleeved top with a ruffled hem and a black face mask. She has long, dark hair and is holding a small white flower in her hair. The background features a wooden structure, some greenery, and cherry blossom trees in bloom. It looks like a pleasant, spring-like day.
이미지와 텍스트를 함께 입력한 경우, 약 13GB의 VRAM이 사용되었으며, 모델이 응답을 생성하는 데에는 약 5분 정도의 시간이 소요되었습니다. 멀티모달 입력을 실시간으로 처리하는 모델 특성상, 연산량이 적지 않았고, 특히 이미지 분석과 텍스트 생성 과정이 순차적으로 이루어지기 때문에 응답 시간이 비교적 길게 나타난 것으로 보입니다.
그럼에도 불구하고, 오픈소스로 공개된 모델임에도 멀티모달 정보를 정확하고 자연스럽게 표현해 주는 모습은 인상적이었습니다.
이제 개인화된 AI를 활용하는 시대는 더 이상 먼 미래의 이야기가 아니며, 조금 더 높은 컴퓨팅 환경이 갖춰진다면 충분히 실용적으로 사용할 수 있는 수준의 모델이라 평가할 수 있습니다.
Qwen2.5-Omni는 비교적 경량화된 7B 모델임에도 불구하고, 다양한 모달리티를 정밀하게 이해하고 처리할 수 있는 강력한 능력을 보여주었습니다. 텍스트와 이미지는 물론, 음성 및 영상까지 다룰 수 있는 범용성은 앞으로의 AI 활용 범위를 더욱 확장시켜 줄 것으로 기대됩니다. 이번 테스트를 통해 Qwen2.5-Omni가 단순한 연구용 모델을 넘어, 실질적인 개인용 AI 비서 또는 멀티모달 서비스의 핵심 기술로 발전할 수 있는 가능성을 엿볼 수 있었습니다.
앞으로 더 가볍고 빠르게 작동하는 최적화 버전들이 등장한다면, AI는 우리의 일상 속에서 더욱 자연스럽게 자리잡게 될 것입니다.
감사합니다. 😊
'AI 소식 > 오픈소스 AI 모델' 카테고리의 다른 글
마이크로 소프트에서 개발한 CPU만으로 작동하는 초경량 AI, Bitnet을 소개합니다. (1) | 2025.04.24 |
---|---|
[오픈 소스 AI] Meta가 공개한 최신 AI 모델, Llama 4를 소개합니다. (0) | 2025.04.15 |
[오픈 소스 AI] 로블록스가 만든 "텍스트 to 3D 모델", Cube 3D를 소개합니다. (0) | 2025.03.30 |
[오픈 소스 AI] [음성 생성 AI] 음성 스타일까지 복제하는 AI, Sesame을 소개합니다. (0) | 2025.03.26 |
[오픈 소스 AI] [음성 생성 AI] 짧은 음성 하나면 목소리를 복제하는 AI, Spark-TTS를 소개합니다. (0) | 2025.03.21 |