안녕하세요,
AI 오픈소스 모델을 선도하는 알리바바에서 또 한 번 의미 있는 발표를 했습니다. 이번에 공개된 Qwen3-Next는 기존 Qwen3 시리즈를 한 단계 발전시킨 차세대 언어 모델로, 학습 비용을 약 10% 수준으로 절감하면서도 추론 속도를 10배 이상 향상시킨 것이 가장 큰 특징입니다. 대규모 파라미터를 유지하면서도 효율성을 극대화한 덕분에 초장문 문맥 처리, 복합 추론, 코드 생성 등 다양한 작업에서 더 빠르고 안정적인 성능을 제공합니다.
이번 포스팅에서는 Qwen3-Next 모델의 주요 특징과 Instruct·Thinking 버전의 차이에 대해 살펴보겠습니다.
Qwen3-Next 모델이란
2025년 9월 11일, 알리바바에는 Qwen 모델 계열에서 새로운 최신 모델, Qwen3-Next를 공개했습니다. 이 모델은 기존의 Qwen3 아키텍처를 발전시켜, 특히 매우 긴 문맥(conext window) 처리와 매개변수(parameter)의 대규모 확장을 보다 효율적으로 수행할 수 있게 설계된 것이 핵심입니다. Instruct 모드나 “Thinking” 모드 같은 사후(post-training) 변형들이 제공되며, 작업 유형에 따라 명령어 지시형(Instruct) 혹은 사고 흐름 중심(Thinking) 모드로 사용할 수 있습니다.
- Qwen3-Next 소개페이지 : https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
Qwen3-Next는 현재 총 4가지 변형 버전으로 제공됩니다.
- Qwen3-Next-80B-A3B-Instruct
- Qwen3-Next-80B-A3B-Thinking
- Qwen3-Next-80B-A3B-Instruct-FP8
- Qwen3-Next-80B-A3B-Thinking-FP8
FP8 버전은 원본 모델을 경량화한 형태로, 메모리 사용량을 줄이고 추론 속도를 높이는 데 최적화되어 있습니다. 이 중 Instruct와 Thinking 버전은 동일한 아키텍처를 기반으로 하지만, 출력 스타일과 활용 목적에서 차이가 있습니다.
아래 표는 두 버전의 주요 차이를 간단히 비교한 내용입니다.
[모델 정보 요약]
항목 | 모델명 | |
버전 | Qwen3-Next-80B-A3B-Instruct | Qwen3-Next-80B-A3B-Thinking |
파라미터 수 | 활성 파라미터 3B / 전체 파라미터 80B | |
개발사 | Alibaba Cloud | |
컨텍스트 길이 | 기본으로 262,144 토큰, 확장 시 최대 약 1,010,000 토큰까지 가능 | |
MoE 구성 (Mixture-of-Experts) |
- 전문가 수(number of experts) : 512 - 활성 전문가(activated experts) : 10 - 공유 전문가(shared experts) : 1 - 전문가 내부 중간 차원(expert intermediate dimension) : 512 |
|
특징 | - Instruction-tuned, 지시형 작업 최적화 - 추론 과정 없이 빠르고 간결한 응답 - Qwen3-32B-Base 모델 대비 10배 높은 초장문(32K+ 토큰) 추론 처리량을 제공 - MTP 지원으로 지연 최소화, 추론 속도 최적화 - 초장문 문맥 안정적 처리 |
- Thinking 모드 전용, 복잡한 추론에 특화 - 고난도 추론·수학 벤치마크 상위 성능 - 긴 사고 과정 생성으로 다단계 계획·도구 호출에 적합 - 초장문 문맥에서도 안정적 추론 |
추천 활용 | 빠른 질의응답, 고객지원 챗봇, 컨텐츠 요약, 코드 자동완성 등 | 복잡한 문제 해결, 수학·코드 논리 추론, 멀티스텝 계획, Agentic AI(도구 호출·플랜 생성) 시나리오에 적합 |
라이선스 | Apache-2.0 | Apache-2.0 |
모델 경로 (허깅페이스) |
https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct | https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking |
주요 특징
- 하이브리드 아키텍처
빠른 연산이 가능한 게이트형 DeltaNet과 정밀한 표준 어텐션을 섞어 긴 문맥도 안정적이고 효율적으로 처리합니다.
→ 속도와 정확도를 모두 잡은 균형 설계 - 초희소 MoE 구조
800억 개의 매개변수 중 약 3%만 사용되도록 설계해, 적은 연산으로도 높은 성능을 냅니다.
→ 리소스를 아끼면서도 성능 저하 없음 - 훈련 안정성 강화
가중치가 지나치게 커지는 문제를 방지하고, 학습 초기에 전문가(Experts)가 고르게 선택되도록 조정해 안정적으로 학습합니다.
→ 대규모 학습에서도 안정적 결과 보장 - 다중 토큰 예측(MTP)
한 번에 여러 토큰을 예측해 응답 속도를 빠르게 하고, 긴 생각 과정에서도 자연스럽게 답변을 이어갑니다.
→ 실시간 대화나 스트리밍 응답에 유리
벤치마크 성능
Qwen3-Next 모델은 Instruct 버전은 빠르고 간결한 응답에 강점이 있고, Thinking 버전은 복잡한 추론과 다단계 사고 과정에서 뛰어난 성능을 발휘합니다.
아래 표는 Qwen3-235B와 함께 두 버전의 주요 지표를 비교한 결과입니다.
벤치마크 | Qwen3-30B-A3B -Instruct-2507 |
Qwen3-32B Non-Thinking |
Qwen3-235B-A22B -Instruct-2507 |
Qwen3-Next-80B -A3B-Instruct |
Qwen3-Next-80B -A3B-Thinking |
MMLU-Pro | 78.4 | 71.9 | 83.0 | 80.6 | 82.7 |
MMLU-Redux | 89.3 | 85.7 | 93.1 | 90.9 | 92.5 |
GPQA | 70.4 | 54.6 | 77.5 | 72.9 | 77.2 |
AIME25 | 61.3 | 20.2 | 70.3 | 69.5 | 87.8 |
LiveCodeBench v6 | 43.2 | 29.1 | 51.8 | 56.6 | 68.7 |
Arena-Hard v2* | 69.0 | 34.1 | 79.2 | 82.7 | 62.3 |
Creative Writing v3 | 86.0 | 78.3 | 87.5 | 85.3 | 84.6 |
WritingBench | 85.5 | 75.4 | 85.2 | 87.3 | 84.6 |
BFCL v3 | 65.1 | 63.0 | 70.9 | 70.3 | 72.0 |
- 지식·추론 성능: MMLU-Pro, MMLU-Redux, AIME25에서 30B/32B 대비 높은 점수
- 코딩·도구 활용: LiveCodeBench에서 가장 높은 점수를 기록해 코드 생성·도구 호출 작업에 강점
- 창작·정렬성: Arena-Hard v2*, WritingBench에서 최상위권 성능
- 복합 사고력 평가: BFCL v3에서도 높은 점수를 기록해, 다단계 문제 해결·복잡한 계획 수립·심층 논리 전개에 강점을 보임
출처
Qwen 허깅페이스 : https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct#performance
Qwen 허깅페이스 : https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking#performance
라이선스
Qwen3-Next 시리즈(Instruct·Thinking)는 Apache-2.0 라이선스로 공개되어, 누구나 자유롭게 다운로드하고 활용할 수 있습니다. 이 라이선스는 상업적 이용, 연구·개발, 모델 수정, 재배포까지 폭넓게 허용하여 기업 서비스, 학술 프로젝트, 개인 연구 등 다양한 환경에서 부담 없이 적용할 수 있습니다. 단, 저작권 고지와 라이선스 사본 제공은 반드시 지켜야 하며, 모델을 활용한 2차 배포 시에도 동일한 조건을 유지해야 합니다.
마무리
Qwen3-Next 모델은 현재 허깅페이스에서 오픈소스로 공개되어 누구나 자유롭게 다운로드하고 활용할 수 있습니다. 다만 Instruct와 Thinking 두 버전 모두 약 163GB에 달하는 대규모 모델이기 때문에 개인 로컬 환경에서 사용하기는 쉽지 않으며, 안정적인 성능을 위해서는 고성능 GPU 서버나 클라우드 환경에서 실행하는 것이 적합합니다. 대규모 파라미터를 활용한 모델인 만큼 충분한 연산 자원과 메모리를 갖춘 환경에서 사용할 때 가장 뛰어난 성능을 경험할 수 있습니다.
그럼에도 불구하고 Apache-2.0 라이선스로 제공되기 때문에 기업·연구기관·개인 모두 제한 없이 모델을 파인 튜닝하거나 자체 서비스에 통합할 수 있는 유연성을 확보할 수 있습니다. 오픈소스 커뮤니티의 기여와 함께 추후 경량화 모델, 양자화 버전, 다양한 파생 모델이 등장할 것으로 예상되며, 이를 통해 더 많은 개발자와 연구자가 Qwen3-Next의 성능을 쉽게 활용하고 새로운 응용 서비스를 만들어 나갈 수 있는 생태계가 확장될 것으로 기대됩니다.
감사합니다. 😊
'AI 소식 > 오픈소스 AI 모델' 카테고리의 다른 글
[오픈소스 AI] 멀티모달 AI 끝판왕? Qwen3-Omni-30B-A3B 기능·성능 총정리 (0) | 2025.09.30 |
---|---|
[오픈소스 AI] 맥북에서 실행 가능한 초경량 LLM – Qwen3-4B-MLX-4bit 모델을 소개합니다. (0) | 2025.09.22 |
AI 에이전트 최적화 모델, GUI-Owl 소개|오픈소스 VLM (1) | 2025.09.11 |
[음성 생성 AI] 마이크로소프트 VibeVoice TTS 모델 소개 및 사용 가이드 (ComfyUI 활용) (4) | 2025.09.09 |
[오픈소스 AI] 야놀자, 한국어 번역 특화 AI 모델 EEVE-Rosetta-4B 공개 | 로컬 실행 가이드 (2) | 2025.09.03 |