본문 바로가기

AI 소식/유용한 AI 도구

Qwen3-Thinking 모델 공개|글로벌 AI와 경쟁하는 알리바바의 오픈소스 LLM

안녕하세요,
중국 알리바바에서 고성능 추론 능력을 갖춘 초대형 언어 모델을 새롭게 오픈소스로 공개하였습니다. 알리바바의 Qwen 시리즈는 그동안 다수의 한국형 AI 모델이 기술적 기반으로 삼아온 핵심 계열이며, 이번에 발표된 Qwen3‑235B‑A22B‑Thinking 모델은 특히 논리적 사고, 수학, 과학, 코딩 등 복잡한 추론 작업에 특화된 구조로 주목받고 있습니다.

이 글에서는 알리바바가 공개한 Qwen3‑235B‑A22B‑Thinking 모델의 구조와 주요 특징을 살펴보고, 글로벌 주요 모델들과의 벤치마크 결과를 통해 이 모델이 어느 정도 수준의 성능을 갖추고 있는지 알아보겠습니다.


반응형

Qwen3-235B-A22B-Thinking 모델

알리바바는 Qwen 시리즈를 꾸준히 개발하며, 다양한 용도에 최적화된 대규모 언어 모델을 지속적으로 공개해왔습니다. 최근에는 “비사고(non-thinking)” 지시 수행에 특화된 Qwen3‑235B‑A22B‑Instruct 모델을 출시한 바 있으며, 이어서 이번에는 추론 능력에 초점을 맞춘 Qwen3‑235B‑A22B‑Thinking 모델을 새롭게 선보였습니다.

 

이 모델은 기존 Qwen3‑235B‑A22B 아키텍처를 기반으로 하되, 고도화된 사고력과 문제 해결 능력을 갖춘 추론 전용 모델로 재학습된 버전입니다. 특히 지난 3개월간의 집중적인 강화 학습을 통해 추론 성능이 크게 향상되었으며, 복잡한 논리적 과제를 효과적으로 처리할 수 있도록 설계되었습니다.

 

 

Qwen/Qwen3-235B-A22B-Thinking-2507 · Hugging Face

Qwen3-235B-A22B-Thinking-2507 Highlights Over the past three months, we have continued to scale the thinking capability of Qwen3-235B-A22B, improving both the quality and depth of reasoning. We are pleased to introduce Qwen3-235B-A22B-Thinking-2507, featur

huggingface.co

 

[모델 정보 요약]

항목 내용
모델명 Qwen3‑235B‑A22B‑Thinking‑2507
파라미터 수 총 2,350억 (활성화 220억)
개발사 알리바바 클라우드 (Alibaba Cloud)
출시일 2025년 7월 25일
Expert 수 128 (MoE 레이어 내부에 존재하는 전문 서브 네트워크의 총 개수)
활성 Expert 수 8 (한 번의 추론에서 실제로 계산되는 개수)
컨텍스트 길이 262,144 토큰 (256K)
학습 방식 MoE 구조 + Long-context 최적화 + Alignment 강화
특징 <think> 태그 자동 적용, 고난도 reasoning 및 에이전트 처리 최적화
라이선스 Apache 2.0 (상업적 사용 가능)

 

 

주요 특징

1) 초대형 MoE 아키텍처

  • 총 2,350억(235B) 파라미터 규모의 Mixture-of-Experts(MoE) 구조를 채택하였으며, 한 번의 추론 시 22억(22B) 파라미터만 활성화됩니다.
  • 128명의 Expert 중 8명만 선택적으로 활성화되어, 효율성과 성능을 동시에 확보합니다.
  • 94개 레이어, GQA(Grouped Query Attention) 구조 적용 (Query: 64헤드, Key/Value: 4헤드)로 메모리 효율 개선.

2) 초장문 대응 및 추론 최적화

  • 최대 262,144 토큰(256K)의 네이티브 컨텍스트 창을 지원하여, 긴 문서, 논문, 연쇄 추론(chain-of-thought) 등에서도 높은 일관성과 성능을 유지합니다.

3) 사고(Thinking) 특화 설계

  • 논리, 수학, 과학, 코딩 등 고난도 추론 과제에 특화된 구조로, 복잡한 문제 해결과 연속적인 사고 과정에서 탁월한 성능을 발휘합니다.
  • <think> 태그가 자동 활성화되어, 수동 설정 없이 사고 모드가 기본 적용됩니다. 이를 통해 체계적인 추론 흐름과 고난도 에이전트 워크플로우에 최적화됩니다.

4) 탁월한 실전 성능

  • AIME(수학), ZebraLogic(논리), LiveCodeBench v6(코딩) 등 다양한 벤치마크에서 최고 수준의 성능을 기록하였으며, 복잡한 수학·분석적 과제, 코딩·과학적 추론 영역에서 업계 상위권 모델들과 경쟁하거나 능가하는 성과를 보였습니다.

5) 실용성과 확장성

  • 다국어 대응, 에이전트 기반 툴 활용, 연쇄적 추론 작업 등에서 높은 실용성을 제공하며, 사용자 지향 응답 품질 및 alignment도 강화되어 다양한 실제 응용에 적합합니다.

 

 

벤치 마크 성능 

Qwen3‑235B‑A22B‑Thinking 모델은 글로벌 AI 모델들과 비슷하거나 뛰어난 성능을 보여줍니다. 구글의 Gemini-2.5 Pro, OpenAI의 o4-mini, DeepSeek-R1 모델들과 비교하여 다음과 같은 경쟁력을 보입니다.

  • GPQA (과학·상식 기반 추론)
    81.1점으로, DeepSeek-R1(81.0)과 유사하며 OpenAI의 o4-mini(81.4)와 유사한 성능을 보여줌.
  • AIME25 (고급 수학)
    92.3점으로 모든 모델 중 두 번째로 높은 점수 기록 - 가장 높은 모델 o4-mini (92.7)
  • LiveCodeBench v6 (실전 코딩)
    74.1점으로 가장 높은 점수 기록 (코드 생성과 논리 처리 능력이 탁월함을 보여줌)
  • HLE (장문 생성)
    18.2점으로 두 번째로 높은 점수 기록
  • Arena-Hard v2 (실사용자 선호도 기반 비교)
    79.7점으로 가장 높은 점수 기록 (실전 활용 및 응답 품질에서 사용자 선호도가 매우 높음)

출처: Qwen3 허깅페이스 (클릭시 이미지 확대)

 

 

라이선스

Qwen3‑235B‑A22B‑Thinking 모델은 Apache 2.0 라이선스 하에 공개되어, 누구나 자유롭게 다운로드, 수정, 자체 호스팅(self-hosting), 상업적 이용이 가능합니다. 허깅페이스, ModelScope, Qwen API 등을 통해 손쉽게 접근할 수 있으며, 사용자와 기업은 별도 제약 없이 모델을 fine-tuning하거나 서비스에 통합하여 활용할 수 있습니다. 이는 상업적 활용 측면에서도 매우 유연하고 실용적인 라이선스 체계에 해당합니다.

 


 

Qwen3‑235B‑A22B‑Thinking‑2507은 초대형 MoE 구조, 사고(Thinking) 특화 설계, 초장문 컨텍스트 처리 능력을 바탕으로 복잡한 논리·수학·코딩·과학적 문제 해결에 최적화된 모델입니다. 수많은 벤치마크에서 글로벌 상위권 모델들과 어깨를 나란히 하거나 능가하는 성능을 입증했으며, Apache 2.0 라이선스를 통해 기업과 개인 누구나 자유롭게 활용할 수 있는 실용성과 개방성까지 갖추고 있습니다. 고성능 추론 AI가 필요한 모든 상황에서, Qwen3‑Thinking은 강력한 선택지가 될 수 있습니다.

 

감사합니다. 😊

 

반응형