본문 바로가기

AI 소식/오픈소스 AI 모델

[오픈소스 AI] 알리바바 Qwen3.5 모델 소개 – Medium · Small 성능과 벤치마크

안녕하세요,

최근 알리바바의 Qwen 팀이 Qwen3.5 모델 시리즈를 공개했습니다. Qwen 시리즈는 최근 몇 년 사이 빠르게 발전하며 오픈 모델 생태계에서 중요한 위치를 차지하고 있는 LLM 계열입니다. 이번 Qwen3.5에서는 모델 규모에 따라 Large, Medium, Small로 구분된 라인업이 공개되었습니다. 특히 9B 이하의 모델까지 포함하면서 로컬 실행과 엣지 환경까지 고려한 모델 구조를 보여준 점이 특징입니다.

이번 글에서는 Qwen3.5 모델 중에서도 Medium과 Small 모델을 중심으로 어떤 특징을 가지고 있는지 정리해보겠습니다.


반응형

Qwen3.5 모델이란

2026년 2월 14일, 알리바바는 최신 AI 모델 Qwen3.5를 공개했습니다. Qwen3.5는 텍스트 이해와 생성, 추론, 코드 작성 등 다양한 작업을 수행할 수 있는 대규모 언어 모델(LLM)로, 여러 크기의 모델을 하나의 시리즈 형태로 구성한 것이 특징입니다. Qwen3.5는 단일 모델이 아니라 다양한 규모의 모델로 구성된 라인업으로 제공됩니다. 이를 통해 대규모 서버 환경에서 활용할 수 있는 고성능 모델부터 비교적 적은 연산 자원에서도 실행할 수 있는 경량 모델까지 함께 제공되며, 사용 환경과 목적에 맞게 모델을 선택하여 활용할 수 있습니다.

 

 

Qwen

 

qwen.ai

 

현재 Qwen3.5 모델은 다음과 같은 세 가지 계층으로 구성되어 있습니다.

구분 모델
Large Qwen3.5-397B-A17B
Medium Qwen3.5-122B-A10B / 35B-A3B / 27B
Small 9B / 4B / 2B / 0.8B

 

이처럼 모델 규모에 따라 라인업이 구분되어 있기 때문에, 개발자는 서비스 환경이나 필요한 성능 수준에 맞는 모델을 선택하여 활용할 수 있습니다.

 

 

Qwen3.5 Medium 모델 주요 특징

  1. MoE(Mixture-of-Experts) 구조 기반 모델 포함 : Qwen3.5 Medium 모델에는 Mixture-of-Experts(MoE) 구조를 사용하는 모델이 포함되어 있습니다. MoE 구조는 여러 전문가 네트워크 중 일부만 선택적으로 활성화하여 연산을 수행하는 방식으로, 모델 용량을 유지하면서도 계산 효율을 높이는 데 목적이 있습니다. 이러한 구조 덕분에 높은 성능을 유지하면서도 추론 비용을 효율적으로 관리할 수 있습니다.
  2. 높은 추론 성능을 고려한 모델 규모 : Medium 계열은 Large 모델보다는 작지만, 복잡한 작업을 처리할 수 있는 충분한 파라미터 규모를 갖춘 모델입니다. 이러한 모델 크기는 다양한 자연어 처리 작업과 코드 생성, 복잡한 질의 응답과 같은 작업을 수행하기 위한 성능을 제공하도록 설계되었습니다.
  3. 서비스 환경을 고려한 모델 계층 : Medium 모델은 대규모 서버 환경에서 활용되는 Large 모델과 비교했을 때 비교적 효율적인 연산 환경을 제공하는 모델 계층입니다. 이러한 특성 때문에 AI 서비스 백엔드나 다양한 애플리케이션에서 활용할 수 있는 범용 LLM 모델로 사용될 수 있습니다.

 

 

Qwen3.5 Small 모델 주요 특징

  1. 경량 모델 중심의 라인업 구성 : Qwen3.5 Small 모델은 0.8B부터 9B까지 비교적 작은 파라미터 규모로 구성된 모델 계층입니다. 이러한 구조는 다양한 컴퓨팅 환경에서 실행할 수 있도록 모델 크기를 다양하게 구성한 것이 특징입니다.
  2. 비교적 낮은 연산 자원으로 실행 가능 : Small 모델은 Medium 모델보다 파라미터 규모가 작기 때문에 비교적 낮은 GPU 메모리 환경에서도 실행할 수 있습니다. 이러한 특성은 개인 개발 환경이나 제한된 컴퓨팅 자원을 사용하는 환경에서 AI 모델을 활용할 수 있도록 하는 데 목적이 있습니다.
  3. 다양한 환경에서 활용 가능한 모델 구조 : Small 모델은 로컬 환경에서 실행할 수 있는 LLM을 구축하거나, 경량 AI 애플리케이션을 개발하는 데 활용할 수 있습니다. 또한 비교적 작은 모델 크기를 기반으로 다양한 애플리케이션에서 AI 기능을 구현하는 데 사용할 수 있는 모델 계층입니다.
  4. Small 시리즈 중 가장 큰 모델, 9B : Small 모델 라인업 중 Qwen3.5-9B 모델은 가장 큰 파라미터 규모를 가진 모델입니다. 이 모델은 Small 계열에 속하면서도 비교적 높은 성능을 제공하도록 설계된 모델로, 로컬 환경에서 활용할 수 있는 모델 중 하나로 알려져 있습니다.

 

 

벤치마크 성능

벤치마크 결과를 보면 Qwen3.5 모델은 지식 이해와 추론 능력 평가에서 전반적으로 높은 성능을 보입니다. 특히 MMLU-Pro, MMLU-Redux, GPQA Diamond와 같은 지식 및 문제 해결 벤치마크에서 Qwen3.5 Medium 모델들이 비교군 대비 경쟁력 있는 점수를 기록합니다. Instruction Following 평가인 IFEval에서도 Qwen3.5 모델은 높은 점수를 보이며, HLE w/ CoT와 같은 추론 벤치마크에서도 안정적인 성능을 확인할 수 있습니다. 또한 TAU2-Bench와 같은 에이전트 작업 평가에서도 Medium 계열 모델이 비교적 높은 점수를 기록합니다.

Small 모델의 경우 모델 규모가 줄어들수록 전반적인 벤치마크 점수는 감소하는 경향을 보입니다. 다만 Qwen3.5-9B와 4B 모델은 지식 평가와 에이전트 벤치마크에서 비교적 높은 성능을 유지하며, 경량 모델에서도 활용 가능한 수준의 성능을 보여줍니다.

 

[Qwen3.5 Medium 모델 벤치마크]

벤치마크 지표 Qwen3.5-
122B-A10B
Qwen3.5-
35B
-A3B
Qwen3.5-27B GPT-5-mini GPT-OSS-
120B
MMLU-Pro
(지식/종합 능력)
86.7 85.3 86.1 83.7 80.8
MMLU-Redux
(지식 평가)
94.0 93.3 93.2 93.7 91.0
IFEval
(지시 이행)
93.4 91.9 95.0 93.9 88.9
HLE w/ CoT
(추론 능력)
25.3 22.4 24.3 19.4 14.9
GPQA Diamond
(과학 문제 해결)
86.6 84.2 85.5 82.8 80.1
LiveCodeBench v6
(코딩 능력)
78.9 74.6 80.7 80.5 82.7
TAU2-Bench
(Agent 평가)
79.5 81.2 79.0 69.8
출처: Qwen 허깅페이스

 

[Qwen3.5 Small 모델 벤치마크]

벤치마크 지표 Qwen3.5
-9B
Qwen3.5
-4B
Qwen3.5
-2B
Qwen3.5
-0.8B
GPT-OSS
-120B
GPT-OSS
-20B
MMLU-Pro
(지식/종합 능력)
82.5 79.1 66.5 42.3 80.8 74.8
MMLU-Redux
(지식 평가)
91.1 88.8 79.6 59.5 91.0 87.8
IFEval
(지시 이행)
91.5 89.8 78.6 44.0 88.9 88.2
GPQA Diamond
(과학 문제 해결)
81.7 76.2 51.6 11.9 80.1 71.5
LiveCodeBench v6
(코딩 능력)
65.6 55.8 82.7 74.6
TAU2-Bench
(Agent 평가)
79.1 79.9 48.8 11.6
출처: Qwen 허깅페이스

 

 

라이선스

Qwen3.5 모델은 Apache License 2.0을 기반으로 제공되는 오픈 가중치 대규모 언어 모델입니다. 해당 라이선스는 연구, 교육, 개인 개발뿐 아니라 기업 환경과 상업적 서비스에서도 활용할 수 있도록 설계된 범용 오픈소스 라이선스입니다. 사용자는 모델을 자유롭게 다운로드하여 분석하거나 파인튜닝을 통해 파생 모델을 개발할 수 있으며, 다양한 애플리케이션이나 서비스에 통합하여 활용할 수 있습니다.

Apache License 2.0은 비교적 제약이 적은 라이선스 정책을 따르며, 모델을 기반으로 한 서비스 개발이나 상업적 활용도 허용됩니다. 다만 모델을 재배포하거나 파생 모델을 공개하는 경우에는 라이선스 고지와 저작권 표시를 함께 포함해야 합니다.

 

주요 특징은 다음과 같습니다.

  • 상업적 사용 허용 : 기업 서비스, AI 애플리케이션, 자동화 시스템 등 다양한 상업적 환경에서 활용할 수 있습니다.
  • 수정 및 파생 모델 개발 가능 : 모델 파인튜닝, 경량화, 특정 작업에 맞춘 모델 최적화 등 기술적 수정과 파생 모델 개발이 가능합니다.
  • 배포 시 라이선스 고지 의무 : 모델 또는 파생 모델을 외부에 배포할 경우 Apache License 2.0 사본과 저작권 고지를 함께 포함해야 합니다.
  • 책임 있는 사용 요구 : 법률이나 윤리에 위배되는 용도로의 사용은 허용되지 않으며, 이용자는 모델 활용 과정에서 책임 있는 사용 원칙을 준수해야 합니다.

 


 

간단한 사용 예시

Qwen3.5 모델은 웹 서비스 형태의 간단한 체험부터 API 연동, 로컬 실행까지 다양한 방식으로 활용할 수 있습니다. 사용 목적과 인프라 환경에 따라 간단한 기능 테스트, 개인 개발 환경 적용, 또는 AI 서비스 구축 등 적절한 활용 방법을 선택할 수 있습니다.

 

1. Qwen 공식 웹 서비스에서 사용

Qwen3.5 모델은 공식 웹 서비스 페이지를 통해 별도의 설치 과정 없이 바로 사용할 수 있습니다. 웹 인터페이스에서 모델을 선택한 뒤 프롬프트를 입력하면 대화형 AI 형태로 기능을 테스트할 수 있으며, 간단한 질의 응답이나 코드 생성, 번역, 문서 요약 등 다양한 작업을 수행할 수 있습니다.

  • 특징 : 설치 없이 바로 사용 가능, 간단한 기능 테스트에 적합
  • 비용 : 기본 기능 무료 사용 가능(정책에 따라 제한 존재 가능)
  • 활용 : 모델 성능 테스트, 프롬프트 실험, 간단한 AI 작업
  • 접속 경로 : https://chat.qwen.ai/

출처: Qwen 공식 웹 페이지 (클릭시 페이지 이동)

 

2. API를 통한 애플리케이션 연동

Qwen3.5 모델은 API 형태로도 제공되어 애플리케이션이나 서비스에 직접 통합하여 사용할 수 있습니다. API 방식은 서버에서 모델 추론을 처리하기 때문에 별도의 GPU 환경을 구축하지 않아도 되며, 챗봇, 문서 분석 시스템, 자동화 도구 등 다양한 서비스에 활용할 수 있습니다.

  • 특징 : 서버 기반 추론, 애플리케이션 통합 가능
  • 비용 : 사용량 기반 과금 방식
  • 활용 : 챗봇 서비스, 자동화 시스템, AI 기능이 포함된 웹 서비스
  • 지원 환경 : REST API 기반 서비스 연동
  • 참고 : https://qwen.ai/apiplatform

출처: Qwen API Platform (클릭시 페이지 이동)

 

3. 로컬 환경에서 직접 실행

Qwen3.5 모델은 허깅페이스를 통해 모델 가중치를 다운로드하여 로컬 GPU 환경에서 직접 실행할 수 있습니다. 이러한 방식은 모델 동작을 직접 제어할 수 있기 때문에 연구나 실험, 프롬프트 설계, 파인튜닝 등 개발 작업에 활용하기 적합합니다. 또한 로컬 환경에서 실행하면 데이터 보안이 중요한 내부 시스템에서도 활용할 수 있습니다.

  • 특징 : 모델 동작 제어 가능, 프롬프트 실험 및 연구 환경에 적합
  • 비용 : 무료(오픈 가중치 모델)
  • 활용 : 로컬 LLM 개발, 내부 AI 시스템 구축, 연구 및 실험
  • 모델 경로 : Qwen 허깅페이스
 

Qwen3.5 - a Qwen Collection

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

 

4. Hugging Face 페이지에서 바로 테스트

Qwen3.5 모델은 Hugging Face 모델 페이지에서 제공되는 Inference Providers 기능을 통해 별도의 설치 없이 간단히 테스트할 수 있습니다. 모델 페이지의 오른쪽에 있는 입력창에 프롬프트를 입력하면 해당 모델을 기반으로 바로 응답을 확인할 수 있으며, 기본적인 대화, 코드 생성, 텍스트 생성 등의 기능을 간단히 확인하는 데 활용할 수 있습니다.

이 방식은 모델을 직접 다운로드하거나 실행 환경을 구축하지 않아도 되기 때문에 모델 성능을 빠르게 확인하거나 간단한 프롬프트 테스트를 진행할 때 유용합니다.

  • 특징 : 브라우저에서 바로 테스트 가능, 설치 과정 없음
  • 비용 : Hugging Face 정책에 따라 무료 체험 가능
  • 활용 : 모델 성능 확인, 프롬프트 테스트, 간단한 기능 검증
  • 접속 : 허깅페이스 (Qwen3.5-35B-A3B 모델 페이지)

출처: Qwen3.5-35B-A3B 모델 페이지 (클릭시 페이지 이동)

 


 

Qwen3.5 모델은 다양한 규모의 모델 라인업을 통해 서버 환경부터 로컬 환경까지 폭넓은 활용이 가능한 대규모 언어 모델입니다. Medium 모델은 높은 성능과 효율적인 추론 구조를 바탕으로 복잡한 작업 처리와 서비스 환경에 적합한 성능을 제공하며, Small 모델은 비교적 낮은 연산 자원에서도 실행할 수 있도록 설계되어 다양한 개발 환경에서 활용할 수 있는 접근성을 제공합니다.

 

직접 웹 서비스나 허깅페이스를 통해 간단히 성능을 확인해 볼 수 있으며, API 연동이나 로컬 실행 방식으로도 활용할 수 있습니다. 다양한 환경에서 활용 가능한 모델이기 때문에 간단한 테스트를 통해 Qwen3.5 모델의 특징과 성능을 직접 확인해 보시기 바랍니다.

 

 

감사합니다. 😊

 

반응형