안녕하세요,
최근 LG AI 연구원이 공개한 EXAONE 4.0은 한국어에 특화된 AI 언어모델로 많은 주목을 받고 있습니다. 이번에 공개된 모델은 대규모 버전과 온디바이스용 경량 버전, 두 가지 형태로 제공되며, 상대적으로 작은 파라미터 수에도 불구하고 우수한 성능을 보여주는 것이 특징입니다.
이번 글에서는 그중 EXAONE 4.0-1.2B 모델을 중심으로, 해당 모델의 벤치마크 성능과 함께 로컬 환경에서 간단히 실행하는 방법을 소개드리겠습니다.
EXAONE 4.0 이란
2025년 7월 15일, LG AI연구원은 오픈 웨이트(Open-weight) 기반의 하이브리드 인공지능 모델인 EXAONE 4.0을 공개했습니다. 이 모델은 대규모 언어 모델(LLM)과 고급 추론 기능을 결합한 구조로 설계되어, 기존 AI 시스템과 차별화된 성능을 제공합니다. EXAONE 4.0은 하이브리드 AI 구조를 기반으로 하고 있으며, 자연어 이해와 생성에 강점을 가진 대규모 언어 모델과, 스스로 가설을 세우고 검증하는 문제 해결 능력을 갖춘 추론 AI 모델이 함께 작동하도록 설계되어 있습니다. 특히 ‘비추론 모드(Non-reasoning)’와 ‘추론 모드(Reasoning)’를 모두 지원하여, 상황에 따라 유연하고 정교한 응답을 생성할 수 있는 특징을 지니고 있습니다.
- EXAONE 4.0 공식페이지 : https://www.lgresearch.ai/exaone
- LG AI연구원 공식블로그 : https://www.lgresearch.ai/blog/view?seq=575
EXAONE 4.0은 사용 목적과 환경에 따라 선택할 수 있도록 두 가지 크기로 제공됩니다.
[두 가지 모델 구성]
모델 | 매개변수 | 주요 용도 |
전문가 모델 | 32B (320억 개) | 고성능 작업, 전문적 업무 처리 |
온디바이스 모델 | 1.2B (12억 개) | 스마트폰, 노트북 등 개인 기기 |
고성능이 요구되는 전문 분야에는 32B 모델을, 디바이스에 탑재 가능한 경량 모델이 필요한 환경에는 1.2B 모델을 활용할 수 있도록 구성되어 있어, 다양한 활용 가능성을 제시합니다.
주요 특징
- 가볍지만 강력한 성능 : 32B 규모의 경량 모델이지만, 70B급 대형 모델에 필적하는 수준의 성능을 구현합니다. 최적화된 사전 학습을 통해 응답 속도를 높이고, 운영 비용을 효율적으로 절감할 수 있도록 설계되었습니다.
- 한국어에 특화된 언어 모델 : 한국어, 영어, 스페인어 등 다양한 언어를 지원하지만, 특히 한국어 이해와 응답 품질이 매우 뛰어납니다. 한국어로 된 질문에도 자연스럽고 정확한 답변을 제공합니다.
- 두 가지 모드를 통한 유연한 사용 방식 : 일반적인 대화에 적합한 비추론 모드와 복잡한 문제 해결에 적합한 추론 모드를 모두 지원합니다. 질문의 성격에 따라 적절한 모드를 활용하면, 더 빠르고 정확한 응답을 받을 수 있도록 설계되어 있습니다.
- 온디바이스 입력에 최적화된 문서 처리 능력 : 최대 128K 토큰까지 입력을 처리할 수 있어, 긴 문서를 한 번에 다룰 수 있습니다. 이전 모델 대비 약 4배 늘어난 콘텐츠 길이를 지원하며, 문서 중심의 업무 환경에 효율적으로 활용할 수 있습니다.
- MCP 지원 : 에이전트 기능 구현을 위해 MCP(Model Context Protocol)와 Function Calling 기능을 함께 지원합니다. 이를 통해 외부 도구와의 연동이나 복잡한 작업 흐름도 유연하게 처리할 수 있도록 설계되어 있습니다.
벤치마크 성능
현재 EXAONE 4.0 모델의 벤치마크 성능은 LG AI 허깅페이스를 통해 공식적으로 공개하고 있습니다. 아래는 주요 성능 지표 중 일부를 발췌한 것입니다. 이러한 지표들은 대형 언어 모델의 이해력, 추론력, 코드 생성 능력 등을 종합적으로 평가하는 데 사용되며, 일반적으로 LLM 성능 비교에 활용되는 대표적인 기준입니다.
Benchmark | 32B Reasoning | 32B Non-Reasoning | 1.2B Reasoning | 1.2B Non-Reasoning |
MMLU-Redux | 92.3 | 88.6 | 71.5 | 66.9 |
MMLU-Pro | 81.8 | 77.6 | 59.3 | 59 |
GPQA-Diamond | 75.4 | 63.7 | 52 | 40.1 |
AIME 2025 | 85.3 | 35.9 | 45.2 | 23.5 |
IFEval | 83.7 | 84.6 | 67.8 | 74.7 |
BFCL-v3 | 63.9 | 65.2 | 52.9 | 55.7 |
KMMLU-Pro | 67.7 | 60 | 42.7 | 37.5 |
KMMLU-Redux | 72.7 | 64.6 | 46.9 | 40.4 |
[벤치마크 항목 설명]
- MMLU-Redux : 일반적으로 AI 모델이 얼마나 폭넓고 정확한 지식을 갖추고 있는지 를 평가하는 대표적인 지표입니다.
- MMLU-Pro : MMLU Redux보다 난이도가 높고, 상위 모델들의 차별성을 부각하기 위해 사용됩니다.
- GPQA-Diamond : 고난도 과학 문제로 구성된 벤치마크이며, 고차원적인 추론 성능 평가에 활용됩니다.
- AIME 2025 : AMC 기반 수학 평가로, 실제 수학적 사고 능력을 보는 지표로 주목받고 있습니다.
- IFEval : 추론과 지식 결합 능력을 측정하며, 최근 오픈리더보드에서도 자주 사용됩니다.
- BFCL-v3 : 논리적 판단과 법적 추론을 평가하는 기준으로, 실제 에이전트 태스크와 관련된 평가입니다.
- KMMLU-Redux : MMLU-Redux 문항을 한국어로 번역한 벤치마크로, 한국어 기반 모델의 일반 지식 이해 능력을 평가합니다.
- KMMLU-Pro : MMLU-Pro의 평가 기준을 바탕으로 한국어에 맞게 재구성한 고난도 벤치마크로, 한국어 특화 LLM의 심화 추론 능력을 측정합니다.
라이선스
EXAONE 4.0은 비상업적 연구 및 교육 목적으로만 사용이 허용됩니다. 사용자는 모델을 다운로드하거나 수정하여 파생 모델을 생성할 수 있으며, 해당 모델은 연구나 학습, 비영리 목적의 실험 등에 활용할 수 있습니다. 모델을 통해 생성한 출력물의 소유권은 사용자에게 있으며, 논문이나 발표 자료 등으로 공개하는 것도 가능합니다. 다만, 상업적 이용은 명확히 금지되며, 별도의 상업용 라이선스를 체결하지 않는 이상 수익을 목적으로 한 활용은 허용되지 않습니다.
모델 활용 가이드
EXAONE 4.0 허깅페이스에 공개된 예제를 활용하여 간단한 사용 테스트를 진행해보겠습니다.
[실행 환경]
- 운영체제 : Windows 11
- python : 3.10.11
- torch : 2.6.0+cu126
- transformers : 4.54.0.dev0
- accelerate : 1.8.1
- GPU : NVIDIA GeForce RTX 4060 Ti
[모델 다운로드]
아래 LG AI 허깅페이스에서 EXAONE-4.0-1.2B 모델을 다운로드하여 테스트해보겠습니다. 아래 이미지에 표시된 파일을 모두 다운로드하여 동일한 폴더에 저장합니다.
[패키지 설치]
아래 명령어를 통해 해당 모델을 실행하는 데 필요한 패키지를 설치합니다.
# Windows PowerShell
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu126
pip install git+https://github.com/lgai-exaone/transformers@add-exaone4
pip install accelerate
[코드 작성]
필요한 패키지 설치가 완료되면, main.py라는 이름으로 python 파일을 생생해주고 아래와 같이 코드를 작성합니다.
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "/Path/to/EXAONE-4.0-1.2B" # EXAONE-4.0-1.2B 파일 경로 (사용자 환경에 맞게 수정)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="bfloat16",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# choose your prompt
# prompt = "Explain how wonderful you are"
# prompt = "Explica lo increíble que eres"
prompt = "너가 얼마나 대단한지 설명해 봐" # 프롬프트 입력
messages = [
{"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt",
enable_thinking=False, # 비추론모드 / 추론모드 선택
)
output = model.generate(
input_ids.to(model.device),
max_new_tokens=512,
do_sample=False,
)
print(tokenizer.decode(output[0]))
[실행 결과]
아래 명령어를 통해 main.py 파일을 실행하면, EXAONE-4.0-1.2B 모델이 로드되어 텍스트 생성 작업을 수행하게 됩니다.
# Windows PowerShell
python main.py
실행 시 비추론 모드와 추론 모드 모두 약 3.9GB의 VRAM(GPU 메모리)을 사용하였으며, 응답 시간에서는 차이가 발생했습니다.
- 비추론 모드: 약 20초 소요, 빠른 응답 속도로 간단한 질의나 대화형 작업에 적합
- 추론 모드: 약 50초 소요, 단계별 사고 과정을 포함하여 복잡한 문제 해결에 적합
EXAONE-4.0-1.2B는 온디바이스 실행을 고려해 설계된 모델로, 비교적 제한된 리소스 환경에서도 안정적으로 구동되는 모습을 보였습니다. 한국어 질의에 대해서도 자연스럽고 정확한 응답을 제공하여, 한국어 기반 활용성 면에서도 우수한 성능을 확인할 수 있었습니다. 다만, 추론 모드에서는 복잡한 사고 과정을 포함한 응답을 생성하기 때문에, 상대적으로 더 긴 응답 시간이 필요했습니다.
아래는 EXAONE-4.0-1.2B 모델을 실행하여 생성된 응답 예시입니다.
[비추론모드]
[추론모드]
EXAONE-4.0-1.2B는 LG AI 연구원이 공개한 한국어 특화 온디바이스 언어 모델로, 경량화된 구조임에도 불구하고 우수한 언어 이해 성능을 보여줍니다. 이처럼 국내에서도 고성능 AI 기술이 점차 현실화되고 있는 흐름을 확인할 수 있습니다.
앞으로도 이러한 국산 AI 모델들이 지속적으로 발전하여, 다양한 분야에서 실질적으로 활용되기를 기대합니다. 나아가 글로벌 수준의 경쟁력을 갖춘 모델들이 국내에서도 꾸준히 등장하길 바랍니다.
감사합니다. 😊
'AI 소식 > 오픈소스 AI 모델' 카테고리의 다른 글
엔비디아 오디오 AI 모델 공개 - Audio Flamingo 3와 Canary-Qwen-2.5B 비교 | 오픈소스 AI | 오디오 AI (4) | 2025.07.22 |
---|---|
Kimi-K2란? Moonshot AI가 만든 초대형 오픈소스 언어 모델 정리 | 오픈소스 AI | 중국 AI 모델 | (0) | 2025.07.18 |
국산 오픈소스 AI 모델 A.X 3.1 출시! SKT가 만든 한국어 특화 LLM (5) | 2025.07.14 |
KT가 만든 한국어 AI, Midm 2.0 소개 | 오픈소스 AI | 국산 AI (2) | 2025.07.07 |
구글이 만든 무료 음악 생성 AI ‘Magenta RT’를 소개합니다! | 오픈소스 AI | 실시간 음악 생성 | Colab 실습 (2) | 2025.07.04 |