안녕하세요,
최근 국내 기업 LG에서 새롭게 개발한 추론 모델 EXAONE-Deep이 공개되었습니다. 이전 버전인 EXAONE 모델은 이미 작년에 선보인 바 있지만, 성능 면에서는 다소 아쉬운 부분이 있었습니다. 그러나 이번에 발표된 EXAONE-Deep은 DeepSeek-R1과 비교해도 손색없는 성능을 보여주고 있습니다.
이번 글에서는 EXAONE-Deep 모델에 대해 자세히 살펴보고, 실제로 어떻게 활용할 수 있는지도 함께 알아보겠습니다.
EXAONE-Deep
EXAONE-Deep은 LG AI연구원이 개발한 고성능 추론 특화 인공지능 모델로, 수학적 논리 이해, 과학적 개념 추론, 프로그래밍 문제 해결 등에서 뛰어난 성능을 보여줍니다. 이 모델은 320억 개의 매개변수를 가진 EXAONE-Deep-32B, 78억 개의 매개변수를 가진 경량 모델 EXAONE-Deep-7.8B, 그리고 24억 개의 매개변수를 가진 온디바이스 모델 EXAONE-Deep-2.4B로 구성되어 있습니다.
- EXAONE-Deep 소개페이지 : https://www.lgresearch.ai/blog/view?seq=541
EXAONE Deep 공개 ━ Reasoning AI의 새로운 기준을 세우다 - LG AI Research BLOG
www.lgresearch.ai
경쟁 모델 비교
EXAONE-Deep은 단순한 국산 모델을 넘어, 글로벌 대형 언어모델들과 견줘도 손색없는 뛰어난 성능을 보여줍니다.
대표적으로 EXAONE-Deep 32B는 DeepSeek-R1(671B)보다 훨씬 작은 규모임에도 불구하고, 수능 수학(CSAT 2025)을 포함한 여러 벤치마크에서 더 높은 점수를 기록했습니다. 또한 중형 모델인 EXAONE-Deep 7.8B는 OpenAI o1-mini를 MATH-500, AIME 2024 등 주요 평가 항목에서 앞서며, 경량 모델인 2.4B 역시 DeepSeek-R1-Distill 모델을 상회하는 탁월한 추론 성능을 보여줍니다.
EXAONE-Deep은 과학적 추론과 코딩 문제 해결 능력에서도 글로벌 모델들과의 경쟁에서 우위를 점하고 있습니다. EXAONE-Deep 32B는 GPQA Diamond와 LiveCodeBench 평가에서 각각 66.1점과 59.5점을 기록하며, DeepSeek-R1보다 훨씬 작은 규모에도 불구하고 준수한 성과를 보였습니다. 또한 7.8B 모델 역시 o1-mini를 두 지표 모두에서 능가하며, 과학적 사고력과 코딩 역량 면에서도 충분한 경쟁력을 입증했습니다. 특히 소형 모델인 EXAONE-Deep 2.4B는 DeepSeek-R1-Distill-Qwen-1.5B보다 20점 이상 높은 점수 차이를 보이며, 경량 AI 모델 중에서도 뛰어난 성능 효율을 자랑합니다.
즉, EXAONE-Deep은 모델 크기를 고려했을 때 글로벌 경쟁 모델을 뛰어넘는 성능 효율을 보여주는 고성능 AI 모델입니다.


EXAONE-Deep 주요 특징
- 고성능 추론 능력: 수학, 과학, 코딩 분야에서 독보적인 성능을 발휘하며, 복잡한 문제 해결에 탁월한 능력을 보여줍니다.
- 효율적인 모델 크기: 대규모 매개변수를 가진 경쟁 모델 대비 작은 크기로도 동등하거나 우수한 성능을 제공합니다.
- 다양한 모델 구성: 사용자의 필요에 따라 선택할 수 있도록 32B, 7.8B, 2.4B 등 다양한 크기의 모델을 제공합니다.
- 오픈소스 공개: 연구 및 개발자 커뮤니티와의 협력을 위해 모델을 오픈소스로 공개하여 AI 생태계 발전에 기여하고 있습니다.
라이선스
LG AI연구원이 공개한 EXAONE AI 모델은 누구나 내려받아 활용할 수 있도록 비상업적(Non-Commercial) 라이선스 하에 배포되고 있습니다. 모델을 사용하기 위해서는 아래의 조건을 반드시 준수해야 합니다.
허용되는 사용 (비상업적 연구 목적 한정)
- 모델 다운로드, 설치 및 사용
- 논문 작성, 학술 발표, 실험 등
- 모델 수정 및 파생 모델 생성 (이름 앞에 "EXAONE" 포함해야 함)
- 연구 결과 공개 및 출처 명시
금지되는 사용 (상업적·비윤리적 목적)
- 상업용 제품/서비스 개발
- 다른 모델 성능 개선에 활용
- 유료 앱/웹서비스에 통합
- 리버스 엔지니어링 또는 코드 추출
- 허위 정보 생성, 차별·혐오 콘텐츠 제작
사전 준비 사항
이 포스팅에서는 Ollama 프로그램의 설치 및 사용 방법을 다룰 예정입니다. Ollama 방식을 활용하려면 먼저 Ollama 프로그램을 설치해야 합니다. Ollama에서 제공하는 모델은 양자화된 모델이므로, 이를 활용하면 로컬 환경에서도 적은 리소스로 효율적이고 편리하게 사용할 수 있습니다.
- Ollama 설치 : https://ollama.com/download
목차
1. 실행 환경
2. EXAONE-Deep-2.4B 실행 (로컬 실행)
3. EXAONE-Deep-32B 실행 (Ollama 실행)
1. 실행 환경
- 운영체제 : Windows 11
- python : 3.10.0
- torch : 2.3.1+cu121
- transformers : 4.43.1
- numpy : 1.26.4
- ollama : 0.6.2
- GPU : NVIDIA GeForce RTX 4060 Ti
2. EXAONE-Deep-2.4B 실행 (로컬 실행)
로컬 환경에서 EXAONE-Deep을 실행하기 위해서는, 아래 명령어를 통해 필요한 패키지와 모델 파일을 설치해야 합니다.
EXAONE-Deep은 다양한 크기의 모델을 제공하고 있으며, 이번 테스트에서는 그 중 2.4B 모델을 선택하여 실행해보겠습니다.
[EXAONE-Deep-2.4B 모델 다운로드]
[필요 패키지 설치]
# Windows PowerShell
pip install torch==2.3.1+cu121 torchvision==0.18.1+cu121 torchaudio==2.3.1+cu121 -f https://download.pytorch.org/whl/cu121/torch_stable.html # Pytorch 설치
pip install transformers accelerate ipython packaging psutil # 필요 패키지 설치
[Python 코드 작성]
EXAONE-Deep-2.4B 모델이 설치된 경로는 사용자의 환경에 맞게 수정해주셔야 합니다. 또한 "prompt" 항목에는 AI에게 질문하고 싶은 내용을 입력하시면 됩니다.
# Python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
from threading import Thread
model_name = "E:/ai_model/EXAONE/EXAONE-Deep-2.4B" # LGAI 허깅페이스에서 다운받은 모델 경로
streaming = True # streaming 옵션
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "한글의 역사와 유용성에 대해 설명해줘." # AI에게 질문할 내용 작성
messages = [
{"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
)
if streaming:
streamer = TextIteratorStreamer(tokenizer)
thread = Thread(target=model.generate, kwargs=dict(
input_ids=input_ids.to("cuda"),
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=32768,
do_sample=True,
temperature=0.6,
top_p=0.95,
streamer=streamer
))
thread.start()
for text in streamer:
print(text, end="", flush=True)
else:
output = model.generate(
input_ids.to("cuda"),
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=32768,
do_sample=True,
temperature=0.6,
top_p=0.95,
)
print(tokenizer.decode(output[0]))
[Python 코드 실행 결과]
아래 이미지는 지금까지 작성한 Python 코드를 실행한 결과입니다. 간단히 한글의 역사에 대해 알려달라는 프롬프트를 입력했고, EXAONE-Deep-2.4B 모델을 실행하는 데에는 약 6GB의 VRAM이 사용되었습니다. 작은 모델답게 비교적 낮은 VRAM으로도 원활히 작동하는 모습을 확인할 수 있었습니다. 다만, 출력된 답변에 영어가 일부 섞여 있는 점은 아쉬운 부분으로 느껴졌습니다. 한글 질문에는 한글로 답변하도록 하기 위해서는 추가적인 설정이 필요할 것으로 보입니다. 그럼에도 불구하고 모델 크기를 감안하면 준수한 수준의 성능을 보여줬다고 평가할 수 있습니다.

3. EXAONE-Deep-32B 실행 (Ollama 실행)
Ollama가 정상적으로 설치되어 있다면, 아래 명령어를 통해 exaone-deep-32b 모델을 다운로드하고 실행할 수 있습니다.
Ollama에 업로드된 해당 모델은 양자화된 버전으로, 전체 용량은 약 19GB입니다. 이번 테스트에서는 이 모델을 사용하여 성능을 확인해보겠습니다.
[ollama 사용]
# Windows PowerShell
ollama --version # Ollama가 정상적으로 설치되었다면 버전이 출력됩니다.
# 버전이 출력되지 않으면 Ollama를 다시 설치해야 합니다.
ollama run exaone-deep:32b # exaone-deep:32b 실행 (모델이 없는 경우 자동 다운로드)
[EXAONE-Deep-32b 실행]

아래 이미지는 EXAONE-Deep-32B 모델을 실행한 결과입니다. 입력한 프롬프트는 앞서 EXAONE-Deep-2.4B 모델에서 테스트할 때와 동일한 프롬프트를 입력했습니다. 실행 과정에서 약 14.6GB의 VRAM이 사용되었으며, 대용량 모델답게 모든 응답이 출력되기까지 다소 시간이 소요되었습니다. 하지만 별도의 세부 설정 없이도 한글 질문에 자연스럽고 정확하게 한글로 응답하는 모습을 확인할 수 있었습니다. 또한 EXAONE-Deep-32B는 단순한 질의응답을 넘어, 복잡한 수학 문제 해결이나 코드 생성 등 고난이도 추론 작업에도 활용 가능한 모델입니다. 대규모 파라미터를 기반으로 보다 깊이 있는 사고력과 응답 품질을 제공하며, 실제 활용 시 높은 수준의 성능을 기대할 수 있습니다.
이번 EXAONE-Deep 테스트를 통해, 국내에서도 높은 수준의 AI 모델이 등장하고 있다는 점을 직접 확인할 수 있었습니다.
특히 2.4B와 같은 소형 모델임에도 불구하고 놀라운 추론 성능을 보여준 점은 인상적이었고, 32B 모델에서는 보다 깊이 있는 응답 품질도 확인할 수 있었습니다. 아직은 일부 아쉬운 부분도 있지만, 이러한 기술의 발전은 분명 국산 AI 생태계의 가능성을 보여주는 긍정적인 신호라고 생각됩니다.
앞으로도 EXAONE을 비롯한 국내 AI 모델들이 더욱 고도화되어, 글로벌 무대에서 경쟁력 있는 기술력으로 성장해 나가기를 기대해봅니다.
감사합니다. 😊
'AI 소식 > 유용한 AI 도구' 카테고리의 다른 글
구글의 가장 똑똑한 AI, "Gemini 2.5 Pro (Exp)"를 소개합니다. (1) | 2025.03.28 |
---|---|
[이미지 생성 AI] 텍스트만으로 이미지 생성? GPT-4o 네이티브 이미지 생성 기능 소개 (0) | 2025.03.27 |
언어 모델과 이미지 생성의 결합, Gemini 2.0 Flash Exp를 소개합니다. (1) | 2025.03.18 |
문장 생성부터 코드, 이미지, 추론 모델까지! 모두 무료로 제공하는 AI, Qwen Chat을 소개합니다! (0) | 2025.03.14 |
기존 모델보다 10배 빠른 AI, Mercury Coder에 대해 소개합니다. (0) | 2025.03.13 |