본문 바로가기

AI 소식/유용한 AI 도구

[한국형 AI] LG가 공개한 차세대 멀티모달, '엑사원(EXAONE) 4.5' 소개

안녕하세요,

최근 인공지능 모델은 단순한 텍스트 생성 기능을 넘어, 이미지와 문서를 함께 이해하고 실제 업무에 활용할 수 있는 방향으로 빠르게 발전하고 있습니다. 특히 다양한 형태의 데이터를 동시에 처리하고, 복잡한 문서나 시각 정보를 기반으로 의미를 해석하는 능력이 중요해지면서, 멀티모달 구조를 갖춘 모델에 대한 관심도 함께 높아지고 있습니다. 이러한 흐름 속에서 LG AI연구원은 텍스트와 이미지를 통합적으로 이해할 수 있는 최신 모델, EXAONE 4.5를 공개했습니다. 이 모델은 문서 분석과 시각 기반 추론을 중심으로 설계된 멀티모달 AI라는 점이 특징입니다.

이번 글에서는 EXAONE 4.5 모델이 어떤 구조로 설계되었는지부터 주요 특징, 벤치마크 성능, 라이선스, 그리고 간단한 활용 방법까지 함께 살펴보겠습니다.


반응형

EXAONE 4.5 모델이란

2026년 4월 9일, LG AI연구원에서 최신 AI 모델, EXAONE 4.5를 공개했습니다. 이 모델은 텍스트와 이미지를 함께 이해하는 비전-언어 모델(VLM, Vision Language Model)입니다. 쉽게 말해, 글만 이해하는 기존 AI를 넘어 이미지까지 함께 보고 판단할 수 있는 형태로 발전한 모델이라고 볼 수 있습니다.

이번 모델은 기존 EXAONE 시리즈에서 발전한 형태로, 자체 개발한 비전 인코더와 거대언어모델(LLM)을 하나의 구조로 통합한 것으로, 이를 통해 단순히 이미지를 인식하는 수준을 넘어, 이미지와 텍스트를 함께 이해하고 의미를 해석하는 능력을 갖추게 되었습니다. 특히 EXAONE 4.5는 산업 환경에서 실제로 활용되는 것을 목표로 설계되었습니다. 계약서, 기술 도면, 재무제표, 스캔 문서처럼 복잡한 자료를 읽고 분석하는 데 강점을 가지며, 단순한 챗봇을 넘어 실무형 AI로 확장된 모델입니다.

 

 

LG's first publicly released Vision Language Model, EXAONE 4.5 - LG AI Research BLOG

 

www.lgresearch.ai

 

[모델 정보 요약]

항목 내용
모델 버전 EXAONE 4.5
개발사 LG AI연구원
모델 유형 멀티모달 AI (텍스트·이미지 통합 이해)
아키텍처 비전 인코더 + LLM 통합 구조 (네이티브 멀티모달)
모델 규모 약 33B 파라미터
지원 기능 텍스트 생성, 이미지 이해, 문서 분석, 시각 기반 추론
사용 환경 기업 환경 중심 API 및 서비스 연동
언어 지원 한국어, 영어 포함 다국어
라이선스 연구·교육 목적에 한해 사용 가능 / 상업적 사용은 별도 계약 필요
모델 경로 Hugging Face 제공

 

 

주요 특징

EXAONE 4.5는 단순한 텍스트 기반 AI를 넘어, 이미지와 문서를 함께 이해하고 실제 업무 환경에서 활용할 수 있도록 설계된 멀티모달 모델입니다. 특히 시각 정보 해석과 문서 기반 추론 능력, 그리고 효율적인 구조 설계를 중심으로 발전한 것이 특징입니다.

  • 네이티브 멀티모달 구조 : EXAONE 4.5는 텍스트와 이미지를 각각 따로 처리하는 방식이 아니라, 하나의 모델 구조 안에서 동시에 이해하도록 설계되었습니다. 이를 통해 이미지 속 정보와 텍스트 맥락을 함께 연결하여 해석할 수 있으며, 복합적인 시각·언어 정보를 자연스럽게 통합 처리할 수 있습니다.
  • 문서 이해 및 시각 추론 능력 : 단순한 이미지 인식이나 OCR 수준을 넘어, 문서의 구조와 의미를 함께 이해하는 데 초점을 두고 있습니다. 계약서, 차트, 표, 기술 문서 등 복잡한 자료에서도 핵심 정보를 파악하고, 이를 기반으로 질문에 답하거나 분석을 수행할 수 있도록 설계되었습니다.
  • 산업 환경 최적화 설계 : EXAONE 4.5는 연구용 모델을 넘어 실제 산업 환경에서 활용되는 것을 목표로 개발되었습니다. 재무 데이터, 기술 문서, 스캔 자료 등 다양한 업무 데이터를 처리할 수 있도록 구성되어 있으며, 실무 중심의 분석과 의사결정을 지원하는 방향으로 설계되었습니다.
  • 고성능 대비 효율성 개선 : 약 330억(33B) 파라미터 규모로 구성되었으며, 기존 대형 모델 대비 더 효율적인 구조를 통해 성능과 연산 비용의 균형을 고려하였습니다. 하이브리드 어텐션 구조와 멀티 토큰 예측 방식 등을 적용하여 추론 속도를 개선하면서도 성능을 유지하도록 설계되었습니다.
  • 대규모 데이터 이해 및 맥락 유지 : 긴 문서나 복잡한 데이터 구조를 한 번에 처리할 수 있도록 설계되어, 문서 전체 흐름을 유지하면서 분석이 가능합니다. 이를 통해 부분적인 정보가 아니라 전체 맥락을 기반으로 한 정확한 이해와 응답을 지원합니다.
  • 다국어 지원 및 확장성 : 한국어와 영어를 포함해 다양한 언어를 지원하도록 설계되었으며, 글로벌 환경에서도 활용할 수 있는 확장성을 갖추었습니다. 다양한 산업과 서비스 환경에 맞게 적용할 수 있도록 구조적인 유연성도 함께 고려되었습니다.

 

 

벤치마크 성능

앞서 살펴본 구조적 특징을 바탕으로, EXAONE 4.5는 실제 성능 측면에서도 멀티모달 이해, 시각 기반 추론, 문서 분석 전반에서 균형 잡힌 결과를 보여줍니다. 특정 지표에서 극단적으로 높은 수치를 기록하기보다는, 다양한 유형의 작업에서 안정적인 성능을 유지하는 방향으로 설계된 것이 특징입니다.

특히 이미지와 텍스트를 함께 처리하는 종합 성능과 시각 기반 문제 해결 영역에서 경쟁 모델과 유사한 수준을 유지하며, 문서 이해와 같은 실무 중심 작업에서도 일관된 결과를 확인할 수 있습니다. OCR과 일부 문서 처리 지표에서는 모델 간 차이가 존재하지만, 전체적으로는 멀티모달 전반에서 고르게 활용 가능한 성능을 갖춘 모델로 정리할 수 있습니다.

 

전체적인 성능 흐름과 주요 모델 간 비교는 아래 표를 통해 확인할 수 있습니다.

 

벤치마크 지표 EXAONE 4.5 Qwen3 VL 32B GPT-5 mini Claude Sonnet
4.5
MMMU-Pro
(이미지+텍스트 종합 이해 성능)
68.6 68.1 67.3 68.4
MathVision
(이미지 기반 수학 문제 해결 능력)
75.2 70.2 71.9 71.1
ChartQA Pro
(차트·그래프 해석 정확도)
62.2 61.4 60.9 62.1
OCRBench_v2
(이미지 속 텍스트 인식 정확도)
63.2 68.4 55.8 44.6
OmniDoc v1.5
(문서 구조 이해 및 질의응답 능력)
81.2 83.1 77.0 85.8
출처: LG 공식 블로그

 

 

라이선스

EXAONE 4.5 모델은 LG AI연구원이 제공하는 라이선스에 따라 배포되며, 기본적으로 연구 및 교육 목적에 한해 사용이 허용되는 비상업적(Non-Commercial) 라이선스 구조를 따릅니다. 따라서 일반적인 오픈소스 라이선스와 달리, 개인 프로젝트나 기업 서비스에 자유롭게 적용할 수 있는 형태는 아니며, 상업적 활용을 위해서는 별도의 계약이 필요합니다.

즉, 모델 자체를 활용하여 서비스를 제공하거나 수익을 창출하는 경우, 혹은 제품에 통합하는 형태의 사용은 기본 라이선스 범위에 포함되지 않으며, LG 측과의 별도 상업 라이선스 협의가 필요합니다. 반면, 학술 연구나 기술 검증, 실험적인 프로젝트와 같은 비상업적 활용은 허용되는 범위에 해당합니다.

 

EXAONE 4.5 라이선스의 주요 특징은 다음과 같습니다.

  • 연구 및 교육 목적에 한해 사용 가능
  • 상업적 활용(서비스, 제품, 수익 창출 등)은 기본적으로 금지
  • 모델 수정 및 파생 모델 생성 가능 (비상업적 범위 내)
  • 모델 및 파생 모델 배포 시 라이선스 조건 유지 필요
  • 상업적 활용 시 별도 라이선스 계약 필수

이 라이선스는 오픈소스와 달리 활용 범위를 명확하게 제한하는 구조로, 상업적 사용은 별도의 계약을 통해서만 가능합니다.

 


 

간단한 사용 예시

EXAONE 4.5는 멀티모달 이해와 문서 분석을 중심으로 설계된 모델로, 현재는 허깅페이스를 통해 모델이 공개되어 있으며, 이를 다운로드하여 직접 실행하는 방식으로 활용할 수 있습니다. 별도의 웹 서비스나 API 형태로 제공되기보다는, 로컬 환경이나 서버에 모델을 배포하여 사용하는 구조에 가깝습니다. 정리하면 “모델 다운로드 → 직접 실행 → 환경에 맞게 활용” 흐름으로 이해할 수 있습니다.

 

1. 로컬 환경에서 실행 (EXAONE 4.5)

허깅페이스에 공개된 모델을 다운로드한 뒤, 개인 PC 또는 서버 환경에서 직접 실행하는 방식입니다. 이를 통해 이미지와 텍스트를 함께 입력하여 문서 분석, 시각 추론 등의 기능을 테스트하거나 활용할 수 있습니다.

  • 특징: 모델 가중치 다운로드 후 직접 실행, 멀티모달 입력(이미지+텍스트) 지원
  • 비용: 별도 API 비용 없음, GPU 등 인프라 자원에 따른 비용 발생
  • 활용: 문서 분석, 이미지 이해, 차트 해석, OCR 기반 처리
  • 경로: https://huggingface.co/LGAI-EXAONE/EXAONE-4.5-33B/tree/main

출처: LGAI-EXAONE 허깅페이스 (클릭시 페이지 이동)

 


 

EXAONE 4.5는 텍스트와 이미지를 개별적으로 처리하는 수준을 넘어, 두 데이터를 통합적으로 이해하고 추론하는 '네이티브 멀티모달' 구조를 완성했습니다. 특히 기술 도면이나 복잡한 재무제표 분석처럼 실제 업무 현장에서 마주하는 고난도 시각 정보를 논리적으로 처리할 수 있도록 설계되어, 단순한 대화형 AI 이상의 '실질적 문제 해결사'로서의 방향성을 보여줍니다.

 

현재는 허깅페이스를 통한 오픈 웨이트(Open Weight) 배포를 통해 연구자와 개발자가 모델을 직접 최적화하여 실행하는 환경에 집중하고 있습니다. 향후 전용 API 서비스나 통합 플랫폼 형태로 사용 환경이 확장된다면 국내외 산업 현장의 인공지능 전환을 가속화하는 핵심 동력이 될 것으로 기대됩니다.

 

 

감사합니다.

 

반응형