본문 바로가기

AI 소식

한국형 AI 모델 한눈에 보기: 네이버·LG·KT·SKT 최신 K-LLM 성능 비교

안녕하세요,

최근 국내 AI 시장의 열기가 그 어느 때보다 뜨겁습니다. 네이버, LG, KT, SKT, 업스테이지 등 주요 기업들이 앞다투어 자사의 독자적인 AI 모델을 공개하며 본격적인 기술 경쟁에 나서고 있습니다. 이러한 흐름 속에서 어떤 한국형 AI 모델들이 등장했는지, 각 모델의 특징과 성능은 어떤지를 정리해 보았습니다.지금까지 공개된 K-LLM 현황을 한눈에 정리했으니, 관심 있는 분들께 유용한 참고 자료가 되기를 바랍니다.


반응형

한국형 AI 모델, K-LLM

최근 정부 주도의 AI 기술 자립 및 경쟁력 강화를 위한 다양한 사업이 본격적으로 추진되면서, 국내 인공지능 생태계에 큰 변화가 일어나고 있습니다. 이에 발맞춰 네이버, LG, KT, SKT, 업스테이지 등 다양한 기업들이 한국어에 최적화된 독자적인 AI 모델을 잇따라 공개하며, 기술 경쟁에 적극적으로 참여하고 있습니다.

 

주요 기업들의 한국어 최적화 AI 모델 공개

이처럼 활발해진 국내 AI 개발 흐름 속에서, 각 기업들은 자사만의 기술적 강점을 살린 AI 모델을 선보이며 차별화를 꾀하고 있습니다. 특히 한국어 처리 성능을 강화하고, 다양한 활용 환경에 대응할 수 있도록 모델 크기, 제공 기능, 배포 방식 등을 세분화해 출시하고 있다는 점이 특징입니다. 일부 모델은 고성능 추론에 집중하는 반면, 경량화를 통해 온디바이스 환경에 최적화된 모델도 등장하고 있으며, 오픈소스 공개나 웹 플랫폼 연동 등 접근성과 확장성 측면에서도 다양한 전략이 활용되고 있습니다.

기업 공개 모델 공개일 모델 사이즈 주요 특징
네이버 하이퍼클로바 X 싱크
(HyperCLOVA X Think)
2025.06.30 - - 추론, 비전 기능MCP까지 지원하는 모델
- 서비스 제공 : 웹 플랫폼
LG AI 연구원 엑사원 4.0
(EXAONE 4.0)
2025.07.15 320억 (32B) - 고성능 추론에 특화된 대규모 언어 모델
- 오픈소스 : 허깅페이스
KT 믿음 (Mi:dm) 2025.07.03 115억 (11.5B) - 추론 기능 지원 및 오픈소스 모델
- 오픈소스 : 허깅페이스
SK텔레콤 에이닷 3.1 (A.X 3.1) 2025.07.11 70억 (7B) - 경량화에 초점을 맞춘 모델
- 오픈소스 : 허깅페이스
업스테이지 솔라 프로 2.0
(Solar Pro 2.0)
2025.05.21 310억 (31B) - 추론 기능 지원 모델
- 서비스 제공 : 웹 플랫폼
코난테크놀로지 ENT-11 2025.03.26 320억 (32B) - 추론 기능 지원 모델
- 서비스 제공 : 웹 플랫폼

 

이처럼 다양한 기업들이 한국어에 특화된 AI 모델을 선보이며, K-LLM 생태계는 빠르게 확장되고 있습니다. 각 모델은 모델 크기, 기능, 배포 방식에서 차별점을 갖추고 있어, 활용 목적에 따라 다양한 선택지가 마련되고 있습니다.

 

 

K-LLM 벤치마크 성능 비교

모델 간 차별화는 단지 외형적 사양에만 국한되지 않습니다. 실제로 각 모델이 어떤 문제를 얼마나 정확하게 해결할 수 있는지, 다양한 벤치마크 테스트를 통해 성능이 수치로 검증되고 있습니다. 일반 지식 추론부터 고급 수학, 사용자 지시 이행, 대화 품질, 한국어 특화 능력까지 다양한 평가 지표를 기준으로 주요 K-LLM 모델들의 성능을 비교해 보았습니다.

아래는 대표적인 국내 AI 모델들이 공개한 주요 벤치마크 평가 지표를 기반으로 정리한 성능 비교표입니다. 이 데이터는 각 기업에서 공개한 내용을 토대로 작성했습니다.

벤치마크 기준 평가 기준 HyperCLOVA X Think EXAONE 4.0 32B Mi:dm A.X 3.1-Light Solar Pro 2.0 ENT-11
MMLU-
0shot-CoT
일반 지식
추론
- - 73.70% 66.95% 86.92% -
MMLU-
REDUX
일반 지식추론 (정제판) - 92.30% - - - -
GPQA-
DIAMOND
고급 과학
지식
- 75.40% 33.50% - - -
IFEval 사용자 지시 이해 - 83.70% 84.00% 79.86% 85.18% -
MT-Bench 전반적 대화 품질 - - - - 87.06% -
GSM8K 수학적 추론 (기초) 95.50% - 91.60% - - -
MATH500 수학적 추론 (고급) 95.20% - - 70.14% - -
AIME 2025 수학 문제
해결 (심화)
- 85.30% - - - -
Coding
(HumanEval)
코드 생성
정확성
95.70% - - 73.78% - -
KMMLU-
0shot-CoT
한국어 지식 추론 69.70% - 57.30% 61.70% - -
KMMLU-
REDUX
한국어
지식 추론(정제판)
- 72.70% - - - -
HAERAE 한국어 종합 평가 87.80% - 81.50% - - -
Ko-IFEval 한국어 지시 이해 - - 82.00% 70.04% 84.65% -
Ko-MT-Bench 한국어 대화 품질 - - - 78.56% 84.12% -
Ja-MMLU-
0shot-CoT
일본어 지식 추론 - - - - 79.22% -
Ja-IFEval 일본어 지시 이해 - - - - 79.95% -

 

[용어 정의]
MMLU-0shot-CoT : 대규모 객관식 문제셋을 기반으로, 일반 상식 및 학문 지식에 대한 정답 도출 능력을 평가합니다.
MMLU-REDUX : 기존 MMLU의 확장·정제 버전으로, 데이터 오류 및 중복 문제를 개선한 일반 지식 평가 벤치마크입니다.
GPQA-DIAMOND : 물리학을 중심으로 한 고난도 과학 문제를 통해 과학적 추론 능력을 평가합니다.
IFEval : 사용자 지시에 대한 이해 및 이를 정확하게 이행하는 능력을 측정합니다.
MT-Bench : 모델의 대화형 응답에 대해 표현력, 논리성, 유용성 등 전반적인 품질을 종합적으로 평가합니다.
GSM8K : 초등 ~ 중등 수준의 수학 문제를 기반으로, 단계적 사고(Chain-of-Thought) 능력을 측정합니다.
MATH500 : 고등 ~ 대학 수준의 고난도 수학 문제를 통해 논리적 사고력과 수학적 추론 능력을 평가합니다.
AIME 2025 : 실제 고등학교 수학 경시대회 문제를 기반으로 고급 수학 문제 해결 능력을 측정합니다.
Coding (HumanEval) : 자연어로 주어진 지시를 바탕으로 정확하고 실행 가능한 함수형 코드를 생성하는 능력을 평가합니다.
KMMLU-0shot-CoT : 한국어 기반 MMLU 문제셋을 통해 한국어 일반 지식 및 추론 능력을 평가합니다.
KMMLU-REDUX : 한국어 MMLU-REDUX 버전으로, 정제된 문제셋을 통해 한국어 일반 지식 추론 능력을 평가합니다.
HAERAE : 한국어 특화 언어모델의 언어 이해 및 추론 능력을 종합적으로 측정하는 벤치마크로, Ko-LLM 리더보드 기준으로 사용됩니다.
Ko-IFEval : 한국어 사용자 지시에 대한 이해도 및 정확한 실행 능력을 평가합니다.
Ko-MT-Bench : 한국어 기반의 대화형 응답에 대해 표현력, 논리성, 자연스러움 등을 종합적으로 평가합니다.
Ja-MMLU-0shot-CoT : 일본어 기반 MMLU 문제셋을 통해 일본어 일반 지식 추론 능력을 평가합니다.
Ja-IFEval : 일본어 사용자 지시에 대한 이해 및 실행 정확도를 평가합니다.

 

[데이터 출처]

 

 

목적별 추천 K-LLM 모델

1) 고성능 추론이 필요한 경우 => EXAONE 4.0 32B (LG AI 연구원)

  • MMLU-REDUX 92.3%, GPQA 75.4%, AIME 2025 85.3% 등 고난도 문제 해결에 특화된 성능을 보임
  • 과학, 수학 등 이론적 문제 해결이 필요한 연구 및 분석 환경에 적합

2) 수학 및 코딩 특화 활용 => HyperCLOVA X Think (네이버)

  • GSM8K 95.5%, MATH500 95.2%, Coding(HumanEval) 95.7% 등 수학 및 프로그래밍 문제에서 강력한 성능
  • 교육용 AI, 수학 문제 풀이, 자동 코드 생성 등 특수 목적에 적합
  • 비전 기능 및 MCP 기능 또한 함께 지원

3) 대화형 서비스와 사용자 응답 품질 중시 => Solar Pro 2.0 (업스테이지)

  • Ko-MT-Bench 84.1%, Ko-IFEval 84.6% 등 한국어 대화 품질 및 지시 이해에서 우수한 평가
  • 챗봇, 고객 응대형 서비스 등에 적합
  • 다양한 언어 지원 가능성도 확보 (예: Ja-MMLU 79.2%)

4) 다양한 실험 및 응용이 가능한 오픈소스 기반 모델 => Mi:dm (KT), A.X 3.1-Light (SK텔레콤)

  • 전반적으로 안정적인 한국어 성능
  • 오픈소스로 공개된 모델로 커스터마이징과 다양한 응용이 필요한 연구·개발 환경에 적합

 


 

국내 AI 생태계는 빠르게 성장하고 있으며, 다양한 기업들이 경쟁적으로 한국어에 최적화된 K-LLM을 선보이면서 기술적 다양성과 선택지를 넓혀가고 있습니다. 이번 글에서는 각 기업이 공개한 주요 모델들의 특징과 성능을 비교해 보았으며, 활용 목적에 따라 어떤 모델이 적합한지도 함께 살펴보았습니다.

 

아직 모든 모델이 동일한 벤치마크를 제공하고 있지는 않지만, 점차 공개 범위가 확대되면서 비교 가능한 기준도 더욱 정교해질 것으로 보입니다. 글로벌 LLM처럼 Artificial Analysis와 같은 외부 평가 기관을 통한 객관적인 벤치마크 공개가 국내에서도 활성화된다면, 모델 간 성능 비교와 신뢰도 확보에 큰 도움이 될 것입니다.

 

앞으로도 한국어 중심의 실용적이고 경쟁력 있는 AI 모델이 지속적으로 등장하길 기대하며, 이 정리가 관련 분야에 관심 있는 분들께 유용한 참고가 되기를 바랍니다.

 

감사합니다. 😊

 

반응형