2025년 연말 AI 모델 순위, 어떤 모델이 가장 뛰어났을까?

안녕하세요,

2026년을 맞이한 현재, 주요 AI 기업들은 지난 한 해 동안 다양한 차세대 모델을 공개하며 경쟁 흐름을 이어갔습니다. 구글의 Gemini 3 시리즈 발표에 이어 OpenAI가 GPT-5.2를 선보였고, 여러 글로벌 AI 업체들은 2025년 말까지 업그레이드된 모델을 지속적으로 내놓았습니다. 이러한 움직임은 대형 모델의 성능 향상과 기술적 완성도를 높이기 위한 경쟁이 계속되고 있음을 보여줍니다.

이번 글에서는 2025년에 공개된 대표 모델들을 정리하고, 성능과 활용 관점에서 어떤 모델이 돋보였는지 간단히 살펴보겠습니다.

새해를 맞이하여 더욱 치열해진 LLM(대규모 언어 모델) 시장의 판도를 정리했습니다. 이번 포스팅은 2025년 12월 말 데이터를 기준으로 실사용자들의 체감 성능을 반영한 LMArena, 모델의 다각도 효율성을 분석한 Artificial Analysis, 그리고 에이전트로서의 실행력을 평가하는 GAIA 벤치마크 데이터를 종합하여 최신 순위를 살펴보겠습니다.

실사용자 투표 기반 순위 (LMArena) : 사용자들이 두 모델의 답변을 직접 비교하여 투표한 결과로, 모델이 실제 대화 상황에서 얼마나 도움이 되고 인간의 취향에 부합하는지 보여주는 '체감 만족도'의 척도입니다.
종합 벤치마크 점수 (Artificial Analysis) : 표준화된 벤치마크 테스트셋을 통해 모델의 논리적 정확성과 지식의 깊이를 수치화한 지표로, 비용 효율성과 결합하여 모델의 객관적인 '이론 지능과 경제성'을 비교하기에 적합합니다.
GAIA 벤치마크 점수 (GAIA Leaderboard) : 외부 도구를 활용해 현실 세계의 복합적인 과제를 완수하는 능력을 평가하며, 모델이 단순 답변을 넘어 스스로 계획하고 행동하는 '실무 해결사로서의 실행력'을 증명하는 지표입니다.

AI 모델 선택 가이드 (전체 요약)

활용 목적	추천 모델	주요 이유 / 특징
최고 성능 기반의 연구·프리미엄 서비스	Gemini 3 Pro / GPT-5.2 (High)	지능 지수 공동 1위(73점) 및 실사용자 체감 성능 최상위권 기록. 고난도 추론과 지식 기반 문제 해결에 가장 적합함.
코딩·디버깅·개발 중심 작업	Claude Opus 4.5 / GPT-5.2 (High)	Claude는 WebDev 부문 독보적 1위(1,512점)로 코드 구조 이해도가 높음. GPT-5는 코드 실행 및 복합 명령 처리에서 높은 정밀도를 보임.
효율 중심 (가격 대비 성능 비중이 큰 업무)	DeepSeek V3.2 / Gemini 3 Flash	1M 토큰당 $0.32 ~ $1.13 수준의 압도적 저비용으로 상용급 성능(66 ~ 71점)을 제공하여 대량 처리 환경에 최적화됨.
일반 업무·검색·문서 기반 작업	Gemini 3 Pro / Claude 4.5	GAIA 리더보드 상위권 에이전트들이 가장 선호하는 엔진. Gemini는 실시간 정보 연계가 뛰어나고, Claude는 복합 과업 플래닝에 안정적임.
초저비용 작업 (테스트·경량 작업·대량 처리)	GPT-OSS-20B (High)	$0.10 수준의 극저단가로 대규모 반복 테스트나 단순 분류 작업 등 대량 데이터 처리에 유리함.

LMArena — Text·WebDev 카테고리 TOP 모델 비교

실제 사용자들이 블라인드 테스트를 통해 투표하는 LMArena는 모델의 '체감 지능'을 가장 잘 나타내는 지표입니다. 2025년 12월 말 업데이트 기준, 구글의 Gemini 3 시리즈와 Anthropic의 Claude 4.5 시리즈가 각 분야에서 압도적인 존재감을 드러내고 있습니다.

[ Text 모델 성적 ]

Text 카테고리는 모델이 인간의 복잡한 질문을 얼마나 깊이 이해하고, 자연스럽고 일관된 문맥으로 답변을 생성하는지를 평가합니다. 일상적인 대화는 물론, 정교한 추론 능력이 필요한 지식 기반 질의응답 능력이 핵심입니다.

2025년 12월 30일, LMArena 순위

Gemini-3-pro — 1490점 (21,938표)
Gemini-3-flash — 1480점 (7,020표)
Grok-4.1-thinking — 1477점 (22,618표)
Claude-opus-4.5-20251101-thinking-32k — 1470점 (14,992표)
Claude-opus-4.5-20251101 — 1467점 (15,914표)

[요약]
Text 부문에서는 Gemini-3-pro가 1위를 탈환하며 구글의 저력을 보여주었습니다. 특히 주목할 점은 가성비 모델인 Gemini-3-flash가 2위에 올라 효율성과 지능을 동시에 잡았다는 평가를 받고 있다는 점입니다. Grok-4.1-thinking 역시 2만 표 이상의 높은 투표수 속에서 상위권을 유지하며 탄탄한 사용자 신뢰를 증명하고 있습니다.

[ WebDev 모델 성적 ]

WebDev 카테고리는 코드 생성의 정확성, 디버깅 능력, 최신 프레임워크에 대한 이해도를 측정합니다. 실제 개발 공정을 얼마나 안정적으로 지원하고 오류를 줄여주는지가 평가의 주된 기준입니다.

2025년 12월 30일, LMArena 순위

Claude-opus-4.5-20251101-thinking-32k — 1512점 (4,564표)
GPT-5.2-high — 1480점 (1,647표)
Claude-opus-4.5-20251101 — 1479점 (4,468표)
Gemini-3-pro — 1471점 (9,824표)
Gemini-3-flash — 1454점 (3,053표)

[요약]
WebDev 분야는 여전히 Claude-opus-4.5-thinking 시리즈가 1위를 차지했습니다. 1,500점이 넘는 독보적인 점수로 개발 환경에서의 압도적 우위를 점했습니다. 새롭게 순위에 진입한 GPT-5.2-high는 비록 투표 수는 적지만 점수상으로는 2위를 기록했습니다.

[LMArena 결과 종합 요약]
최신 LMArena 순위를 종합해보면 다음과 같은 흐름이 나타납니다.

- Gemini-3-pro는 자연어 분야(Text)에서 최고 성능을 기록하며 범용적인 비즈니스 작업에 가장 안정적인 모델로 평가되었습니다.
- Gemini-3-flash는 성능과 비용 효율성을 동시에 고려하는 사용자들에게 강력한 선택지를 제공하고 있습니다.
- Claude-opus-4.5 시리즈는 WebDev 부문에서 독보적 우위를 점하며, 복잡한 코딩과 개발 프로세스 지원에서 대체 불가능한 도구임을 증명했습니다.
- GPT-5.2-high는 개발 부문에서 상위권에 안착하며, OpenAI의 모델이 여전히 강력한 기술적 기반을 갖추고 있음을 보여주었습니다.

Artificial Analysis — AI 종합 성능 및 비용 비교

Artificial Analysis는 사용자들의 주관적인 선호도를 측정하는 투표 기반 순위와 달리, 표준화된 10개의 벤치마크를 통해 모델의 지능 구조를 객관적이고 다각도로 평가하는 시스템입니다. 언어 이해력, 논리적 추론, 수학 및 코딩 능력, 그리고 심화 지식 문제 해결력을 종합하여 모델이 실제로 얼마나 깊이 있는 사고를 수행할 수 있는지를 정밀하게 수치화합니다.

이러한 지표는 모델의 표면적인 대화 실력뿐만 아니라, 실제 업무에서 마주하는 고난도 문제 해결 능력까지 균형 있게 파악할 수 있다는 점에서 큰 의미가 있습니다. 특히 각 모델의 'Intelligence Index'와 함께, 동일한 성능을 내기 위해 투입되는 비용(토큰 단가)을 결합하여 분석함으로써 성능 대비 효율 관점에서의 최적의 선택지를 제시하는 것이 특징입니다.

[AI 종합 성능 지수 TOP 5]

종합 성능 지수는 MMLU-Pro, GPQA Diamond, Humanity’s Last Exam 등 모델의 한계를 시험하는 10개 테스트 결과를 통합 산출합니다. 점수가 높을수록 다양한 전문 영역에서 일관되게 뛰어난 퍼포먼스를 보여주는 '총체적 두뇌 수준'이 높음을 의미합니다.

2025년 12월 기준 순위 (Artificial Analysis)

Gemini 3 Pro Preview (High) — 73점
GPT-5.2 (xHigh) — 73점
Gemini 3 Flash — 71점
Claude Opus 4.5 — 70점
GPT-5.1 (High) — 70점

[요약]
2025년 말 최신 지표에서는 Gemini 3 Pro와 GPT-5.2가 나란히 73점을 기록하며 업계 최고 수준의 지능을 증명했습니다. 주목할 점은 Gemini 3 Flash가 71점을 기록하며 상위권에 안착했다는 것입니다. 이는 보급형 모델조차도 과거의 플래그십 모델들을 뛰어넘는 강력한 지능을 갖추게 되었음을 시사합니다.

[모델 성능별 비용]

AI 모델 선택의 핵심은 최고의 성능을 얼마나 경제적인 비용으로 구현하느냐에 있습니다. Artificial Analysis의 'Intelligence vs. Cost' 데이터를 기반으로, 지능 지수와 토큰당 비용을 종합한 효율성 지표를 정리했습니다.

2025년 12월 기준 순위 (Artificial Analysis)

구분	성능 지수	모델명	비용 (1M 토큰당, USD)	특징
상용 모델	70점 이상	Gemini 3 Preview (High)	$4.50	현존 최고 지능 모델 중 가장 안정적인 비용 구조
		GPT-5.2 (xhigh)	$4.81	Gemini 3와 공동 1위 성능을 가진 최상위 모델
		Gemini 3 Flash	$1.13	70점을 넘긴 모델 중 압도적인 가성비를 자랑하는 주인공
	70점 미만	Claude Opus 4.5	$10.00	최상급 품질이나 타 모델 대비 비용 부담이 매우 큼
	70점 미만	Grok 4.1 Fast	$0.28	낮은 비용으로 고속 처리가 가능한 실무 특화 모델
오픈 소스 모델	65점 이상	GLM-4.7	$0.88	상용급 지능(68점)을 갖춘 강력한 가성비 대항마
		Kimi K2 Thinking	$1.07	성능(67점) 대비 비용 효율이 전체 모델 중 최고 수준
		DeepSeek V3.2	$0.32	매우 저렴한 비용으로 상용급 성능을 제공하는 가성비 끝판왕
	65점 미만	gpt-oss-120B (High)	$0.26	오픈소스 계열 중 상용급 품질을 가장 저렴하게 제공
	65점 미만	gpt-oss-20B (High)	$0.1	실험 및 테스트용으로 적합한 초저비용·초경량 모델

비용 : 비용은 입력(Input) 토큰과 출력(Output) 토큰의 가격을 3:1 비율로 가중 평균하여 계산한 값입니다.

[Artificial Analysis에서 눈여겨봐야 할 'Key Models']

가성비의 새로운 기준, DeepSeek V3.2: 그래프에서 '가장 매력적인 구간(Most attractive quadrant)'에 깊숙이 위치한 모델입니다. 단돈 $0.32로 65점대의 상용급 지능을 사용할 수 있어, 대규모 서비스 운영 시 비용 효율을 극대화할 수 있는 최고의 선택지입니다.

성능의 정점, Gemini 3 Pro & GPT-5.2: 두 모델 모두 지능 점수 73점으로 공동 1위를 기록했습니다. 특히 Gemini 3 Pro는 최상위 성능임에도 $4.50라는 합리적인 가격대를 형성해 프리미엄급 서비스의 표준으로 자리 잡고 있습니다.

초저가 진입 장벽, gpt-oss-20B (High): 1M 토큰당 $0.10라는 파격적인 비용을 자랑합니다. 복잡한 추론보다는 단순 반복 작업이나 AI 서비스의 프로토타입 테스트, 경량화된 환경에서 최고의 접근성을 제공합니다.

효율성의 강자, Kimi K2 Thinking: 성능(67점) 대비 비용($1.07) 효율이 매우 우수하여, 전체 모델 중 '지능 효율 1위'라는 타이틀을 유지하고 있습니다.

GAIA 리더보드 – 실제 문제 해결력 평가

이제 LLM의 성능은 단순히 질문에 답하는 수준을 넘어, 스스로 계획을 세우고 도구를 사용해 과업을 완수하는 '에이전트 실행력'으로 그 영역이 확장되었습니다. 이를 가장 잘 보여주는 지표가 바로 GAIA(General AI Assistants) 리더보드입니다.

GAIA는 모델이 웹 검색, 코드 실행, 데이터 분석 등 다양한 도구를 적재적소에 활용하여 실제 현실의 문제를 해결하는 성공률을 측정합니다. 즉, 이 점수가 높다는 것은 해당 LLM이 단순한 지식 저장소를 넘어, 실질적인 업무를 수행하는 '뇌'로서의 완성도가 높다는 것을 의미합니다.

[GAIA 리더보드 동향 ]

2026년 1월 현재, 리더보드 상위권 에이전트 시스템들이 평균 90점(%)대의 성공률을 기록하고 있다는 사실은 LLM의 실행 지능이 임계점을 돌파했음을 시사합니다. 특히 고득점을 기록한 시스템들의 핵심 엔진을 살펴보면, 우리가 주목하는 LLM들의 실전 능력이 고스란히 드러납니다.

실행 엔진의 정점, Gemini-3-Pro: 최상위권인 SU Zero(90.03점)와 JoinAI V2(89.04점) 등 대부분의 리더보드 상위권 시스템들이 Gemini-3-Pro를 주력 엔진으로 채택하고 있습니다. 이는 도구 활용과 정보 연계 작업에서 Gemini의 '행동 지능'이 현재 가장 안정적임을 보여주는 데이터입니다.
정밀 추론의 핵심, GPT-5 / o3: Lemon Agent(88.37점)와 같은 고난도 에이전트에서 확인할 수 있듯, 복잡한 명령 체계 처리와 정밀한 코드 실행이 필요한 구간에서는 GPT-5와 o3 계열의 논리력이 핵심적인 역할을 수행합니다.
복합 과업의 파트너, Claude Sonnet 4.5: Su Zero + SQ Pro와 ShawnAgent 등의 조합에 포함되어, 여러 단계로 구성된 복잡한 업무의 플래닝과 문맥 유지 능력에서 강점을 발휘하며 에이전트의 성공률을 견인하고 있습니다.
가성비 실행 지능, DeepSeek V3.1: JoinAI V2에서 확인된 바와 같이, 오픈소스 계열인 DeepSeek는 상용 모델에 뒤지지 않는 높은 추론 효율로 실시간 처리 비중이 높은 에이전트 환경에서 그 존재감을 급격히 키우고 있습니다.

[GAIA 결과 요약]

핵심 LLM 모델	에이전트 환경에서의 증명된 능력
Gemini-3-Pro	실시간 도구 활용 및 정보 검색 성공률의 주축 (최상위 에이전트 다수 채택)
GPT-5 / o3	고난도 논리 추론 및 정밀 코드 실행 성능 (복합 명령 처리의 브레인)
Claude 4.5 시리즈	장기 문맥 유지 및 멀티스텝 플래닝의 안정성 (고성능 에이전트의 핵심 파트너)
DeepSeek V3.1	저비용·고효율 추론 기반의 실시간 실무 처리 능력 (하이브리드 시스템의 주축)

이번 포스팅에서는 LMArena의 실사용 평가와 Artificial Analysis의 비용 및 지능 지수, 그리고 GAIA 리더보드를 통한 실행 능력까지 LLM의 성능을 다각도로 살펴보았습니다. 각 벤치마크 점수를 통해 모델별 고유한 강점과 실무 환경에서의 활용 가치를 체계적으로 정리하여, 사용자가 자신의 목적에 가장 적합한 모델을 판단할 수 있는 기준을 제시하고자 했습니다.

현재 AI 모델들은 단순한 지능 경쟁을 넘어 비용 효율성과 에이전트로서의 실행력이라는 새로운 단계로 빠르게 진화하고 있습니다. 특히 성능과 경제성을 동시에 확보한 모델들이 늘어나고 하이브리드 조합을 통한 실무 해결력이 강화됨에 따라, 사용자의 선택 폭은 더욱 넓어질 것으로 보입니다. 변화하는 AI 생태계 속에서 이러한 객관적인 지표를 지속적으로 업데이트하는 과정이 기술 활용의 가치를 높이는 중요한 토대가 될 것입니다.

감사합니다. 😊

[참고 링크]

실사용자 투표 기반 (LMArena) : https://lmarena.ai/ko/leaderboard
종합 벤치마크 점수 (Artificial Analysis) : https://artificialanalysis.ai/
GAIA 벤치마크 점수 (GAIA Leaderboard) : https://huggingface.co/spaces/gaia-benchmark/leaderboard

저작자표시 비영리 변경금지 (새창열림)

'AI 소식' 카테고리의 다른 글

ChatGPT Translate 소개: OpenAI의 LLM 기반 번역 서비스 (0)	2026.01.20
[정부 AI 프로젝트] 독자 AI 파운데이션 모델 1차 평가 결과 정리 (0)	2026.01.16
「독자 AI 파운데이션 모델」 프로젝트 1차 결과 정리 (SKT, 네이버, NC, LG, 업스테이지) (0)	2026.01.02
구글, 2026년을 앞두고 Google AI Pro 대규모 할인 프로모션 공개 (2)	2025.12.29
OpenAI, ChatGPT-5.2 공개: GPT-5.1 대비 무엇이 달라졌나 (0)	2025.12.12

Marcus' Stroy

2025년 연말 AI 모델 순위, 어떤 모델이 가장 뛰어났을까?

AI 모델 선택 가이드 (전체 요약)

LMArena — Text·WebDev 카테고리 TOP 모델 비교

[ Text 모델 성적 ]

[ WebDev 모델 성적 ]

Artificial Analysis — AI 종합 성능 및 비용 비교

[AI 종합 성능 지수 TOP 5]

[모델 성능별 비용]

GAIA 리더보드 – 실제 문제 해결력 평가

[GAIA 리더보드 동향 ]

'AI 소식' 카테고리의 다른 글

티스토리툴바

2025년 연말 AI 모델 순위, 어떤 모델이 가장 뛰어났을까?

AI 모델 선택 가이드 (전체 요약)

LMArena — Text·WebDev 카테고리 TOP 모델 비교

[ Text 모델 성적 ]

[ WebDev 모델 성적 ]

Artificial Analysis — AI 종합 성능 및 비용 비교

[AI 종합 성능 지수 TOP 5]

[모델 성능별 비용]

GAIA 리더보드 – 실제 문제 해결력 평가

[GAIA 리더보드 동향 ]

'AI 소식' 카테고리의 다른 글

'AI 소식' Related Articles

티스토리툴바