안녕하세요,
최근에는 단일 LLM 모델의 성능 경쟁을 넘어, 다양한 시스템과 결합해 실제 환경에서 문제를 해결하는 AI 에이전트가 빠르게 확산되고 있습니다. 이제는 모델이 단순히 좋은 답변을 내는 것만으로는 충분하지 않으며, 도구 활용 능력과 멀티스텝 추론을 통해 실제 문제를 해결할 수 있는지까지 평가하는 것이 중요해졌습니다.
이번 글에서는 LMArena와 Artificial Analysis 같은 모델 벤치마크와 최근 주목받는 GAIA 리더보드를 함께 살펴보고자 합니다. 이를 통해 모델의 순수 성능뿐 아니라 현실 환경에서의 활용 능력과 에이전트로서의 문제 해결력까지 종합적으로 비교해 보겠습니다.
이번 글은 세 가지 주요 지표를 기반으로, 모델 자체의 성능뿐만 아니라 AI 에이전트로서 발휘하는 문제 해결 능력까지 함께 살펴보고자 합니다. 이 글에서는 이 세 가지 지표를 함께 살펴보며, 현재 시장에서 주목할 만한 모델들의 특징과 강점을 비교 정리합니다. 이어지는 본문에서는 2025년 9월 최신 순위표와 모델별 장단점에 대해 알아보겠습니다.
- 실사용자 투표 기반 순위 (LMArena) : 실제 사용자가 모델을 체험한 뒤 투표로 평가한 결과를 바탕으로 산출되며, 체감 성능과 사용자 만족도를 가장 잘 반영하는 지표입니다.
- 종합 벤치마크 점수 (Artificial Analysis) : 표준 테스트셋을 활용해 추론 능력, 창의성, 멀티모달 이해력 등을 점수화한 객관적인 성능 지표입니다.
- GAIA 벤치마크 점수 (GAIA Leaderboard) : GAIA는 단일 모델만 평가하는 것이 아니라, 모델이 외부 도구를 활용하고 여러 단계를 거쳐 실제 문제를 해결하는 ‘AI 에이전트’로서의 성능을 측정합니다. 따라서 GAIA 점수는 모델의 순수 추론력보다는 실제 환경에서의 업무 수행력과 문제 해결 능력을 보여주는 지표로 이해하는 것이 좋습니다.
AI 모델 선택 가이드 (전체 요약)
목적 | 추천 모델 |
최고 성능 | - GPT-5 (high) |
일반 대화·글쓰기 | - Gemini-2.5-Pro - Claude-Opus-4.1 Thinking-16k |
웹 개발·코딩 | - GPT-5 (high) - Claude-Opus-4.1 |
가성비 모델 | - Gemini-2.5 Flash - GPT-OSS-120B (오픈소스 모델) - DeepSeek-V3.1 (오픈소스 모델) |
초저가·경량 환경 | - GPT-OSS-20B (오픈소스 모델) |
실제 문제 해결력 (에이전트) | - Claude Sonnet 4 - Gemini-2.5-Pro - GPT-4.1 |
LMArena — Text·WebDev 카테고리 TOP 모델 비교
AI 모델 성능을 실사용자 투표 기반으로 비교하는 플랫폼 LMArena의 2025년 9월 최신 순위를 바탕으로, Text(일반 대화)와 WebDev(웹 개발) 두 가지 주요 카테고리에서 어떤 모델들이 두각을 나타내고 있는지 비교해 보겠습니다.
[ Text 모델 성적 ]
Text 카테고리는 모델의 전반적인 언어 이해력, 추론, 문맥 파악 능력을 종합적으로 평가하는 핵심 분야입니다. 일상적인 대화, 창의적인 글쓰기, 복잡한 질문에 대한 답변 등 다양한 상황에서 사용자가 얼마나 만족스러운 경험을 얻었는지를 기준으로 순위가 매겨집니다. 즉, 어떤 모델이 가장 유저 친화적이고 일관된 대화를 제공하는지를 보여주는 척도로 활용됩니다.
2025년 9월 8일, LMArena 순위
- Gemini-2.5-Pro — 점수 1455 (41,731표)
- Claude-Opus-4.1-thinking-16k — 점수 1451 (11,750표)
- o3 (2025-04-16) — 점수 1444 (43,898표)
- GPT-5-high — 점수 1442 (15,076표)
- ChatGPT-4o (20250326) — 점수 1441 (36,426표)
[요약]
Gemini-2.5-Pro가 근소한 차이로 1위를 차지하며 뛰어난 범용성을 다시 한번 입증했습니다. Claude-Opus-4.1도 바로 뒤를 이어 강력한 성능을 보여주었으며, 상위 5개 모델은 서로 매우 근소한 차이로 순위가 갈렸습니다.
[ WebDev 모델 성적 ]
WebDev 카테고리는 코드 생성, 디버깅, 프레임워크 이해도 등 웹 개발과 관련된 전문적인 작업 능력을 집중적으로 평가합니다. 실제 개발 환경에서 생산성을 얼마나 높여줄 수 있는지가 순위의 핵심 기준이 됩니다. 사용자가 개발 과정에서 느끼는 편의성과 생산성 향상 정도를 기준으로 순위가 매겨지며, 어떤 모델이 실제 개발 환경에서 가장 유용한지를 보여주는 척도로 활용됩니다.
2025년 9월 9일, LMArena 순위
- GPT-5 (high) — 점수 1483 (4,330표)
- Claude-Opus-4.1-thinking-16k — 점수 1476 (2,303표)
- Claude-Opus-4.1 — 점수 1448 (2,639표)
- Gemini-2.5-Pro — 점수 1405 (7,854표)
- DeepSeek-R1 (0528) — 점수 1393 (4,800표)
[요약]
Text 분야와 달리, WebDev에서는 GPT-5가 압도적인 1위를 차지하며 코딩 능력에서의 강점을 명확히 보여주었습니다. Claude 모델들도 상위권을 휩쓸며 개발 작업에 특화된 성능을 증명했습니다. 반면, Text 1위였던 Gemini-2.5-Pro는 4위로, 모델별 강점 분야가 뚜렷하게 나뉘는 것을 확인할 수 있습니다.
(LMArena 결과 요약)
Text와 WebDev 카테고리 결과를 함께 보면, 모델마다 강점이 뚜렷하게 나뉜다는 점을 알 수 있습니다. Gemini-2.5-Pro는 대화와 글쓰기 같은 일반 언어 작업에서 강세를 보였고, GPT-5는 코드 작성·디버깅 등 개발 환경에서 압도적인 성능을 보여주었습니다. Claude-Opus-4.1 시리즈는 두 영역 모두에서 안정적으로 상위권을 차지하며 균형 잡힌 성능을 입증했습니다.
Artificial Analysis — AI 종합 성능 및 가성비 비교
LMArena가 실제 사용자들의 평가를 통해 모델의 실용성을 보여준다면, Artificial Analysis는 엄격한 표준 테스트를 통해 모델의 객관적인 지능과 효율성을 측정합니다. MMLU-Pro, GPQA Diamond 등 8가지 전문 벤치마크를 종합하여 언어, 추론, 코딩, 수학 등 다방면에 걸친 모델의 역량을 정밀하게 점수화합니다. 이를 통해 '가장 강력한 모델'과 '가장 효율적인 모델'은 무엇인지 살펴보겠습니다.
[AI 종합 성능 지수 TOP 5]
AI 종합 성능 지수는 모델의 순수한 지능과 문제 해결 능력을 보여주는 지표입니다. 점수가 높을수록 다양한 분야에서 복잡하고 어려운 과제를 해결할 능력이 뛰어나다는 것을 의미합니다.
2025년 9월 기준 순위 (Artificial Analysis)
- GPT-5 (high) — 66.69점
- Grok-4 — 65.26점
- o3 — 65.20점
- Gemini 2.5 Pro — 59.59점
- Claude 4.1 Opus — 59.27점
[요약]
GPT-5가 LMArena의 WebDev 분야에 이어 종합 성능에서도 1위를 차지하며 현존 최강의 성능을 다시 한번 입증했습니다. Grok-4와 o3가 그 뒤를 바짝 쫓으며 치열한 2위 경쟁을 벌이고 있으며, Gemini와 Claude 역시 상위 5위권을 유지하며 강력한 경쟁력을 보여주고 있습니다.
[가성비 우수 모델 TOP 5]
아무리 성능이 뛰어나더라도 비용이 과도하면 실제 서비스 적용이 어렵습니다. 이번 비교에서는 ‘성능 대비 가격(Intelligence vs. Price)’ 지표를 활용했으며, 모델의 종합 성능 점수를 100만 토큰당 비용으로 나누어 계산한 '가성비' 지표입니다.
기준은 가장 성능 지수가 높은 GPT-5로 설정했으며, 이보다 비용이 높은 모델은 가성비가 낮다고 판단해 비교 대상에서 제외했습니다.
2025년 9월 기준 순위 (Artificial Analysis)
구분 | 성능 지수 | 모델명 | 비용 (100만 토큰당 $) |
설명 |
상용 모델 |
50점 이상 | GPT-5 | 3.44 | 최고의 성능을 제공하지만 비용이 높은 편입니다. 최고 수준의 언어 이해력과 추론 성능이 필요할 때 선택할 만한 프리미엄 모델입니다. |
Gemini-2.5 Flash (Reasoning) |
0.85 | 저렴한 비용에 빠른 응답과 안정적인 추론력을 제공하는 모델로, 고성능을 유지하면서 비용을 절감하려는 사용자에게 적합합니다. | ||
50점 미만 | Grok Code Fast 1 | 0.53 | 코드 작업에 최적화된 모델로, 매우 저렴한 가격 대비 높은 코드 생성 효율성을 제공합니다. | |
오픈 소스 모델 |
50점 이상 | GPT-OSS-120B (high) | 0.26 | 상용 모델에 가까운 성능을 매우 낮은 비용으로 제공하는 초대형 오픈소스 모델로, 연구와 실제 서비스에서 가성비가 뛰어납니다. |
Qwen3 235B 2507 | 2.63 | 대규모 파라미터를 활용한 높은 성능을 제공하지만, 비용이 다소 높은 편이라 중요한 프로젝트에서 선택 가치가 있습니다. | ||
DeepSeek V3.1 (Reasoning) |
0.96 | 합리적인 가격에 긴 문맥 처리와 추론 모드를 지원하여 복잡한 작업에서도 비용 대비 우수한 성능을 보여줍니다. | ||
50점 미만 | GPT-OSS-20B (high) | 0.09 | 가장 저렴한 초대형 오픈소스 모델로, 제한된 예산 환경이나 대량 토큰 사용 시 최적의 가성비를 제공합니다. |
비용 : 비용은 입력(Input) 토큰과 출력(Output) 토큰의 가격을 3:1 비율로 가중 평균하여 계산한 값입니다.
GAIA 리더보드 – 실제 문제 해결력 평가
LMArena와 Artificial Analysis가 단일 모델의 성능을 중심으로 평가한다면, GAIA 리더보드는 한 단계 더 나아가 AI 에이전트의 실제 문제 해결 능력을 측정합니다. 모델 + 도구(tool) + 멀티스텝 플래닝이 결합된 환경에서, 웹 검색·코드 실행·문서 요약·복잡한 멀티스텝 추론 등 실제 업무에서 발생할 법한 과제를 얼마나 잘 해결하는지를 성공률(%)로 평가합니다.
GAIA 결과는 단일 모델의 추론 점수만으로는 알 수 없는 현실 문제 해결력을 보여줍니다. 특히 Claude Sonnet 4와 Gemini-2.5-Pro를 조합한 에이전트가 평균 84점 이상으로 가장 높은 성공률을 기록했으며, GPT-4.1 단독 기반 에이전트 역시 상위권을 유지했습니다.
이 결과는 모델 조합 전략과 툴 활용 능력이 실제 성능에 미치는 영향이 크다는 점을 시사하며, 단순히 “어떤 모델이 가장 똑똑한가”를 넘어서 “현실 환경에서 누가 일을 가장 잘하는가”라는 관점에서 모델을 선택할 필요가 있음을 보여줍니다.
(GAIA 결과 요약)
에이전트 사용 모델 | 에이전트 활용도 / 성능 |
Claude Sonnet 4 | 상위권 에이전트 대부분에서 사용, Level 1·2 문제 해결에서 매우 높은 성공률 |
Gemini-2.5-Pro | Claude와 조합 시 평균 점수 84점 이상, 범용 문제 해결 능력 탁월 |
GPT-4.1 | 단일 모델 기반 에이전트로도 상위권 유지, 안정적인 결과 |
GPT-5, o3 | ShawnAgent 등 일부 멀티모델 에이전트에 포함되어 높은 성능 기여 |
2025년 9월, LMArena, Artificial Analysis, GAIA 등 다양한 리더보드를 바탕으로 최신 AI 모델 성능을 종합적으로 비교했습니다. Text와 WebDev 카테고리에서 Gemini-2.5-Pro, GPT-5, Claude Opus 4.1이 두각을 나타냈고, 종합 벤치마크에서는 GPT-5가 가장 높은 점수를 기록했습니다. 또한 비용 대비 성능을 고려했을 때 GPT-OSS-120B, DeepSeek V3.1 같은 오픈소스 모델들이 강력한 대안이 될 수 있음을 확인했습니다. 마지막으로 GAIA 리더보드를 통해 실제 문제 해결 상황에서 Claude Sonnet 4, Gemini-2.5-Pro, GPT-4.1 기반 에이전트가 높은 성공률을 보인다는 점을 알 수 있었습니다.
결과적으로, 모든 상황에서 만능인 모델은 없으며 사용 목적에 맞춰 적합한 모델을 선택하는 것이 가장 중요합니다. 일반 대화·글쓰기에는 Gemini나 Claude가, 웹 개발에는 GPT-5나 Claude가, 가성비와 대규모 실험에는 GPT-OSS 계열이나 DeepSeek이 적합합니다. 현실 문제 해결력까지 고려한다면 Claude Sonnet 4와 Gemini-2.5-Pro를 조합한 에이전트나 GPT-4.1 기반 에이전트를 활용하는 것이 효과적입니다. 이러한 종합 가이드는 모델 선택 시 불필요한 시행착오를 줄이고, 목적에 맞는 최적의 LLM 전략을 세우는 데 도움이 됩니다.
감사합니다. 😊
[참고 링크]
- 실사용자 투표 기반 (LMArena) : https://lmarena.ai/leaderboard
- 종합 벤치마크 점수 (Artificial Analysis) : https://artificialanalysis.ai/
- GAIA 벤치마크 점수 (GAIA Leaderboard) : https://huggingface.co/spaces/gaia-benchmark/leaderboard
'AI 소식' 카테고리의 다른 글
OpenAI의 에이전트 코딩 모델, GPT‑5-Codex를 소개합니다. (0) | 2025.09.18 |
---|---|
카카오 PlayMCP란 무엇인가|MCP 기반 AI 실험 공간 살펴보기 (2) | 2025.09.05 |
GPT-5 출시 후 LLM 성능 비교|2025년 8월 최신 AI 모델 순위 정리 (5) | 2025.08.26 |
GPT-5 출시 이후 논란과 대응, GPT-4o·4.1 다시 제공 시작 (2) | 2025.08.18 |
Anthropic Claude Opus 4.1 출시 | 벤치마크 성능·구독별 접근 권한 총정리 (6) | 2025.08.13 |