본문 바로가기

AI 소식

[LLM 모델 순위] Gemini 3 등장 이후 재편된 AI 모델 순위

안녕하세요,

최근 구글이 공개한 Gemini 3 시리즈는 멀티모달 처리 능력과 적응형 추론 구조를 강화하며 주요 벤치마크와 실제 활용도 전반에서 기존 흐름을 크게 재편한 모델로 평가되고 있습니다. 이러한 변화는 경쟁 모델들의 기준을 다시 설정하는 계기가 되었고, 각 서비스와 개발 환경에서의 모델 선택 전략에도 영향을 주는 상황입니다.

이번 글에서는 이러한 변화 속에서 Gemini 3의 등장 이후 주요 AI 모델들의 성능과 순위가 어떻게 재정비되었는지 살펴보겠습니다.


반응형

이번 글에서는 최신 LLM의 전반적인 역량을 세 가지 핵심 지표로 정리하여, 실제 활용 중심의 비교 관점을 제시하고자 합니다. 단순한 언어 생성의 품질을 넘어, 사용자 경험·객관적 성능·문제 해결 능력을 균형 있게 바라보는 방식으로 구성했습니다.

 

  1. 실사용자 투표 기반 순위 (LMArena) : 다양한 모델을 직접 사용한 뒤 실사용자가 투표한 결과를 집계한 지표입니다. 체감 품질과 만족도가 반영되어 실제 사용 환경에서의 강점을 파악하는 데 적합합니다.
  2. 종합 벤치마크 점수 (Artificial Analysis) : 표준화된 테스트셋을 기반으로 논리 추론, 창의적 문제 해결, 멀티모달 이해 등을 수치화한 객관적 평가지표입니다. 모델 간 순수 성능을 비교할 때 참고하기 좋습니다.
  3. GAIA 벤치마크 점수 (GAIA Leaderboard) : 외부 도구 활용, 다단계 추론, 상황 기반 문제 해결처럼 ‘실제로 행동할 수 있는 능력’을 중심으로 평가하는 지표입니다. 모델이 에이전트로서 어느 정도 실행력을 갖추고 있는지 확인하는 데 활용됩니다.

 

AI 모델 선택 가이드 (전체 요약)

활용 목적 추천 모델 주요 이유 / 특징
최고 성능 기반의 연구·프리미엄 서비스 Gemini 3 Preview (High) 전체 1위 수준의 언어·코딩·추론 성능을 제공하며 안정적인 결과를 유지함.
GPT-5.1 (High) 고난도 추론과 지식 기반 문제 해결 능력이 뛰어나 복잡한 분석 작업에 적합함.
Claude Opus 4.5 최상급 문장 품질과 문맥 일관성을 보유하나 고비용 중심의 프리미엄 모델.
코딩·디버깅·개발 중심 작업 GPT-5 Codex (High) 코드 생성·검증·분석 등 개발 환경에서 높은 정밀도를 제공함.
Claude Sonnet 4.5 / 4.x 코드 구조 이해와 논리적 추론에서 안정적인 결과를 보임.
효율 중심
(가격 대비 성능 비중이 큰 업무)
Grok 4.1 Fast 매우 낮은 비용 대비 빠른 처리 속도와 안정적 성능을 제공해 대량 처리 환경에 적합함.
Kimi K2 Thinking 성능 대비 가격 효율이 가장 우수한 모델 중 하나로 평가됨.
MiniMax-M2 저비용으로 60점대 성능을 제공하며 분석·개발 작업에 활용도가 높음.
일반 업무·검색·문서 기반 작업 Gemini 2.5 Pro 범용성이 높고 검색 기반 응답 품질이 안정적이며 실무에 적합함.
초저비용 작업
(테스트·경량 작업·대량 처리)
GPT-OSS-20B (High)
매우 낮은 단가로 대규모 테스트 환경에 적합한 경량 대형 모델.

 

 


 

 

LMArena — Text·WebDev 카테고리 TOP 모델 비교

2025년 11월 말, 업데이트된 LMArena 자료를 기준으로 TextWebDev 두 분야에서의 모델 순위를 정리했습니다. 이번 업데이트에서는 Gemini 3 Pro의 강세가 더욱 뚜렷해졌으며, Claude·Grok·GPT 계열 모델들이 상위권을 안정적으로 구성하고 있는 흐름이 확인되었습니다.

출처: LMArena (클릭시 페이지 이동)

 

[ Text 모델 성적 ]

Text 카테고리모델의 언어 이해력, 문맥 유지 능력, 추론 품질을 중심으로 종합적인 자연어 처리 수준을 평가하는 영역입니다. 일상 대화부터 복합 질의응답까지 다양한 상황에서 얼마나 자연스럽고 일관된 응답을 생성하는지가 주요 기준으로 반영됩니다.

즉, 이 부문은 모델이 언어를 얼마나 정교하게 활용하며 사용자 기대에 부합하는 대화 품질을 제공하는지를 보여주는 핵심 지표입니다.

 

2025년 11월 26일, LMArena 순위

 

  • Gemini-3-Pro — 1492점 (9,799표)
  • Grok-4.1-Thinking — 1482점 (10,067표)
  • Claude-Opus-4.5-20251101 — 1466점 (4,677표)
  • Grok-4.1 — 1464점 (9,967표)
  • GPT-5.1-High — 1461점 (7,893표)

 

[요약]
이번 업데이트에서는 Gemini-3-Pro가 Text 부문 1위를 차지하며 강력한 언어 생성 능력을 입증했습니다. Grok-4.1 시리즈는 빠른 추론 특성과 응답 일관성을 기반으로 상위권을 유지했으며, Claude-Opus-4.5 모델도 언어적 정밀성과 문맥 적응력에서 안정적인 평가를 보였습니다. GPT-5.1-High는 전체 점수 차이가 30점 미만인 치열한 구간에서 상위권을 형성하며 경쟁력을 유지하고 있습니다.

 

 

[ WebDev 모델 성적 ]

WebDev 카테고리실제 개발 환경에서의 코드 생성 품질, 디버깅 정확도, 프레임워크 이해도 등을 중심으로 모델의 실무 활용 능력을 평가하는 영역입니다. 개발 흐름을 얼마나 안정적으로 지원하고 생산성을 높이는지에 대한 지표로 활용됩니다.

즉, 이 부문은 모델이 개발 과정에서 제공하는 편의성, 코드 정확도, 작업 속도 향상 효과를 종합적으로 보여주는 평가 영역입니다.

 

2025년 11월 26일, LMArena 순위

  • Claude-Opus-4.5-20251101-Thinking — 1493점 (1,109표)
  • Claude-Opus-4.5-20251101 — 1479점 (1,421표)
  • Gemini-3-Pro — 1473점 (6,037표)
  • GPT-5-Medium — 1399점 (3,937표)
  • Claude-Sonnet-4.5-20250929-Turbo — 1397점 (5,376표)
[요약]
WebDev 분야에서는 Claude-Opus-4.5 시리즈가 1·2위를 모두 차지하며 독보적 우세를 기록했습니다. 코드 생성의 정교함과 오류 탐지 능력에서 강점을 보였으며, 장기 문맥 이해력을 기반으로 개발 편의성이 높다는 평가가 이어지고 있습니다. Gemini-3-Pro는 Text 분야에 이어 WebDev에서도 3위를 기록하며 범용적 강점을 보여주었습니다. 반면 GPT-5-Medium은 상위권에 포함되었으나 점수 간격이 다소 벌어지며 영역별 차이가 확인됩니다.

 

 

[LMArena 결과 종합 요약]
최신 순위를 종합해보면 다음과 같은 흐름이 나타납니다.

- Gemini-3-Pro는 자연어 분야에서 최고 성능을 기록하며 Text 중심 작업에 가장 안정적인 선택지로 평가되었습니다.
- Claude-Opus-4.5 시리즈는 WebDev 부문에서 강력한 우위를 보이며, 개발 중심 환경에서 실질적 도움을 제공하는 모델로 자리매김했습니다.
- Grok-4.1 Thinking·Standard 모델은 빠른 추론과 선호도 측면에서 경쟁력을 유지하며 강한 사용자 기반을 확보하고 있습니다.
- GPT-5 계열은 Text보다는 WebDev 성능 편차가 존재하지만, 전반적으로 상위권을 안정적으로 유지하는 균형형 구조를 보여주었습니다.

 

 

Artificial Analysis —  AI 종합 성능 및 비용 비교

Artificial Analysis는 사용자 투표 기반 순위와 달리, 표준화된 10개 벤치마크를 통해 모델의 지능 구조를 다각도로 평가하는 시스템입니다. 언어 이해력, 논리적 추론, 수학·코딩 능력, 지식 문제 해결력을 모두 종합하여 모델이 실제로 얼마나 깊이 있는 사고를 수행할 수 있는지를 수치화합니다. 이러한 지표는 모델의 표면적 대화 성능뿐 아니라 고난도 문제 해결력까지 균형 있게 파악할 수 있다는 점에서 의미가 있습니다.

또한 Artificial Analysis는 각 모델의 ‘Intelligence Index’뿐 아니라, 동일 성능을 내기 위해 필요한 비용(토큰 단가)까지 함께 비교할 수 있어 성능 대비 효율 관점에서의 분석이 가능하다는 점이 특징입니다.

 

출처: Artificial Analysis (클릭시 이미지 확대)

 

[AI 종합 성능 지수 TOP 5]

AI 종합 성능 지수MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode 등 총 10개 벤치마크 결과를 통합·가중하여 산출됩니다. 점수는 모델의 종합적 사고력과 문제 해결 능력을 나타내며, 높을수록 다양한 실사용 영역에서 안정적인 성능을 기대할 수 있습니다.

쉽게 말해, 여러 분야의 시험을 모두 합산해 모델의 ‘총체적 두뇌 수준’을 평가한 지표라고 이해할 수 있습니다.

 

2025년 11월 기준 순위 (Artificial Analysis)

 

  • Gemini 3 Preview (High)73점
  • Claude Opus 4.570점
  • GPT-5.1 (High)70점
  • GPT-5 Codex (High)68점
  • Kimi K2 Thinking67점

 

[요약]
2025년 11월 최신 지표에서 Gemini 3 Preview (High)가 73점으로 1위를 기록하며 언어·코딩·수학·지식 문제 영역에서 가장 높은 균형형 성능을 보여주었습니다. Claude Opus 4.5GPT-5.1(High)은 70점으로 공동 2위를 형성하며, 복합 추론 작업에서도 안정적인 성능을 이어가고 있습니다. GPT-5 Codex(High)는 코딩 중심 작업에서 뛰어난 능력을 기반으로 68점으로 4위를 기록했고, Kimi K2 Thinking은 67점으로 중국계 모델 중 가장 높은 성능을 확보하며 상위권 경쟁에 진입했습니다.
이번 결과는 상위 5개 모델 간 점수 차가 6점 이내로 좁혀지며, 최신 LLM들의 지능 격차가 빠르게 감소하고 있음을 보여줍니다.

 

 

[모델 성능별 비용]

AI 모델을 비교할 때는 단순한 성능 지수만으로는 충분하지 않으며, 각 성능 수준을 어떤 비용 구조로 달성할 수 있는지 함께 살펴보는 것이 중요합니다. 이번 분석에서는 Artificial Analysis가 공개한 ‘Intelligence vs. Cost to Run’ 데이터를 기준으로, 2025년 11월 시점의 모델별 비용 효율성을 성능 지수와 함께 종합적으로 정리했습니다. 여기서 비용은 입력(Input)과 출력(Output) 토큰 단가를 3:1 비율로 가중하여 산출된 값으로, 실제 서비스 환경에서 체감되는 비용 구조를 보다 정확하게 반영하도록 구성된 지표입니다.

 

2025년 11월 기준 순위 (Artificial Analysis)

구분 성능
지수
모델명 비용
(1M 토큰당, USD)
설명
상용모델 65점 이상 Gemini 3 Preview (High) 4.5 전체 1위 성능. 고난도 언어·코딩·수학 작업에서 안정적인 결과를 제공하는 프리미엄 모델.
Claude Opus 4.5 10 성능은 최상급이나 비용 부담이 크며 프리미엄 서비스 환경에 적합한 모델.
GPT-5.1 (High) 3.44 추론·지식 기반 문제 해결 능력이 뛰어난 상위권 모델.
GPT-5 Codex (High) 3.44 코드 생성과 분석 중심 환경에서 고정밀 결과를 제공하는 코딩 특화형 모델.
Grok 4 6 빠른 처리 속도와 안정적 추론 능력을 기반으로, 중간 비용 대비 높은 실사용 효율을 제공하는 모델입니다.
65점 미만 Grok 4.1 Fast 0.28 낮은 비용 대비 고속·안정적 성능을 보이는 효율 특화형 모델.
Claude 4.5 Sonnet 6 언어적 안정성과 논리적 일관성이 강점인 중간 비용 상용 모델.
Gemini 2.5 Pro 3.44 범용성이 우수하며 성능 대비 안정적 비용 구조를 가진 실무형 모델.
오픈소스 모델 60점 이상 Kimi K2 Thinking 1.07 성능(67점) 대비 비용이 극단적으로 낮아 전체 효율 1위로 평가되는 모델.
MiniMax-M2 0.53 오픈소스 계열 중 최고 효율. 분석 및 개발 환경에서 활용도 높음.
GPT-OSS-120B (High) 0.26 상용급 품질을 저비용에 제공하는 대형 오픈소스 모델.
60점 미만 GLM-4.6 1 텍스트·지식 중심 작업에서 비용 대비 성능이 안정적인 모델.
GPT-OSS-20B (High) 0.1 실험·테스트용으로 적합한 초저가 모델로 접근성이 우수함.
DeepSeek R1 0528 2.36 긴 문맥 처리 능력과 코드 추론 강점이 있는 중간 비용 모델.
Llama Nemotron Super 49B v1.5 0.17 초저비용으로 코드·텍스트 실무에 활용 가능한 경량 대형 모델.
비용 : 비용은 입력(Input) 토큰과 출력(Output) 토큰의 가격을 3:1 비율로 가중 평균하여 계산한 값입니다.

 

[Artificial Analysis 결과 종합 요약]
2025년 11월 기준 분석에서 상용 모델군은 여전히 높은 성능 중심의 구도를 유지하고 있습니다. Gemini 3 Preview (High), GPT-5.1(High), GPT-5 Codex(High)상위권 지능 지수를 기록하며, 고난도 언어·코딩·추론 작업을 안정적으로 처리해 연구·프리미엄 서비스 환경에 적합한 모델로 평가됩니다. Claude Opus 4.5는 최상급 품질을 유지하고 있으나 비용 부담이 매우 큰 편으로, 비용 대비 효율보다는 품질 중심 환경에서 주로 활용되는 방향성이 나타납니다.

비용 효율 측면에서는 Grok 4와 Grok 4.1 Fast가 낮은 비용 대비 안정적 추론 품질을 보여 실사용 환경에서 경쟁력이 높게 평가됩니다. 특히 Grok Fast는 0.28달러 수준의 저비용과 빠른 처리 속도를 바탕으로 효율 중심 모델로 주목받고 있습니다.

오픈소스 모델
중에서는 MiniMax-M2가 60점대 지능 지수와 저비용(0.53달러)을 함께 달성해 가장 높은 효율성을 보여주는 모델로 확인되었습니다. GPT-OSS-120B(High) 역시 0.26달러에서 상용급 품질을 제공해 실무 활용도가 높으며, DeepSeek R1(0528)은 중간 비용 구간에서 긴 문맥 처리와 코드 추론 능력을 제공해 실용적 성격이 강한 모델로 평가됩니다.

종합적으로 보면, 상용 모델은 성능·정확성·안정성을 중심으로, 오픈소스 모델은 비용 효율성과 접근성을 중심으로 경쟁 체계를 형성하고 있습니다. 그중에서도 Grok Fast, MiniMax-M2, Kimi K2 Thinking과 같은 효율형 모델들은 성능 대비 비용 경쟁력이 크게 강화된 흐름을 보여주며, 실제 AI 활용 환경에서 점점 더 중요해지는 선택지로 자리잡고 있습니다.

 

 

GAIA 리더보드 – 실제 문제 해결력 평가

GAIA 리더보드AI 에이전트가 도구(tool) 활용, 멀티스텝 플래닝, 실시간 정보 검색, 코드 실행 등 실제 작업 환경에서 필요한 복합 절차를 얼마나 안정적으로 수행하는지를 평가하는 지표입니다. 단순 정답률이 아니라 “현실적인 작업 수행 능력”을 중점으로 보기 때문에, 에이전트 기반 서비스나 자동화 시스템을 구축하는 데 중요한 참고 자료로 활용됩니다. 평가 항목에는 웹 검색, 데이터 분석, 문서 요약, 코드 실행, 멀티모달 추론 등이 포함되며, 각 에이전트가 이를 얼마나 높은 성공률로 처리하는지에 따라 점수가 산출됩니다.

출처: GAIA 리더보드 (클릭시 페이지 이동)

 

 

[GAIA 리더보드 동향 ]

2025년 11월 기준 상위 에이전트들의 성적은 다음과 같이 정리됩니다. Co-Sight v2.1.0은 평균 87.04점을 기록하며 1위를 차지했고, JoinAI v1.1은 86.71점으로 2위에 위치했습니다. 이 밖에 AIP Agent가 85.71점을 기록해 3위에 올랐고, LEAgent v1.0과 ShawnAgent v1.7이 각각 85.05점을 기록하며 상위권을 형성했습니다. 이들 모델은 공통적으로 Claude Sonnet 4.x, Gemini 2.5 Pro, GPT-5 계열, o3 모델, DeepSeek V3.1 등을 함께 조합하는 구조를 갖추고 있으며, 다양한 문제 유형에서 일관된 성능을 보여주고 있습니다.

Gemini와 Claude 기반 조합은 검색·추론·요약 등 다양한 에이전트 단계에서 안정성을 확보하며 표준적인 구성으로 자리하고 있습니다. 또한 DeepSeek V3.1을 포함한 JoinAI의 상위권 유지 사례는, 오픈소스 모델이 에이전트 환경에서 점차 활용 범위를 넓혀가고 있음을 보여주는 자료로 해석할 수 있습니다.

 

[GAIA 결과 요약]

에이전트 사용 모델 에이전트 활용도 / 성능 요약
Claude Sonnet 4.x 대부분의 상위권 에이전트에서 공통적으로 사용되며, 복합 추론·플래닝·문서 요약 등에서 가장 안정적인 성능을 제공함.
Gemini 2.5 Pro Claude와 함께 사용될 때 도구 활용·검색 기반 추론·정보 연계 작업에서 높은 성공률을 기록하며 상위권 에이전트 성능을 견인함.
GPT-5 / o3 계열 코드 실행·복잡한 명령 처리 등 높은 정밀도가 필요한 단계에서 성능을 보완하는 역할을 수행함.
DeepSeek V3.1 / R1 JoinAI 등 복합형 에이전트에서 지원 모델로 활용되며, 저비용-고효율의 실시간 처리 능력으로 채택 비중이 확대되는 추세임.

 


 

이번 글에서는 최신 AI 모델들의 성능 지수, 비용 구조, 실제 문제 해결력까지 종합적으로 살펴보며 각 모델이 어떤 분야에서 강점을 보이는지 정리했습니다. Text·WebDev 실사용 평가, 표준화된 벤치마크 지수, GAIA 기반 에이전트 성능까지 함께 비교함으로써, 모델 선택 시 고려해야 할 핵심 기준들을 체계적으로 정리하는 데 목적이 있었습니다. 이러한 비교를 통해 사용자는 자신의 업무 환경에 가장 적합한 모델을 보다 명확하게 판단할 수 있습니다.

 

앞으로 AI 모델들은 성능뿐 아니라 효율성·조합 활용성·에이전트 완성도 측면에서 더욱 빠르게 발전할 것으로 예상됩니다. 특히 비용 대비 성능 경쟁이 강화되고, 오픈소스 모델의 실무 적용 가능성이 높아지면서 선택 폭은 더욱 넓어질 것입니다. 변화하는 AI 생태계 속에서 필요한 기준을 지속적으로 업데이트하는 과정이 앞으로의 기술 활용 가치와 연결될 것입니다.

 


감사합니다. 😊

 

 


[참고 링크]

 

반응형