본문 바로가기

AI 소식/오픈소스 AI 모델

[오픈소스 AI] 중국 Z.ai의 최신 V-LLM, GLM-4.5V를 소개합니다.

안녕하세요,

최근 Z.ai에서 오픈소스로 공개한 GLM-4.5 모델에 대한 포스팅을 진행한 바 있습니다. 이번에는 한 단계 더 발전된 형태로, 텍스트뿐만 아니라 이미지와 영상을 인식할 수 있는 비전 인식 통합 모델 GLM-4.5V를 새롭게 선보였습니다. GLM-4.5V는 기존 언어 처리 능력에 시각적 이해를 결합하여, 이미지 설명 생성, 멀티모달 질의응답, 시각적 추론 등 더욱 확장된 활용이 가능한 모델입니다. 특히 오픈소스로 제공되기 때문에 누구나 직접 실험하고 응용할 수 있다는 점에서 의미가 큽니다.

이번 포스팅에서는 GLM-4.5V 모델의 특징, 그리고 실제로 어떠한 성능을 보여주는지 살펴보겠습니다.


 

반응형

GLM-4.5V 모델

2025년 8월 11일, 중국 Z.ai는 GLM-4.5V를 오픈소스 비전–언어 통합 인공지능 모델로 공개했습니다. 이 모델은 텍스트 처리 능력에 더해 이미지, 비디오, 문서, GUI 등 다양한 시각 정보를 이해하고 추론할 수 있도록 설계된 것이 특징입니다. 42개 공개 벤치마크에서 최고 성능을 기록했으며, 닫힌 소스 모델(예: GPT-4o)과 비교해도 뒤처지지 않는 성능을 보여주고 있습니다. 또한 빠른 응답과 심층 추론을 자유롭게 전환할 수 있는 Thinking Mode를 지원하며, 실생활에서 활용 가능한 다양한 멀티모달 기능을 갖추고 있어 연구와 응용 모두에 적합한 최신 AI 모델로 평가되고 있습니다.

 

 

GitHub - zai-org/GLM-V: GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learn

GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning - zai-org/GLM-V

github.com

 

[모델 정보 요약]

항목 내용
모델명 GLM‑4.5V
파라미터 수 총 1,060억 개 파라미터 / 활성화되는 파라미터는120억 개
개발사 Zhipu AI (현 Z.ai)
출시일 2025년 8월 11일
컨텍스트 길이 64 K
학습 방식 Reinforcement Learning with Curriculum Sampling (RLCS, 다중 도메인 강화 학습 방식)
특징 - 이미지·비디오·문서·GUI 등 광범위한 시각 정보 이해 및 추론 가능
- Thinking Mode(심층 추론) ↔ Non-Thinking Mode(빠른 응답) 전환 가능
- 시각적 grounding, GUI 조작, 코드 생성, 차트 해석, 장문 문서 인식 등 다양한 멀티모달 기능 지원
- 42개 공개 벤치마크에서 오픈소스 SOTA 달성, 일부 닫힌 소스 모델과도 경쟁 가능한 성능
라이선스 MIT License (상업적 사용 가능)

 

 

주요 특징

GLM‑4.5V의 주요 기능은 다음과 같습니다.

  • 멀티모달 추론 능력: 텍스트, 이미지, 비디오, 차트, GUI(버튼·아이콘 식별), 문서(PDF, PPT 등)를 동시에 처리할 수 있는 멀티모달 AI.
  • Thinking Mode 지원: 빠른 응답 모드와 심층 추론 모드 사이를 자유롭게 전환 가능.
  • 정확한 시각적 위치 식별: 복잡한 장면에서 사물·캐릭터·관계·배경 정보를 이해하며, 시각적 인식 및 GUI 요소 식별에서 높은 성능 발휘.
  • 실사용성 강화: 효율적인 하이브리드 학습 방식을 적용하여 다양한 시각 콘텐츠를 처리하고 실제 응용 환경에서도 높은 활용성 제공.

 

 

벤치마크 성능

GLM-4.5V는 다양한 벤치마크에서 전반적으로 높은 성능을 기록한 모델입니다. 일반 VQA, STEM, 비주얼 그라운딩, 영상 이해, GUI 작업 등 대부분의 영역에서 다른 오픈소스 모델 대비 우수한 점수를 보여주고 있습니다. 특히 RefCOCO·Ref-L4와 같은 시각적 추론Chart·OCR 관련 작업에서 두드러진 성능을 나타내고 있습니다. 또한 긴 문서 처리와 비디오 이해 영역에서도 안정적인 결과를 보이며, 멀티모달 AI 모델로서 균형 잡힌 능력을 갖추고 있습니다.

 

아래는 GLM-4.5V의 벤치마크 성능을 비교한 이미지입니다.

출처: Z.ai 깃허브 (클릭시 페이지 이동)

 

 

라이선스

GLM-4.5V는 MIT 라이선스를 적용하여 공개된 오픈소스 모델입니다. MIT 라이선스는 가장 자유도가 높은 라이선스 중 하나로, 연구·개발 목적은 물론 상업적 활용까지 폭넓게 허용됩니다. 사용자는 모델을 자유롭게 수정, 재배포, 응용할 수 있으며, 기업이나 개인이 상업적 서비스에 직접 적용하는 것도 가능합니다. 이러한 개방적인 라이선스 정책 덕분에 GLM-4.5V는 다양한 연구자와 개발자들이 제약 없이 활용할 수 있는 실용성이 높은 모델입니다.

 


GLM-4.5V 사용하기

이 모델은 Z.ai의 공식 허깅페이스를 통해 공개되었습니다. 다만 전체 모델 크기가 약 215GB에 달하기 때문에 상당한 수준의 컴퓨팅 자원을 필요로 합니다. 따라서 일반적인 개인용 PC 환경에서 직접 실행하기는 어렵우나, Z.ai 플랫폼을 통해 누구나 무료로 GLM-4.5V를 체험할 수 있는 환경이 제공되고 있습니다.

아래에서는 Z.ai 플랫폼을 활용하여 GLM-4.5V를 실제로 사용해보고, 그 결과와 성능에 대해 간단히 살펴보겠습니다.

Z.ai 플랫폼에 접속하면 화면 왼쪽 상단에서 원하는 모델을 직접 선택할 수 있습니다. 이 중 GLM-4.5V를 선택하면, 프롬프트 입력창에서 단순히 텍스트만 입력하는 것이 아니라 이미지 파일을 업로드하여 분석 요청을 할 수 있는 기능이 활성화됩니다. 또한 이미지뿐만 아니라 영상 파일까지 입력할 수 있어, 장면 이해나 이벤트 인식 등 다양한 멀티모달 작업을 실험할 수 있습니다.

출처: Z.ai 플랫폼 (클릭시 페이지 이동)

 

[실행 결과 예시 1]

간단한 이미지를 업로드한 뒤 “이미지를 설명해 달라”는 요청을 한글로 입력하면, GLM-4.5V는 한국어로 오류 없이 자연스러운 답변을 제공합니다. 업로드한 이미지를 세밀하게 분석해 장면 속 인물, 사물, 배경 요소까지 구체적으로 설명하며, 한국어 표현 또한 매끄럽게 처리합니다.

예를 들어, 인물이 등장하는 이미지에서는 착용한 옷, 마스크, 들고 있는 꽃, 주변 배경 등을 세부적으로 묘사해 주었고, 도로 표지판 이미지에서는 표지판의 색상, 글자, 거리 정보, 속도 제한 표식까지 정확히 짚어주었습니다. 이를 통해 GLM-4.5V가 단순히 이미지를 인식하는 수준을 넘어, 맥락을 파악하고 한국어로 풍부한 설명을 제공할 수 있음을 확인할 수 있습니다.

실행 결과 예시 1 (클릭시 이미지 확대)

 

[실행 결과 예시 2]

택배 송장과 같이 한글이 많이 포함된 이미지를 업로드했을 때, GLM-4.5V는 글자가 뚜렷하게 표기된 경우 상당히 정확하게 인식하여 표 형태로 변환해 주었습니다. 실제로 이름, 주소, 체크박스 영역 등은 비교적 잘 추출되었으며, 전체 레이아웃 또한 깔끔하게 재구성되었습니다.

다만 이미지의 해상도가 조금 낮거나 텍스트가 흐릿한 경우에는 일부 단어를 잘못 인식하는 현상이 나타났습니다. 예를 들어, 이미지 속 원문에는 "우편법 39, 40조"라고 되어 있었지만 결과에서는 "우편비 39,40원"으로 잘못 표기되는 오류가 발생했습니다. 이처럼 텍스트가 많거나 글자가 작은 경우 결과의 퀄리티가 다소 떨어질 수 있습니다.

실행 결과 예시 2 (클릭시 이미지 확대)

 

GLM-4.5V 모델은 기본적으로 이미지뿐만 아니라 영상까지 인식하고 이해할 수 있는 모델이지만, 현재 제공되는 Z.ai 플랫폼 환경에서는 영상 파일 입력 기능이 아직 지원되지 않아 실제로 영상 인식 기능을 직접 활용해볼 수는 없습니다. 이 기능은 추후에 업데이트 될 것으로 보입니다.

 


 

GLM-4.5V는 다양한 벤치마크에서 입증된 뛰어난 성능을 통해 멀티모달 AI의 가능성을 한층 더 확장한 모델입니다. 특히 이러한 수준 높은 모델이 오픈소스로 공개되었다는 점은, 더 많은 연구자와 개발자들이 자유롭게 활용하고 발전시킬 수 있는 토대를 마련했다는 의미를 지닙니다. 앞으로 GLM-4.5V를 비롯한 오픈소스 AI 모델들이 더욱 널리 사용되어, 인공지능의 혜택이 많은 사람들에게 고르게 전달되기를 기대합니다.

 

감사합니다. 😊

 

반응형