본문 바로가기

AI 소식/오픈소스 AI 모델

[오픈소스 AI] Z.AI에서 공개한 OCR 모델, GLM-OCR을 소개합니다.

안녕하세요,

최근에는 문서 처리 기술이 빠르게 발전하면서, 단순히 이미지 속 텍스트를 추출하는 수준을 넘어 문서의 구조와 의미까지 함께 이해하려는 OCR 모델들이 등장하고 있습니다. 특히 표, 수식, 레이아웃과 같은 복잡한 요소를 정확하게 분석하고, 이를 구조화된 데이터로 변환하기 위한 접근이 이어지면서 기존 OCR 방식의 한계를 보완하려는 시도도 계속되고 있습니다. 이러한 흐름 속에서 Z.ai는 문서 이해에 특화된 OCR 모델, GLM-OCR을 공개했습니다.

이번 글에서는 GLM-OCR 모델의 개념과 주요 특징, 벤치마크 성능, 그리고 간단한 사용 방법까지 함께 살펴보겠습니다.


반응형

GLM-OCR 모델이란

2026년 2월, Z.ai에서 멀티모달 OCR 모델, GLM-OCR을 공개했습니다. 이 모델은 단순한 문자 인식을 넘어 복잡한 문서 구조까지 이해하는 데 초점을 둔 모델입니다. 기존 OCR이 이미지 속 텍스트를 추출하는 데 집중했다면, GLM-OCR은 한 단계 더 나아가 문서의 레이아웃, 표, 수식, 코드와 같은 요소까지 함께 이해하고 구조화된 형태로 변환하는 것이 특징입니다. 약 0.9B(9억) 파라미터 규모로 설계되어, 비교적 작은 모델 크기에도 불구하고 높은 성능을 목표로 하는 효율적인 구조를 갖추고 있습니다.

 

 

zai-org/GLM-OCR · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

 

[모델 정보 요약]

항목 내용
모델 버전 GLM-OCR
개발사 Z.ai (Zhipu AI 계열)
파라미터 수 약 0.9B (약 9억)
구조 특징 GLM-V 아키텍처 기반 (Vision Encoder + Language Decoder 구조)
주요 기능 텍스트 인식 + 문서 구조 이해 (표, 수식, 레이아웃 등)
성능 특징 문서 이해 중심 OCR, 표/수식/레이아웃 처리에 강점
사용 목적 문서 자동화, 데이터 추출, OCR 기반 AI 파이프라인
라이선스 MIT 라이선스
모델 경로 Hugging Face 제공

 

 

주요 특징

GLM-OCR은 단순 OCR 모델과 구분되는 몇 가지 핵심 특징을 갖습니다.

  1. 문서 이해 중심 OCR : 텍스트 인식뿐 아니라 문서의 구조(헤더, 표, 수식 등)를 함께 이해하며, 결과를 Markdown, JSON, LaTeX 등으로 변환할 수 있습니다.
  2. 경량 모델 + 높은 성능 : 약 0.9B 파라미터 규모로 설계되어, 고성능 모델 대비 훨씬 낮은 리소스로 실행 가능하면서도 높은 정확도를 유지합니다.
  3. Multi-Token Prediction (MTP) : 한 번에 여러 토큰을 예측하는 방식으로 디코딩 속도를 개선하고, 전체 추론 효율을 높인 것이 특징입니다.
  4. 실무 환경 최적화 : 코드 문서, 복잡한 표, 스탬프, 다양한 폰트와 레이아웃 등 실제 환경에서 자주 등장하는 복잡한 입력에서도 안정적인 성능을 유지합니다.
  5. 다양한 배포 환경 지원 : vLLM, Ollama, Transformers 등 다양한 환경에서 실행할 수 있어, 로컬부터 서버, 엣지 환경까지 유연하게 활용할 수 있습니다.

 

 

벤치마크 성능

GLM-OCR 모델은 다양한 문서 이해 및 OCR 벤치마크에서 전반적으로 높은 성능을 기록하며, 특히 OmniDocBench와 OCRBench와 같은 핵심 지표에서 높은 점수를 통해 문서 구조 이해와 텍스트 인식 정확도를 동시에 확보한 것이 특징입니다. 단순히 텍스트를 추출하는 수준을 넘어, 수식 인식(UniMERNet), 표 구조 복원(PubTabNet), 정보 추출(KIE)까지 다양한 문서 처리 영역을 안정적으로 수행할 수 있습니다.

또한 이러한 성능은 실제 환경에서도 유지되어, 복잡한 표 처리나 영수증 정보 추출과 같은 실무 시나리오에서도 일관된 결과를 보여줍니다. 이를 통해 GLM-OCR은 단순 OCR 모델이 아니라, 문서 데이터를 구조화하고 활용 가능한 형태로 변환하는 데 적합한 문서 이해 중심 OCR 모델로 활용할 수 있습니다.

벤치마크 지표 GLM-OCR PaddleOCR-VL-1.5 Gemini-3-Pro
OmniDocBench v1.5
(문서 전체 구조와 레이아웃 이해 능력 평가)
94.6 94.5 90.3
OCRBench (Text)
(이미지 내 텍스트 인식 정확도 평가)
94.0 75.3 91.9
UniMERNet
(수식 및 수학 기호 인식 성능 평가)
96.5 96.1 96.4
PubTabNet
(표 구조를 정확하게 복원하는 능력 평가)
85.2 84.6 91.4
Nanonets-KIE
(문서 내 key-value 정보 추출 능력 평가)
93.7 - 95.2
Real-world Table
(실제 환경의 복잡한 표 처리 성능 평가)
91.5 86.1 90.6
Receipt (KIE)
(영수증 데이터에서 정보 추출 정확도 평가)
94.5 - 97.3
Multi-language
(다양한 언어 환경에서의 OCR 성능 평가)
69.3 54.8 86.2
출처: Z.ai 허깅페이스

 

 

라이선스

GLM-OCR 모델은 허깅페이스에서 MIT License로 공개되었습니다. 이 라이선스는 연구 목적뿐 아니라 상업적 활용까지 폭넓게 허용하는 매우 자유로운 오픈소스 라이선스 구조를 갖고 있습니다. 즉, 개인 프로젝트나 기업 서비스에 모두 제한 없이 적용할 수 있으며, 별도의 계약 없이도 자유롭게 활용할 수 있습니다.

 

MIT License의 주요 특징은 다음과 같습니다.

  • 연구 및 상업적 사용 모두 자유롭게 허용
  • 모델 수정 및 파생 모델 생성 가능
  • 생성된 결과물(Output)에 대한 활용 제한 없음
  • 재배포 및 배포 시 라이선스 고지(저작권 표시) 유지 필요
  • 개인, 기업, 서비스 등 다양한 환경에서 자유로운 적용 가능

이 라이선스는 별도의 상업 라이선스 계약이 필요한 제한형 라이선스와 달리, 개발부터 서비스 운영까지 동일한 조건으로 활용할 수 있는 완전한 오픈소스 형태라고 정리할 수 있습니다.

 


 

간단한 사용 예시

GLM-OCR 모델은 문서 이미지나 PDF를 입력하면 텍스트 추출뿐 아니라 레이아웃 분석과 구조화된 결과 생성까지 수행할 수 있는 OCR 모델입니다. 공식 허깅페이스 페이지와 Z.ai 문서에서는 이 모델이 API, SDK, 로컬 배포 도구를 통해 활용 가능하다고 안내하고 있으며, 특히 vLLM, SGLang, Ollama 같은 추론 환경을 지원한다고 설명합니다. 또한 공식 API는 이미지와 PDF 문서를 입력으로 받아 OCR 인식 결과와 레이아웃 정보를 함께 반환합니다.

이번 예시에서는 1) API, 2) 로컬 GPU 환경 실행, 3) Ollama 방식으로 나누어 간단히 살펴보겠습니다. API 방식은 가장 빠르게 결과를 확인하거나 서비스에 연동할 때 적합하고, 로컬 GPU 환경 실행은 SDK나 추론 서버를 직접 구성해 보다 자유롭게 개발 환경에 통합할 때 활용하기 좋습니다. Ollama 방식은 비교적 간단한 로컬 실행에 적합합니다. 

 

1. 공식 API로 바로 사용

GLM-OCR은 Z.ai의 Layout Parsing API를 통해 바로 사용할 수 있습니다. 공식 API 문서에 따르면 POST /paas/v4/layout_parsing 엔드포인트에서 GLM-OCR을 사용해 문서와 이미지의 레이아웃을 파싱하고 텍스트를 추출할 수 있으며, 이미지와 PDF 문서를 모두 지원합니다. 응답에는 Markdown 결과와 상세 레이아웃 정보, 시각화 결과가 포함됩니다.

이 방식은 별도 추론 환경을 직접 구성하지 않아도 되기 때문에, 문서 파싱 결과를 빠르게 확인하거나 OCR 기능을 웹 서비스나 내부 시스템에 연결해보는 용도로 적합합니다. 특히 문서 자동화 기능을 먼저 검증해야 하는 경우 가장 부담이 적은 방법입니다.

  • 특징: 별도 배포 없이 즉시 사용 가능, 이미지·PDF 지원, Markdown 및 레이아웃 정보 반환
  • 비용: 약 $0.03 / 1M tokens (입력 기준), 출력 또한 약 $0.03 수준으로 과금 적용
  • 활용: 문서 파싱 테스트, OCR API 연동, 서비스 프로토타입 구현
  • 참고 문헌: Z.ai API / GLM-OCR 가이드

 

2. 로컬 GPU 환경 실행

GLM-OCR은 허깅페이스와 GitHub를 통해 공개되어 있으며, 공식 페이지에서는 전체 OCR 파이프라인에 SDK와 추론 도구 체인을 함께 제공한다고 안내합니다. 허깅페이스 README에는 완전한 OCR 파이프라인이 PP-DocLayoutV3와 통합되어 있다고 적혀 있어, 단순 텍스트 인식만이 아니라 레이아웃 분석까지 포함한 형태로 활용할 수 있습니다.

또한 공식 허깅페이스 페이지와 GitHub 저장소에서는 GLM-OCR이 vLLM, SGLang, Ollama를 지원한다고 설명하고 있어, 로컬 GPU 서버에서 직접 추론 환경을 구성해 문서 처리 파이프라인이나 내부 자동화 시스템에 연동하는 것도 가능합니다. 이 방식은 웹 서비스나 Ollama보다 설정 과정은 더 필요하지만, 개발 환경에서 세부 제어와 커스터마이징 자유도가 높다는 장점이 있습니다.

  • 특징: 추론 환경 직접 구성 가능, SDK·서버 배포 연동 가능, 개발 자유도 높음
  • 비용: 로컬 GPU 자원 기준, 모델은 MIT 라이선스로 공개
  • 활용: OCR 파이프라인 개발, 문서 자동화 시스템 구축, 내부 서버 배포 테스트
  • 경로: https://huggingface.co/zai-org/GLM-OCR/tree/main (Z.ai 허깅페이스)

 

3. Ollama에서 간단히 사용

GLM-OCR은 Ollama 라이브러리에도 공개되어 있어, 비교적 간단한 방식으로 로컬 환경에서 실행할 수 있습니다. Ollama 공식 라이브러리에는 glm-ocr:latest 모델이 등록되어 있으며, 약 2.2GB 크기와 128K 컨텍스트를 지원하고 텍스트와 이미지 입력을 함께 처리할 수 있는 구조로 제공됩니다. 이 방식은 설치와 실행 과정이 단순하다는 점에서, 로컬 PC에서 빠르게 결과를 확인하거나 간단한 데모를 테스트하는 용도로 적합합니다.

  • 특징: 간단한 로컬 실행, 이미지 기반 OCR 테스트 가능, 빠른 데모 확인에 적합
  • 비용: 로컬 환경 기준 무료
  • 활용: OCR 기능 체험, 이미지 텍스트 추출 테스트, 로컬 데모 실행
  • 경로: Ollama GLM-OCR 라이브러리 / GLM-OCR Ollama 가이드

 

[Ollama 설치]

Ollama는 아래 공식 사이트에서 다운로드할 수 있습니다.

 

Download Ollama on macOS

Download Ollama for macOS

ollama.com


[
Ollama 설치]

설치가 완료되면 Ollama를 실행한 뒤, 모델 목록에서 glm-ocr를 선택하고 프롬프트를 입력합니다. 처음 실행하는 경우에는 해당 모델이 자동으로 다운로드됩니다.

Ollama 실행 및 모델 다운로드

 

모델 다운로드가 완료되면 이미지 파일을 입력하여 OCR 기능을 테스트할 수 있습니다. 간단한 한글 이미지 기준으로 테스트했을 때, 결과는 비교적 빠르게 출력되었으며 한글 텍스트도 문제없이 인식되었습니다. 다만 텍스트 양이 많거나 복잡한 레이아웃이 포함된 경우에는 추론 시간이 다소 증가할 수 있으며, 간단한 이미지에서는 거의 즉각적인 결과를 확인할 수 있습니다.

사용된 테스트 이미지 및 실행 결과

 


 

GLM-OCR은 단순한 문자 인식 수준을 넘어, 문서의 구조를 이해하고 이를 활용 가능한 형태로 변환하는 데 초점을 맞춘 OCR 모델입니다. 텍스트 인식뿐 아니라 표, 수식, 레이아웃까지 함께 처리할 수 있는 구조와, 다양한 벤치마크에서 확인된 안정적인 성능을 기반으로 문서 처리 자동화 영역에서 실질적인 활용 가치를 제공합니다. 또한 API, Ollama, 로컬 실행 등 다양한 방식으로 접근할 수 있어 개발 환경과 목적에 따라 유연하게 적용할 수 있다는 점도 중요한 특징입니다.

 

직접 이미지나 문서를 입력해 결과를 확인해보면, 단순 OCR과의 차이를 보다 명확하게 체감할 수 있습니다. 간단한 테스트부터 시작해 문서 자동화나 데이터 추출과 같은 실제 활용까지 확장해보며, GLM-OCR이 제공하는 문서 이해 기반 처리 방식을 경험해보시길 권합니다.

 

 

감사합니다. 😊

 

반응형