본문 바로가기

AI 소식/오픈소스 AI 모델

[AI 번역 모델] 구글의 최신 경량 모델, TranslateGemma 소개 | 오픈소스 AI

안녕하세요,

구글이 최근 다양한 AI 서비스와 연구 흐름 속에서 새로운 번역 전용 모델인 TranslateGemma를 공개했습니다. 이 모델은 최신 Gemma 3 기술을 기반으로 구축되었으며, 경량형부터 중·대형 모델까지 여러 크기로 제공되어 활용 목적과 환경에 맞게 선택할 수 있는 유연성이 특징입니다. 텍스트 번역은 물론, 이미지 기반 텍스트 처리까지 고려한 설계로 공개 범위 또한 넓어 연구자와 개발자 모두에게 주목받고 있습니다.

이번 글에서는 TranslateGemma 모델의 구조와 특징, 성능, 활용 방식 등을 중심으로 자세한 내용을 소개해드리고자 합니다.


반응형

TranslateGemma모델이란

2026년 1월 15일, 구글은 Gemma 3를 기반으로 한 개방형 번역 전용 모델인 TranslateGemma를 공개했습니다. 이 모델은 장소나 기기 성능에 제약 없이 55개 언어 간 번역을 지원하도록 설계되었으며, 대규모 모델의 지식을 효율적인 형태로 정제해 높은 품질과 효율성을 함께 확보한 것이 특징입니다. TranslateGemma는 4B, 12B, 27B 규모의 세 가지 모델로 제공되며, 연구자와 개발자가 로컬 환경과 클라우드 환경 모두에서 활용할 수 있도록 개방형으로 배포됩니다.

 

 

‘트랜스레이트젬마(TranslateGemma)’: 새로운 개방형 번역 모델 제품군

오늘 구글은 젬마 3(Gemma 3)를 기반으로 구축된 새로운 개방형 번역 모델, 트랜스레이트젬마(TranslateGemma)를 소개합니다. 이 모델은 이용자가 언제 어디서나, 어떤 기기를 통해서도 55개 언어로 자

blog.google

 

[모델 정보 요약]

항목 내용
모델명 translategemma-4b-it translategemma-12b-it translategemma-27b-it
개발사 구글 (Google) ※세 모델 공통
아키텍처 Gemma 3 기반 번역 특화 모델 ※세 모델 공통
파라미터 수 4B 12B 27B
학습단계 사전학습 + 번역 지시추론(it) ※세 모델 공통
특징 4B 크기 대비 높은 효율성, 모바일·로컬 환경 적합 WMT24++ 기준 기존 27B 모델 성능 능가 가장 높은 품질의 번역 성능 제공
사용환경 로컬 디바이스, 경량 서버 로컬·클라우드 모두 적합 클라우드·고성능 서버 환경
라이선스 개방형(Open) 공개, Google Gemma Terms of Use
모델경로 Hugging Face 제공 Hugging Face 제공 Hugging Face 제공

 

 

주요 특

  • Gemma 3 기반 개방형 설계: 최신 Gemma 3 모델을 번역 작업에 특화된 방식으로 미세 조정하여 개발되었습니다.
  • 다양한 모델 크기 선택: 40억(4B), 120억(12B), 270억(27B) 파라미터 모델이 제공되어 모바일·로컬·클라우드 환경 모두에 적합합니다.
  • 우수한 효율성: 12B 모델은 WMT24++ 벤치마크 기준에서 기존의 27B 베이스라인 모델 성능을 능가하며, 4B 모델 또한 경쟁력 있는 성능을 나타냅니다.
  • 폭넓은 언어 커버리지: 주요 언어뿐 아니라 저자원 언어까지 포함한 55개 언어 쌍에 대해 고품질 번역을 지원합니다.
  • 멀티모달 지원: 기본적으로 Gemma 3가 가진 이미지 내 텍스트 번역 기능까지 유지하여, 이미지 속 문자 번역도 처리할 수 있습니다.
  • 확장성: 구글은 약 500개의 추가 언어 쌍 데이터로 연구 커뮤니티가 필요에 따라 추가 번역 품질 향상이나 미세 조정 작업을 수행할 수 있도록 설계하였습니다.

 

 

벤치마크 성능

TranslateGemma는 다양한 언어 번역 품질을 검증하기 위해 WMT24++와 WMT25 등 여러 벤치마크에서 평가를 진행했습니다. 이 과정에서는 언어별 번역 정확도, 의미적 일관성, 오류 발생률, 이미지 기반 텍스트 번역 능력 등을 종합적으로 확인하는 방식이 적용되었습니다. 평가 결과, 모델 크기가 커질수록 번역 품질이 안정적으로 향상되는 흐름이 나타났으며, 기존 Gemma 3 기반 모델과 비교했을 때 전반적인 번역 품질과 효율성 역시 개선된 것으로 확인되었습니다. 또한 중형 모델인 12B는 이전 세대의 대형 모델과 비슷하거나 더 높은 품질을 보여, TranslateGemma가 모델 크기 대비 우수한 효율성을 갖춘 번역 특화 모델임을 벤치마크를 통해 확인할 수 있습니다.

 

구분 벤치마크 지표 4B 12B 27B
WMT24++
(55개 언어)
MetricX
(숫자가 낮을수록 좋은 번역 품질)
5.32 3.60 3.09
Comet
(숫자가 높을수록 의미론적 일치도가 높음)
81.6 83.5 84.4
WMT25
(10개 언어)
MQM
(오류 기반 품질 평가, 낮을수록 오류가 적음)
N/A 7.94 5.86
Vistra (4 langs)
(이미지 기반 텍스트 번역 평가)
MetricX
(4개 언어 대상 MetricX 점수)
2.57 2.08 1.57
출처: 구글 허깅페이스

 

 

라이선스

TranslateGemma 모델은 Google Gemma Terms of Use를 기반으로 제공되는 개방형 모델입니다. 이 이용 약관은 연구·교육 목적뿐만 아니라 상업적 서비스 개발과 같은 실사용 환경에서도 모델을 폭넓게 활용할 수 있도록 허용하는 구조로 설계되었습니다. 별도의 로열티나 비용 부담 없이 모델을 비즈니스 환경에 도입할 수 있으며, 책임 있는 활용 원칙을 준수한다면 기업 시스템 통합과 상용 서비스 운영에도 적용할 수 있습니다. 특히 Gemma Terms of Use는 상업적 사용을 포함한 광범위한 활용을 허용하면서도, 모델 배포와 파생 모델 공개 시 필요한 최소한의 고지 의무만을 요구하는 형태로 구성되어 있어 실용성과 개방성을 모두 갖춘 라이선스로 평가됩니다.

 

주요 특징은 다음과 같습니다.

  • 수정 및 재배포 허용 : 모델 수정, 파인튜닝, 경량화 작업이 자유롭게 허용되며, 내부 환경에서 활용할 경우 별도의 추가 조건 없이 상업적 서비스에도 적용할 수 있습니다.
  • 상용 서비스 통합 가능 : 유료 서비스 개발, 애플리케이션 연동, 기업 시스템 구축 등 다양한 비즈니스 시나리오에서 활용이 가능하며, 생성 결과물(Output)에 대한 별도 제한도 존재하지 않습니다.
  • 배포 시 고지 의무 : 모델 자체를 외부에 재배포하거나 파생 모델을 공개하는 경우, Gemma Terms of Use 사본 또는 링크를 함께 제공해야 하며, 이용 제한 조항을 사용자에게 안내할 책임이 있습니다.
  • 책임 있는 사용 원칙 준수 : 불법적·유해 목적 등 약관에서 금지한 사용 사례에 해당하지 않아야 하며, 정책 위반 목적의 활용은 허용되지 않습니다.

자세한 내용은 아래 링크에서 확인 가능한 Google Gemma Terms of Use를 참고하시기 바랍니다.

출처: Google Gemma Terms of Use

 


 

간단한 사용 예시

TranslateGemma-4B 모델은 허깅페이스에서 제공되는 오픈형 번역 모델로, API 형태로는 허깅페이스 Transformers 라이브러리의 파이프라인을 활용하거나 로컬에 다운로드하여 사용해볼 수 있습니다. 이번 포스팅에서는 로컬 환경에서 직접 다운로드하고 실행하는 방법을 중심으로 안내하겠습니다.

 

1. 실행 환경
2. TranslateGemma 모델 및 패키지 설치

3. 코드 작성
4. 실행

 

1. 실행 환경

  • 운영체제 : Windows 11
  • Python : 3.10.11
  • transformers : 4.57.3
  • torch : 2.6.0+cu126
  • numpy : 1.26.4
  • GPU : NVIDIA GeForce RTX 4060 Ti (vram : 16GB)

 

2. translategemma-4b-it 모델 및 패키지 설치

TranslateGemma 모델은 아래 허깅페이스 페이지에서 다운로드할 수 있습니다. 이 포스팅에서는 4B 모델을 기준으로 설명하지만, 사용 환경에 따라 더 큰 모델을 선택해도 무방합니다.

아래 명령어를 실행하면 모델을 구동하는 데 필요한 패키지를 한 번에 설치할 수 있습니다.

# 패키기 설치
pip install transformers pillow accelerate
pip install torch==2.6.0 --index-url https://download.pytorch.org/whl/cu126

 

3. 코드 작성

아래는 TranslateGemma-4B 모델을 로컬 환경에서 실행하기 위한 예시 코드입니다. 간단히 프롬프트를 입력하면 모델이 해당 질문에 대한 추론 결과를 생성하는 구조로 작성되어 있습니다.

# Python
import torch
from transformers import AutoModelForImageTextToText, AutoProcessor

model_id = "Path/to/translategemma-4b-it"  # 사용자 환경에 맞게 수정

# 언어 코드 설정
SOURCE_LANG = "en"
TARGET_LANG = "ko-KR"

# 번역 모드 설정
# 1 = 텍스트 번역
# 2 = 이미지 내 텍스트 번역
TRANSLATE_MODE = 1

# 번역할 텍스트(코드 내부 지정)
TEXT_TO_TRANSLATE = (
    "TranslateGemma is a family of lightweight, state-of-the-art open translation models from Google, based on the Gemma 3 family of models. TranslateGemma models are designed to handle translation tasks across 55 languages. Their relatively small size makes it possible to deploy them in environments with limited resources such as laptops, desktops or your own cloud infrastructure, democratizing access to state of the art translation models and helping foster innovation for everyone."
)

# 이미지 번역 시 사용할 이미지 URL
IMAGE_URL = "https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcSOLmjCclNmz2isetD-uwWqHhNlg27EytLxGg&s"  # 사용자 환경에 맞게 수정

# ----------------------------------
# 모델 로드
# ----------------------------------
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype=torch.bfloat16,
)


# ----------------------------------
# 번역 실행
# ----------------------------------
if TRANSLATE_MODE == 1:
    # 텍스트 번역
    prompt = f"<translate>{SOURCE_LANG}->{TARGET_LANG}\n{TEXT_TO_TRANSLATE}"

    # 반드시 text=[prompt] 형태로 전달해야 오류 없음
    inputs = processor(
        text=[prompt],
        return_tensors="pt"
    ).to(model.device)

    with torch.inference_mode():
        outputs = model.generate(**inputs, max_new_tokens=512)

    decoded = processor.decode(outputs[0], skip_special_tokens=True)

    print("\n=== 번역 결과 ===")
    print(decoded)
    print("=================")

elif TRANSLATE_MODE == 2:
    # 이미지 번역
    prompt = f"<translate>{SOURCE_LANG}->{TARGET_LANG}"

    inputs = processor(
        text=[prompt],
        images=IMAGE_URL,
        return_tensors="pt"
    ).to(model.device)

    with torch.inference_mode():
        outputs = model.generate(**inputs, max_new_tokens=512)

    decoded = processor.decode(outputs[0], skip_special_tokens=True)

    print("\n=== 번역 결과 (이미지) ===")
    print(decoded)
    print("=================")

else:
    print("TRANSLATE_MODE 값이 올바르지 않습니다.")

 

4. 실행

가장 작은 4B 모델로 테스트한 결과, 모델 로딩은 매우 빠르게 이루어졌으며 실제 추론에는 약 20초 정도가 소요되었습니다. 이때 사용된 VRAM은 약 9.4GB 수준이었습니다. 추론 시간은 다소 길게 느껴졌지만, 출력된 번역 품질은 기대 이상으로 우수했습니다. 동일한 문장을 OpenAI의 GPT 모델로 번역한 결과와 비교했을 때 내용적인 차이는 거의 없었으며, 문맥적 자연스러움에서 약간의 차이를 보이는 정도였습니다. 모델 규모를 고려한다면 상당히 놀라운 성능이라고 생각됩니다.

 

아래는 입력한 프롬프트와 번역 결과입니다.

  • 입력 프롬프트 : TranslateGemma is a family of lightweight, state-of-the-art open translation models from Google, based on the Gemma 3 family of models. TranslateGemma models are designed to handle translation tasks across 55 languages. Their relatively small size makes it possible to deploy them in environments with limited resources such as laptops, desktops or your own cloud infrastructure, democratizing access to state of the art translation models and helping foster innovation for everyone.
  • TranslateGemma-4B 모델 번역
    TranslateGemma는 Google에서 개발한, Gemma 3 모델 기반의 가볍고 최첨단 오픈 번역 모델의 집합입니다. TranslateGemma 모델은 55개 언어에 걸쳐 번역 작업을 처리하도록 설계되었습니다. 비교적 작은 크기로 인해, 노트북, 데스크톱 또는 자체 클라우드 인프라와 같이 제한된 리소스 환경에서도 배포가 가능하며, 최첨단 번역 모델에 대한 접근성을 높이고, 모든 사람이 혁신을 촉진하는 데 도움이 됩니다.
  • GPT 모델 번역
    TranslateGemma는 구글이 Gemma 3 계열 모델을 기반으로 개발한 가볍고 최신 기술이 적용된 오픈 번역 모델군입니다. 이 모델들은 55개 언어의 번역 작업을 처리하도록 설계되었으며, 비교적 작은 크기를 갖추고 있어 노트북·데스크톱·개인 클라우드 환경처럼 자원이 제한된 환경에서도 쉽게 배포할 수 있습니다. 이를 통해 최첨단 번역 모델에 대한 접근성을 넓히고, 누구나 혁신을 시도할 수 있는 기반을 마련합니다.

TranslateGemma-4B 모델 텍스트 번역 결과

 

이 모델이 가진 가장 큰 특징 중 하나는 이미지 속 텍스트를 직접 추출해 번역하는 기능을 지원한다는 점입니다. 실제로 테스트용 이미지를 입력해 번역을 수행해본 결과, TranslateGemma-4B 모델은 이미지에서 문장을 인식한 뒤 이를 즉시 번역하는 과정을 안정적으로 처리했습니다. 해당 과정에서 약 9.5GB의 VRAM이 사용되었고, 추론 시간은 10~15초 내외로 측정되었습니다.

간단한 단어는 물론이고, 손글씨 형태로 작성된 영문 메뉴판의 문구까지 번역이 가능했습니다. 일부 문장은 정확히 인식되지 않아 번역이 생략되기도 했지만, 전체적으로 대부분의 텍스트를 안정적으로 처리하는 모습을 확인할 수 있었습니다.

 

[입력 이미지]

 

 

[번역 결과]

클릭시 이미지 확대

 


 

TranslateGemma는 텍스트와 이미지를 아우르는 번역 기능을 제공함으로써, 경량 모델임에도 실사용 환경에서 충분한 성능을 발휘하는 기술적 기반을 보여줍니다. 특히 노트북·데스크톱과 같은 제한된 자원 환경에서도 원활하게 동작할 만큼 효율적으로 설계되어, 다양한 번역 작업에서 활용 가능성이 높다는 점이 확인되었습니다. 또한 GPT 모델과 비교했을 때도 핵심 의미 전달과 구조적 정확도에서 큰 차이가 없을 만큼 완성도 있는 결과를 제공해, 소형 모델이 갖는 한계를 효과적으로 보완한 접근이라는 점에서 의미가 큽니다.

 

이러한 기능적 특징을 이해하고 실제로 활용해보면, 경량 번역 모델이 어떤 상황에서 유용하고 어떤 범위까지 실무에 적용할 수 있는지 직접 체감할 수 있습니다. 직접 다양한 문장과 이미지를 번역하며 TranslateGemma의 장점을 경험해보시길 권합니다.

 

 

감사합니다. 😊

 

반응형