본문 바로가기

AI 소식/오픈소스 AI 모델

Gemma 3n이란? 구글의 최신 경량 언어 모델을 소개합니다 | 온디바이스 AI · 오픈소스 · 로컬 실행

안녕하세요,

최근에는 대규모 언어 모델(LLM)보다 경량화된 소형 언어 모델(SLM) 개발이 활발히 이루어지고 있습니다. 그중에서도 구글이 새롭게 공개한 Gemma 3n은 주목할 만한 온디바이스 AI 모델로, 작은 모델 크기에도 불구하고 매우 우수한 품질과 빠른 처리 속도로 큰 관심을 받고 있습니다.

특히 “최고의 경량 LLM”이라는 평가를 받을 만큼 완성도가 높으며, 이번 글에서는 Gemma 3n의 주요 기능, 장점, 그리고 직접 사용해본 결과를 중심으로 자세히 소개하겠습니다. 로컬 환경에서 AI 모델을 활용하고자 하는 분들께 유용한 참고가 되길 바랍니다.


반응형

Gemma 3n이란

2025년 5월 20일, Google DeepMind는 모바일 및 엣지 디바이스에 최적화된 오픈소스 AI 언어 모델Gemma 3n을 공개했습니다. 이 모델은 기존의 대형 AI가 클라우드 환경에 의존하던 한계를 넘어, 스마트폰, 태블릿, IoT 기기 등 제한된 리소스 환경에서도 고성능 AI를 오프라인으로 실행할 수 있도록 설계되었습니다.

출처: Google blog Gemma3n 소개 (클릭시 페이지 이동)

 

Gemma 3n은 Gemini Nano와 동일한 아키텍처를 기반으로 하며, 텍스트, 음성, 이미지, 영상까지 처리할 수 있는 멀티모달 기능을 갖춘 것이 특징입니다. 특히 프라이버시 보호가 중요한 환경에서 인터넷 연결 없이도 안정적으로 작동할 수 있다는 점이 큰 장점입니다. Google은 Gemma 3n을 통해 AI 접근성을 확대하고, 책임 있는 활용을 장려하고자 하며, Hugging Face, Ollama, Kaggle, Google AI Studio 등 다양한 플랫폼을 통해 누구나 자유롭게 사용할 수 있도록 공개했습니다.

 

[제공 버전 안내]

Gemma 3n은 현재 두 가지 버전으로 제공되어, 디바이스 성능에 따라 유연하게 선택할 수 있습니다.

  • E2B: 약 5억 파라미터, 2GB 메모리 권장, 저사양 디바이스용 경량 모델
  • E4B: 약 8억 파라미터, 3~4GB 메모리 권장, 더 높은 품질의 중급 디바이스용 모델

 

주요 특징

  1. 모바일·엣지 환경에 최적화 : 스마트폰이나 IoT 기기처럼 메모리가 적은 환경에서도 잘 작동합니다. 2~3GB 메모리만으로도 빠르게 실행되며, 인터넷 없이도 오프라인에서 AI 기능을 사용할 수 있어 개인정보 보호에 강합니다.
  2. 다양한 입력을 처리하는 멀티모달 기능 : 글뿐만 아니라 음성, 이미지, 영상도 함께 이해할 수 있어, 하나의 모델로 다양한 작업을 동시에 처리할 수 있습니다. 예를 들어, 말한 내용을 바로 번역하거나, 사진 속 장면을 인식하는 등의 기능이 가능합니다.
  3. 빠르고 응답 구조 : 상황에 따라 자동으로 처리 속도와 품질을 조절할 수 있는 구조(MatFormer)를 갖고 있습니다. 또한 메모리 사용을 줄이기 위한 기술(PLE, KVC 공유 등)도 함께 적용돼, 효율적인 동작이 가능합니다.
  4. 이미지·음성 기능 내장 : 내부에 고성능 인코더가 들어 있어, 스마트폰 카메라로 찍은 이미지나 영상도 빠르게 분석할 수 있습니다. 음성 인식과 음성 번역 기능도 기본적으로 지원합니다.
  5. 여러 언어 지원 : 140개 이상의 언어를 지원하며, 그중 35개 언어는 음성이나 이미지 입력도 이해할 수 있습니다.
  6. 다양한 플랫폼과 호환 가능 : Gemma 3n은 Hugging Face, Kaggle, Ollama 같은 AI 플랫폼은 물론, Google AI Studio와 Google AI Edge에서도 쉽게 사용할 수 있어 개발자뿐만 아니라 초보자도 접근하기 쉽습니다.

 

 

성능 비교

Gemma 3n은 가볍지만 매우 똑똑한 모델입니다. 2025년 5월 기준으로, AI 모델 성능을 평가하는 Chatbot Arena Elo 점수에서 1283점을 기록하며 Claude 3.7 Sonnet과 같은 고성능 모델과도 거의 대등한 평가를 받았습니다. 특히 이 점수는 보통 수십억 개 파라미터를 가진 대형 모델과 비슷한 수준이며, Gemma 3n은 단 4B 파라미터만 사용해 이 성능을 낸다는 점에서 효율성이 매우 뛰어납니다. 또한, 이 모델은 오픈소스로 제공되며, 인터넷 없이도 스마트폰이나 노트북 같은 로컬 기기에서 직접 실행할 수 있습니다.
복잡한 설치 없이 다양한 플랫폼에서 활용할 수 있기 때문에, 개발자뿐 아니라 일반 사용자도 쉽게 접근할 수 있다는 점이 큰 장점입니다.

출처: Google blog Gemma3n 소개 (클릭시 페이지 이동)

 

 

라이선스

Gemma 3n은 Google DeepMind가 공개한 오픈 모델로, 누구나 자유롭게 사용할 수 있도록 제공되고 있습니다. 상업적 목적의 활용도 가능하며, 이 모델을 사용해 생성한 결과물(Output)은 모두 사용자에게 소유권이 있으며, 자유롭게 활용하실 수 있습니다.

다만, 사용에 앞서 다음과 같은 조건과 제한 사항을 반드시 준수하셔야 합니다.

  • 의료, 군사, 불법 활동 등 금지된 용도에는 사용할 수 없습니다.
  • 모델이나 파생 모델을 배포하거나 API 등으로 제공할 경우, 이용약관과 사용 제한 사항을 함께 고지해야 합니다.
  • Google의 이름, 로고, 후원 사실 등을 암시하는 표현은 사용할 수 없습니다.
※ Gemma 3n 라이선스 : https://ai.google.dev/gemma/terms

 

 

사전 준비 사항

Gemma 3n은 현재 다양한 방법으로 사용이 가능합니다. 이번 포스팅에서는 Ollama 프로그램을 활용하는 방법을 소개할 예정입니다. Ollama 방식을 사용하려면 먼저 Ollama 프로그램 설치가 필요합니다. Ollama에서 제공하는 모델은 양자화 처리된 모델이기 때문에, 상대적으로 적은 리소스로도 효율적이고 편리하게 로컬 환경에서 활용할 수 있습니다.

 

목차
1. 실행 환경
2. Gemma 3n 모델 설치 및 실행
3. 결과 확인

1. 실행 환경

  • 운영체제 : Windows 11
  • ollama : 0.9.3
  • GPU : NVIDIA GeForce RTX 4060 Ti

 

 

2. Gemma 3n 모델 설치 및 실행 (터미널)

Gemma 3n은 터미널에서 Ollama를 이용해 손쉽게 로컬 환경에서 실행할 수 있습니다. Ollama는 다양한 LLM을 로컬에서 간편하게 실행할 수 있도록 지원하는 플랫폼으로, 간단한 명령어만 입력하면 모델 설치부터 실행까지 자동으로 처리해 줍니다.

 

[모델 설치 및 실행 방법]

Windows PowerShell에서 아래 명령어를 순차적으로 입력하면 됩니다.

# Windows PowerShell
ollama --version           # Ollama가 정상적으로 설치되었다면 버전이 출력됩니다.
                           # 버전이 출력되지 않으면 Ollama를 다시 설치해야 합니다.
ollama run gemma3n:e4b     # 모델 실행 (모델이 없는 경우 자동 다운로드 및 실행)

 

해당 명령어를 실행하면 Gemma 3n 모델이 로컬에 다운로드되고, 곧바로 실행됩니다. Ollama는 자동으로 필요한 파일을 캐싱하기 때문에 한 번 실행하면 이후에는 빠르게 재사용할 수 있습니다. 아래는 위 명령어를 실행했을때 나타나는 결과입니다.

 

터미널 설치 및 실행

 

 

3. 결과 확인

Gemma 3n 모델의 실제 사용 성능을 확인하기 위해, 간단한 프롬프트로 테스트를 진행해보았습니다. 사용한 프롬프트는 다음과 같습니다

  • 입력 프롬프트 : 외국인 관광객에서 설명하듯, 서울에 대해 설명해줘.

Gemma 3n은 약 8.3GB VRAM을 사용하며, 전체 출력까지 약 20초가 소요되었습니다. 로컬 환경에서 실행되는 LLM 중에서도 빠른 처리 속도를 보여주는 편입니다. 특히 눈에 띄었던 점은 한국어 출력의 정확성과 자연스러움입니다. 기존 SLM 모델에서는 종종 한국어에 영어 또는 한자가 섞이는 현상이 있었지만, Gemma 3n에서는 이러한 문제가 전혀 발생하지 않았습니다. 또한 단순한 설명을 넘어서, 구체적이고 풍부한 표현으로 서울을 친절하게 안내해주는 인상적인 답변을 생성했습니다. 

터미널 생성 결과


 

낮은 VRAM 사용량과 빠른 처리 속도, 그리고 뛰어난 한국어 지원이라는 세 가지 강점을 두루 갖춘 Gemma 3n은 단순한 텍스트 입력을 넘어 이미지와 오디오까지 처리할 수 있는 멀티모달 LLM입니다. 특히 로컬 환경에서 작동하는 경량 모델 중에서도 성능과 효율성의 균형이 매우 뛰어난 모델로, 한국어 사용자에게도 자연스럽고 정확한 응답을 제공한다는 점에서 큰 강점을 가집니다.

 

개인용 PC 또는 자체 서버에서 LLM을 직접 실행하고자 하는 분들, 혹은 프라이버시를 중시하는 오프라인 AI 환경을 구축하고자 하는 개발자들에게 Gemma 3n은 충분히 믿고 사용할 수 있는 선택지가 될 것입니다.

 

감사합니다.

 

반응형