본문 바로가기

AI 소식/오픈소스 AI 모델

GPT‑OSS, OpenAI의 오픈소스 AI 모델을 로컬에서 실행해보세요 | Ollama 활용법 | 오픈소스 AI

안녕하세요,

최근 OpenAI에서 고성능 추론용 언어 모델을 오픈소스로 공개하였습니다. 이번에 발표된 GPT‑OSS 시리즈는 누구나 자유롭게 다운로드하고 활용할 수 있는 오픈 가중치 기반의 대형 언어 모델(LLM)로, 연구 목적은 물론 상업적 활용까지 폭넓게 지원됩니다. 특히 gpt‑oss‑20b 모델은 16GB GPU가 탑재된 일반 데스크탑 환경에서도 실행이 가능하여, 별도의 클라우드 서비스 없이도 로컬 환경에서 고성능 AI 모델을 직접 체험할 수 있는 점이 큰 특징입니다.

이번 글에서는 GPT‑OSS‑20b 모델에 대해 알아보고, Ollama를 활용해 로컬 환경에서 실행하는 방법을 소개해드리겠습니다.


반응형

GPT-OSS 모델

2025년 8월 5일, OpenAI가 GPT‑OSS(Generative Pre‑trained Transformer–Open Source) 모델을 공개했습니다. 이 모델은 “open‑weight” 대형 언어 모델(LLM) 시리즈로, GPT‑2 이후 처음으로 고성능 언어 모델의 가중치를 누구나 자유롭게 다운로드·실행·커스터마이즈할 수 있도록 공개한 사례입니다. 현재 두 가지 버전으로 공개되었으며, 큰 모델은 gpt-oss-120b, 개인 PC나 엣지 환경용으로 경량화된 gpt-oss-20b 두 가지가 주요 모델로 포함되어 있습니다.

 

출처: OpenAI gpt-oss 모델 페이지 (클릭시 페이지 이동)

 

[모델 정보 요약]

항목 내용
모델명 gpt-oss-120b 모델 gpt-oss-20b 모델
파라미터 수 116.8B 20.9B
개발사 OpenAI
출시일 2025년 8월 5일
Expert 수 레이어당 총 128개 레이어당 총 32개
활성 Expert 수 토큰당 4개
컨텍스트 길이 128,000 토큰
특징 MoE 구조로 고효율 추론, 체인 오브 사고, 툴 호출, 조절 가능한 추론 강도 지원 16 GB GPU 기반 엣지 환경 실행에 적합, 체인 오브 사고, 툴 호출, 추론 강도 설정 가능
라이선스 Apache 2.0 (상업적 사용 가능)

 

 

주요 특징

  • 오픈 가중치 공개 (Open Weight Release) : Apache 2.0 라이선스로 공개되어 누구나 자유롭게 다운로드, 수정, 재배포 가능
  • MoE 기반 구조 (Mixture-of-Experts Architecture) : 전체 파라미터 중 일부 전문가만 활성화하여 연산 효율성과 추론 속도 향상
  • 128K 토큰 컨텍스트 지원 : 최대 128,000개의 토큰 처리 가능, 긴 문서나 대화 이력 처리 가능
  • 최신 추론 기술 적용 : RoPE, Grouped Multi-Query Attention 등 첨단 기술을 통해 안정적이고 빠른 추론 지원
  • 추론 제어 기능 제공 : 체인 오브 소트(COT), 툴 호출, 추론 난이도 조절 등 다양한 사용자 제어 기능 제공

 

 

모델 성능

이번에 공개된 GPT‑OSS 모델은 다양한 벤치마크에서 우수한 성능을 기록하였습니다. GPT‑OSS‑120b는 MMLU와 GPQA에서 높은 점수를 기록하며, 범용 지식과 과학 질문 영역에서 경쟁력 있는 성능을 보였습니다. 다만, Humanity’s Last Exam과 같은 고차원 추론 문제에서는 OpenAI o3보다 낮은 성능을 나타냈습니다. 수학 분야에서는 두 모델 모두 강력한 성능을 보였으며, 특히 gpt‑oss‑20bAIME 2025에서 98.7점으로 가장 높은 점수를 기록하였습니다. 이는 GPT‑OSS가 수치 기반의 논리 태스크에서 우수한 성능을 발휘함을 보여줍니다.

항목 gpt‑oss‑120b gpt‑oss‑20b OpenAI o3 OpenAI o4‑mini
MMLU 90.0 85.3 93.4 93.0
GPQA Diamond 80.9 74.2 77.0 81.4
Humanity’s Last Exam 19.0 17.3 24.9 17.7
AIME 2024 96.6 96.0 91.6 93.4
AIME 2025 97.9 98.7 88.9 92.7

 

 

라이선스

GPT‑OSS 모델은 Apache 2.0 라이선스 하에 공개되어, 사용에 있어 매우 높은 자유도를 제공합니다. 누구나 모델을 자유롭게 다운로드하고, 코드를 수정하거나 확장할 수 있으며, 로컬 환경에서 자체 호스팅(self-hosting)하여 실행하는 것도 가능합니다. 또한 별도의 허가 없이도 상업적 목적의 활용과 배포가 허용되어, 연구용은 물론 산업 현장에서도 유연하게 활용할 수 있습니다.

 


GPT‑OSS 모델 사용하기

GPT‑OSS 모델은 다양한 플랫폼에서 손쉽게 활용할 수 있도록 설계되었습니다. 가벼운 로컬 환경부터 고성능 서버 환경까지 폭넓게 지원되며, 사용자는 자신의 목적과 환경에 맞춰 자유롭게 선택할 수 있습니다.

또한 현재는 OpenAI가 제공하는 GPT‑OSS Playground를 통해 별도의 설치 없이 웹 상에서 모델을 직접 체험해볼 수 있습니다.
모델의 성능을 미리 확인하고 싶으신 분들은 아래 링크를 통해 자유롭게 사용해보시기 바랍니다.

 

[GPT‑OSS  체험하기]

[호환 가능한 주요 플랫폼]

  • vLLM : 서버 기반 OpenAI‑호환 API 제공, 고성능 서버 환경 또는 로컬 환경
  • Ollama : 소비자용 실행에 최적화, 로컬 환경
  • Hugging Face Transformers : Python 환경에서 직접 pipeline 방식으로 실행 가능, 로컬 환경
  • LM Studio : GUI 기반 인터페이스 기반 실행, 로컬 환경

[GPT‑OSS 모델 다운로드]

이번 포스팅에서는 이 중 Ollama를 활용하여 GPT‑OSS-20b모델을 로컬 환경에서 실행하는 방법에 대해 자세히 살펴보겠습니다.

 

 

1. 사전 준비 사항

이번 포스팅에서는 GPT‑OSS 모델을 Ollama를 활용해 로컬 환경에서 실행하는 방법을 소개합니다. 이를 위해 먼저 Ollama 프로그램이 설치되어 있어야 합니다. Ollama에서 제공하는 모델은 양자화(Quantization)된 형태로 제공되므로, 비교적 적은 리소스로도 효율적으로 실행할 수 있어 로컬 환경에서 매우 실용적입니다.

 

2.  실행 환경

  • 운영체제 : Windows 11
  • ollama : 0.11.2
  • GPU : NVIDIA GeForce RTX 4060 Ti (VRAM 16 GB)

 

3. gpt-oss-20b 다운로드 및 실행

[Ollama GUI 방식]

Ollama의 그래픽 인터페이스를 활용해 직관적으로 모델을 실행하는 방법입니다. 최신 버전의 Ollama에서 제공하는 기능으로, 사용자 편의성을 크게 높였습니다. UI 화면에서 모델 선택 메뉴에서 GPT-OSS:20B를 선택하면 자동으로 다운로드가 시작되며, 완료 후 입력창에 질문을 입력하면 바로 응답을 받을 수 있습니다. 별도의 명령어 입력 없이 마우스 클릭만으로 손쉽게 설정과 실행이 가능하다는 점이 장점입니다.

 

Ollama 최신 버전 설치가 완료되셨다면, Windows 작업 표시줄에서 Ollama 아이콘을 클릭하고, "Open Ollama" 버튼을 클릭하여 Ollama의 GUI 화면을 실행할 수 있습니다.

Ollama 실행

 

Ollama를 실행한 뒤, 프롬프트 입력창 우측의 모델 선택 메뉴에서 원하는 모델을 클릭하여 실행할 수 있습니다. 예를 들어 GPT-OSS:20B를 선택하면 해당 모델이 즉시 로드됩니다. 만약 해당 모델이 로컬 환경에 설치되어 있지 않다면, 자동으로 다운로드가 시작되며 진행 상황이 화면에 표시됩니다. 다운로드가 완료되면 바로 질문을 입력하고 응답을 받아볼 수 있습니다.

아래 이미지는 모델 선택 과정과 다운로드 진행 화면 예시입니다.

Ollama 모델 선택 및 다운로드

 

 

[Ollama CLI 방식]

이 방식은 명령 프롬프트나 PowerShell을 통해 Ollama를 실행하는 방법으로, 이전부터 사용되어 온 전통적인 실행 방식입니다.  
특히 개발자에게는 친숙하며, 스크립트 작성이나 자동화 작업에도 유용합니다.  
아래 명령어를 Windows PowerShell에 입력하면 모델을 다운로드하고 실행할 수 있습니다.

# Windows PowerShell
ollama --version        # 현재 설치된 Ollama 버전 확인
ollama run gpt-oss:20b  # gpt-oss-20b 모델 실행 (최초 실행 시 자동으로 다운로드됨)

 

[실행 결과]

간단한 테스트로 gpt‑oss‑20b 모델에게 "gpt-oss 모델에 대해 설명해줘."라는 프롬프트를 입력하고 응답을 받아보았습니다.

 

실행 중 약 13GB의 VRAM이 사용되었으며, 전체 응답을 받기까지 약 2분 정도의 시간이 소요되었습니다. 이 과정에는 추론 시간이 포함되어 있으며, 매우 풍부한 분량의 출력이 생성되었습니다. 별도의 지시 없이 한국어로 질문을 입력했음에도, 모델은 자연스럽고 정확한 한국어로 응답을 제공하였습니다. 이 정도 수준의 성능이라면, 적절한 하드웨어 환경만 갖춰진다면 별도의 AI 플랫폼 구독 없이도 독립적인 활용이 가능할 정도로 우수한 품질이라고 생각되었습니다.

 

아래는 실제로 입력한 프롬프트와 그에 대한 응답의 일부입니다. (※ 전체 응답 중 발췌된 내용입니다.)

gpt-oss-20b 실행 결과

 

 

 

이번 테스트를 통해 GPT‑OSS‑20b 모델이 로컬 환경에서도 충분히 안정적으로 작동하며, 실제 활용 가능한 수준의 성능을 갖추고 있다는 점을 확인할 수 있었습니다. 특히 Ollama와 같은 플랫폼을 활용하면 설치와 실행 과정이 간단해 누구나 손쉽게 사용할 수 있다는 점도 인상적입니다.

 

고성능 AI 모델을 직접 실행하고 활용해보고자 하는 사용자에게 GPT‑OSS는 매우 강력한 대안이 될 수 있습니다. 앞으로 다양한 활용 사례와 응용 방식을 통해 GPT‑OSS의 가능성을 더욱 확장해볼 수 있을 것으로 기대됩니다.

 

감사합니다. 😊

 

반응형