본문 바로가기

AI 소식/오픈소스 AI 모델

[오픈소스 AI] Ai2의 OLMo Hybrid 7B 모델 소개 | 구조, 벤치마크, 로컬 실행 방법

안녕하세요,

최근에는 기존 Transformer 기반 구조와는 다른 방식으로 설계된 대규모 언어 모델들이 등장하면서, 새로운 LLM 아키텍처에 대한 관심이 점차 높아지고 있습니다. 특히 긴 문맥 처리 효율을 개선하기 위한 다양한 연구가 이어지며, 기존 모델 구조의 한계를 보완하려는 시도도 계속되고 있습니다. 이러한 흐름 속에서 Allen Institute for AI(Ai2)는 새로운 구조를 적용한 언어 모델, OLMo Hybrid를 공개했습니다.

이번 포스팅에서는 OLMo Hybrid 모델의 구조와 주요 특징, 벤치마크 성능, 그리고 간단한 실행 방법까지 함께 살펴보겠습니다.


반응형

Olmo Hybrid 모델이란

2026년 3월 5일, Allen Institute for AI(Ai2)에서 7B 규모의 오픈 언어 모델인 OLMo Hybrid를 공개했습니다. 이 모델은 Ai2가 개발해 온 OLMo 모델 계열의 연구 결과로 공개된 모델로, 약 7B 파라미터 규모로 구성되어 있으며 약 5.5~6조 토큰 규모의 데이터를 사용해 사전 학습되었습니다.

OLMo Hybrid는 기존 OLMo 모델과 동일하게 완전히 공개된 형태로 제공되는 언어 모델입니다. 모델 가중치뿐만 아니라 학습 코드, 데이터 처리 방식, 평가 과정 등 연구에 필요한 자료가 함께 공개되어 연구 및 개발 환경에서 활용할 수 있도록 구성되었습니다.

 

 

Introducing Olmo Hybrid: Combining transformers and linear RNNs for superior scaling | Ai2

Ai2, a non-profit research institute founded by Paul Allen, is committed to breakthrough AI to solve the world’s biggest problems.

allenai.org

 

[모델 정보 요약]

항목 내용
모델
버전
Olmo-Hybrid-7B Olmo-Hybrid-Instruct-
SFT-7B
Olmo-Hybrid-Instruct-
DPO-7B
Olmo-Hybrid-Think-
SFT-7B
개발사 Allen Institute for AI (Ai2) Allen Institute for AI (Ai2) Allen Institute for AI (Ai2) Allen Institute for AI (Ai2)
파라미터
7B 7B 7B 7B
모델
유형
Base 언어 모델 Instruction 튜닝 모델 Preference 최적화 모델 추론 특화 모델
학습
단계
Pre-training SFT (Instruction 데이터) DPO (Preference 데이터) SFT (Reasoning 데이터)
사용
데이터
Dolma 사전학습 데이터 Dolci-Instruct-SFT-7B Dolci-Instruct-DPO-7B Dolci-Think-SFT-Olmo-Hybrid
특징 기본 언어 생성 능력 제공 사용자 질문 응답 및 지시 수행 학습 선호 기반 학습을 통한 응답 품질 개선 단계적 추론(Reasoning) 능력 강화
사용
목적
연구 / 파인튜닝 기반 모델 일반 챗봇 및 QA 실제 서비스용 챗 모델 수학·논리 등 추론 문제
라이
선스
Apache 2.0 Apache 2.0 Apache 2.0 Apache 2.0
모델
경로
Hugging Face 제공 Hugging Face 제공 Hugging Face 제공 Hugging Face 제공

 

 

주요 특징

OLMo Hybrid 모델은 다음과 같은 특징을 가지고 있습니다.

    1. 더 적은 학습 데이터로 성능 달성 : OLMo Hybrid 모델은 동일한 성능을 얻기 위해 필요한 학습 데이터 양을 줄이는 방향으로 설계된 모델입니다. 공식 블로그에 따르면 기존 OLMo 모델과 비교했을 때 동일한 MMLU 성능을 약 49% 적은 학습 토큰으로 달성했습니다. 이는 모델 학습 효율이 높다는 의미이며, 같은 성능을 만들기 위해 필요한 데이터와 학습 비용이 줄어들 수 있습니다.
    2. 긴 문장을 효율적으로 처리하는 구조 : 일반적인 언어 모델은 입력 문장이 길어질수록 계산량이 크게 증가하는 특징이 있습니다. OLMo Hybrid 모델은 이러한 문제를 개선하기 위해 긴 문장을 처리하는 연산을 더 효율적인 방식으로 배치한 구조를 사용합니다. 모델 내부에서는 긴 문맥을 처리하는 레이어와 단어 간 관계를 정확하게 계산하는 Attention 레이어가 3:1 비율로 반복되는 방식이 사용됩니다. 이 구조를 통해 긴 문장을 처리하는 효율과 언어 이해 능력을 동시에 고려한 설계가 적용되었습니다.
    3. 긴 문맥 성능 개선 : 이러한 구조적 설계를 통해 긴 문맥 환경에서의 성능이 개선되었습니다. 공식 블로그에서 공개된 결과에 따르면 RULER 64K long-context 평가에서 기존 OLMo 3 모델보다 높은 점수를 기록했습니다. 이는 긴 문서를 처리하는 작업에서 모델 성능이 향상되었음을 의미합니다.
    4. 완전 공개형 오픈 모델 : OLMo Hybrid 모델은 단순히 모델 가중치만 공개된 것이 아니라 학습 코드, 중간 체크포인트, 평가 코드 등 연구에 필요한 자료가 함께 공개된 모델입니다. 이러한 공개 방식은 연구자와 개발자가 모델 구조와 학습 과정을 직접 확인하고 활용할 수 있도록 하기 위한 목적을 가지고 있습니다.

 

 

벤치마크 성능

OLMo Hybrid 7B 모델은 공개된 벤치마크 기준에서 기존 OLMo 모델 및 동일 규모의 오픈 모델과 비교했을 때 전반적으로 향상된 성능을 기록했습니다. 특히 같은 계열의 이전 모델인 OLMo 3 7B와 비교했을 때 여러 평가 지표에서 성능 개선이 확인됩니다.

예를 들어 MMLU STEM 벤치마크에서는 OLMo Hybrid 7B가 64.6점을 기록하며 OLMo 3 7B의 59.7점보다 높은 결과를 보여주었습니다. 또한 ARC와 HellaSwag와 같은 추론 기반 평가에서도 각각 90.8점, 86.2점을 기록하며 이전 모델 대비 성능이 향상되었습니다. 코드 생성 능력을 평가하는 BigCodeBench에서도 35.1점을 기록하여 OLMo 3 7B의 34.1점보다 높은 성능을 보였으며, 이는 동일한 모델 규모에서 전반적인 코드 생성 능력이 개선되었음을 보여주는 결과입니다.

종합적으로 살펴보면 OLMo Hybrid 7B는 동일한 7B 규모 모델에서 기존 OLMo 모델 대비 여러 벤치마크에서 성능이 향상된 결과를 보이며, 효율적인 구조 설계를 기반으로 성능 개선을 이룬 모델이라는 점이 특징입니다.

벤치마크 지표 OLMo Hybrid
7B
OLMo 3
7B
Qwen3
-8B
Gemma-2
-9B
Llama-3.1
-8B
MMLU STEM
(STEM 분야 전문 지식 이해 능력 평가)
64.6 59.7 76.7 62.8 55.7
HumanEval
(코드 생성 기반 프로그래밍 문제 해결 능력 평가)
49.0 49.1 71.7 40.0 40.4
BigCodeBench
(실제 프로그래밍 작업 수행 능력 평가)
35.1 34.1 42.5 30.9 30.7
ARC
(과학 문제 기반 논리 추론 능력 평가)
90.8 89.2 95.4 92.7 86.4
HellaSwag
(상식 기반 문맥 이해 능력 평가)
86.2 85.7 84.8 81.3 76.1
DROP
(독해 기반 계산·논리 추론 능력 평가)
34.8 32.6 33.8 40.4 36.7
출처: Olmo-Hybrid-7B 모델 (허깅페이스)

 

 

라이선스

OLMo Hybrid 모델은 Apache 2.0 License로 공개됩니다. Apache 2.0 라이선스는 비교적 제약이 적은 대표적인 오픈소스 라이선스로, 개인 개발 환경부터 기업 서비스까지 비교적 자유롭게 활용할 수 있는 구조를 제공합니다.


Apache 2.0 라이선스의 주요 특징은 다음과 같습니다.

  • 상업적 사용 가능
  • 모델 수정 및 파생 모델 생성 허용
  • 서비스 및 제품에 통합 가능
  • 라이선스 및 저작권 표시 유지 요구

Apache 2.0 라이선스는 비교적 자유로운 오픈소스 라이선스로, 연구 환경뿐만 아니라 상업적 서비스에서도 활용할 수 있습니다. 다만 모델을 재배포하거나 수정하여 사용할 경우에는 라이선스 및 저작권 고지를 유지해야 합니다.

 


 

간단한 사용 예시

OLMo Hybrid 모델은 대규모 언어 모델로, 로컬 실행부터 다양한 자연어 처리 기능 구현까지 여러 방식으로 활용할 수 있습니다. 이번 예시에서는 공개된 모델 중 하나인 OLMo Hybrid Instruct-DPO-7B 모델을 사용하여 로컬 환경에서 간단한 텍스트 생성 테스트를 진행해보겠습니다. 이 모델은 지시문 기반(Instruct) 데이터로 학습된 버전으로, 질문에 대한 답변 생성이나 기본적인 대화 테스트를 비교적 쉽게 확인할 수 있습니다.

 

로컬 GPU 환경 실행

OLMo Hybrid Instruct-DPO-7B 모델은 Hugging Face에 공개된 모델 가중치를 기반으로 로컬 환경에서 직접 실행할 수 있습니다. 약 7B 파라미터 규모의 모델이기 때문에 개인 GPU 환경에서도 테스트가 가능하며, 간단한 프롬프트를 입력하여 텍스트 생성이나 질문 응답과 같은 기본적인 언어 모델 기능을 확인할 수 있습니다. 이번 예시에서는 Python 환경에서 Transformers 라이브러리를 이용해 모델을 불러오고, 간단한 프롬프트를 입력하여 모델이 어떤 방식으로 답변을 생성하는지 확인해보겠습니다. 이러한 방식은 챗봇 기능 테스트나 자연어 처리 기능 개발을 시작할 때 기본적인 동작을 확인하는 용도로 활용할 수 있습니다.

 

[패키지 설치]

# Windows PowerShell
pip install transformers accelerate flash-linear-attention triton
pip install torch==2.6.0 --index-url https://download.pytorch.org/whl/cu126

 

[간단한 예시 코드 ]

# Python

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "Path/to/Olmo-Hybrid-Instruct-DPO-7B"  # 사용자 환경에 맞게 수정
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
).to("cuda")

print("OLMo Hybrid Chat 시작 (종료하려면 'quit' 입력)")

while True:
    prompt = input("\nUser: ")

    if prompt.strip().lower() == "quit":
        print("프로그램 종료")
        break

    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

    outputs = model.generate(
        **inputs,
        temperature=0.6,
        top_p=0.95,
        max_new_tokens=512,
    )

    response = tokenizer.decode(outputs[0], skip_special_tokens=True)

    print("\nAssistant:", response)

 

[실행 결과]

OLMo Hybrid Instruct-DPO-7B 모델을 로컬 환경에서 실행한 결과, RTX 4060 Ti 16GB GPU 기준 약 16GB 수준의 VRAM이 사용되었습니다. 테스트 프롬프트 입력 후 모델이 생성한 답변 길이는 약 512 토큰으로 확인되었으며, 전체 생성 시간은 약 44.52초가 소요되었습니다. 이를 기준으로 계산한 토큰 생성 속도는 약 11.5 tokens/sec로 확인되었습니다. 로컬 환경에서 7B 규모 모델을 직접 실행하는 테스트에서도 정상적으로 동작했으며, GPU 메모리 사용량 또한 모델 크기 대비 안정적으로 유지되었습니다.

 

아래는 실제 입력한 프롬프트와 생성 결과입니다.

  • 입력 프롬프트 : Who would win in a fight - a dinosaur or a cow named Moo Moo?

실행 결과

 

다만 이번 테스트는 Transformers 라이브러리의 기본 generate() 방식을 사용하여 실행한 결과입니다. Transformers는 범용 모델 실행을 목표로 설계된 라이브러리이기 때문에 추론 속도 측면에서는 최적화된 추론 엔진에 비해 시간이 더 소요될 수 있습니다. 그럼에도 로컬 환경에서 별도의 추론 엔진 없이도 7B 규모 모델을 직접 실행할 수 있으며, 약 16GB 수준의 GPU 메모리 환경에서도 안정적으로 동작한다는 점은 개인 개발 환경에서도 테스트와 활용이 가능한 모델이라는 점을 보여줍니다.

 


 

OLMo Hybrid 모델은 기존 Transformer 기반 언어 모델 구조에 새로운 접근을 시도한 연구 모델로, 긴 문맥 처리 효율과 학습 데이터 효율 측면에서 의미 있는 방향을 제시한 모델입니다. 특히 Transformer와 DeltaNet 구조를 결합한 설계를 통해 동일한 성능을 더 적은 학습 데이터로 달성할 수 있다는 점은 향후 대규모 언어 모델 아키텍처 연구에서도 중요한 참고 사례가 될 수 있습니다.

 

현재 모델 가중치와 학습 과정이 공개된 형태로 제공되고 있으므로 로컬 환경에서도 직접 실행하여 성능과 구조를 확인해볼 수 있습니다. 실제로 테스트 환경에서도 7B 규모 모델이 안정적으로 동작하는 것을 확인할 수 있었으며, 관심이 있다면 직접 활용해 보시길 바랍니다.

 

 

감사합니다. 😊

 

반응형