안녕하세요,
최근 한국 기업 Trillion Labs에서 자체 개발한 한국어 특화 대규모 언어 모델, K-LLM을 공개했습니다. 이 모델은 특히 한국어 처리 능력이 우수하다고 평가받고 있으며, 실제 테스트에서도 자연스러운 번역과 문맥 이해에서 강점을 보이고 있습니다.
이번 포스팅에서는 K-LLM의 주요 특징과 성능을 살펴보고, 직접 실행하는 방법을 함께 소개하겠습니다.
Tri 모델이란
Tri 모델(Tri-7B, Tri-21B)은 국내 기술로 처음부터 사전학습(프롬 스크래치) 방식으로 개발된 ‘소버린(주권) AI’라는 목표 아래, 한국어 및 동북아 언어 특화 대규모 언어모델(LLM)로 평가받고 있습니다. 두 모델 모두 독자 개발, 오픈소스, 고효율 구조를 강점으로 삼으며, 파라미터 규모, 성능, 비용, 언어 특화, 구조적 추론 등에서 각기 다른 특징을 가지고 있습니다.
- Trillion Labs 공식페이지 : https://trillionlabs.co/
Trillion Labs - Superintellgence for Korea
Trillion Labs is advancing AI with cutting-edge language models that bridge cultures and redefine what’s possible.
trillionlabs.co
[모델 정보 요약]
항목 | Tri-7B | Tri-21B |
모델명 | Tri-7B | Tri-21B |
파라미터 수 | 약 77억 (7.76B) | 약 210억 (20.73B) |
개발사 | Trillion Labs | Trillion Labs |
출시일 | 2025년 3월 | 2025년 7월 |
컨텍스트 길이 | 32,768 | 8,192 |
학습 방식 | 프롬 스크래치, 독자 아키텍처 | 프롬 스크래치, 독자 아키텍처 |
특징 | RoPE, SwiGLU, RMSNorm 적용, 한국어 강점, 글로벌 벤치마크 대비 | RoPE, SwiGLU, Chain-of-Thought(CoT), XLDA 적용, 동북아 언어 특화, 추론 강화, 트랜스퍼 휠(Transfer Wheel) 구조 |
라이선스 | Apache 2.0, | Apache 2.0 |
주요 특징
1. 모델 라인업
- Tri-7B : 중형급 모델로, 77억(7.76B) 파라미터를 보유하고 있으며 32k 컨텍스트 길이 지원이 강점입니다. 연구·개발용으로 접근성이 높고, 단일 GPU에서도 구동 가능한 효율성을 목표로 설계되었습니다.
- Tri-21B : 대형급 모델로, 210억(20.73B) 파라미터 규모입니다. 동북아 언어(한국어·일본어 등)에 특화된 학습과 Chain-of-Thought(CoT), XLDA 기법이 적용되어 복잡한 추론 성능을 강화했습니다.
2. 아키텍처 및 기술 적용
- 공통 요소
- Transformer Decoder 기반
- RoPE(Rotary Position Embedding), SwiGLU, RMSNorm 적용
- Pre-training 및 Post-training 단계를 모두 거친 정교한 학습 구조
- 차별 요소
- Tri-7B: 긴 문맥(32,768 토큰) 처리에 강점
- Tri-21B: GQA(Grouped Query Attention)와 XLDA 적용으로 학습 효율 극대화
3. 언어 및 한국어 지원
- Tri 시리즈는 한국어를 포함한 동북아 언어 특화가 강점으로, 한국어 벤치마크(KMMLU, 해례 등)에서 높은 성능을 기록하고 있습니다.
- 특히 Tri-21B는 CoT(Chain-of-Thought) 강화 학습을 통해 복잡한 한국어 추론 과제에서 더 안정적인 성능을 제공합니다.
4. 벤치마크 및 성능
- Tri-7B: 글로벌 7~8B급 모델 대비 경쟁력 확보, 한국어 강점 두드러짐
- Tri-21B: MMLU, KMMLU, MBPP Plus 등에서 고난도 추론 성능 강화, CoT 적용 시 성능 향상
- 두 모델 모두 단순 언어 이해뿐만 아니라 논리적 추론·코딩·멀티태스크에 적합한 설계를 강조
벤치마크 성능
Tri 시리즈는 파라미터 수 대비 뛰어난 효율성을 보여주는 모델입니다. 특히 Tri-7B는 소형 규모임에도 한국어 성능에서 글로벌 동급 모델과 경쟁하며, Tri-21B는 중형 모델임에도 대규모 모델에 근접한 성능을 보였습니다. 한국어 특화 지표인 Hae-Rae에서는 최고 점수를 기록하며 한국어 추론 강점을 입증했습니다.
아래 표에 정리된 벤치마크 점수는 각 기업에서 공개한 데이터를 기반으로 작성된 것으로, Tri-7B와 Tri-21B를 중심으로, Solar Pro 2.0과 Exaone-3.5-32B-Instruct의 성능을 함께 정리한 것입니다.
항목 | Tri-7B | Tri-21B | Solar Pro 2.0 (Reasoning) |
Exaone-3.5-32B- Instruct |
파라미터 수 | 약 77억 (7.76B) | 약 210억 (20.73B) | 309억 (30.9B) | 약 320억 (32B) |
MMLU |
- | 77.62 (CoT 시 85.02) | 86.92 | 78.04 |
MMLU-Pro |
- | 64.74 | 74.36 | 60.44 |
MATH | 49.40 | 77.60 | - | - |
GPQA | 34.15 | 39.73 | - | - |
HumanEval (코딩) | 53.66 | 75.61 | - | - |
해례(Hae-Rae, 한국어) | 82.49 | 86.16 | 85.21 | 79.19 |
KoBEST (한국어) | 82.72 | 85.92 | - | - |
CLiCK (한국어) | 64.43 | 72.32 | - | - |
KMMLU (한국어) | 51.74 (CoT 시 53.51) | 61.89 (CoT 시 69.90) | 75.08 | 54.64 |
Ko-IFEval | 76.63 | 66.51 | 84.65 | 75.69 |
IFEval | 79.26 | 80.75 | 85.18 | 85.41 |
[벤치마크 지표 해설]
- MMLU (0shot-CoT) : 여러 학문 분야의 객관식 문제를 사전 예시 없이 풀어, 모델의 일반 지식 이해력과 즉시 추론 능력을 평가하는 지표
- MMLU-Pro (5shot-CoT) : 난이도를 높인 확장판으로, 소수의 예시(CoT)와 함께 주어진 복잡한 문제 해결 및 심화 지식 활용 능력을 측정하는 지표
- MATH : 수학 대회 수준의 문제를 풀어, 모델의 수리적 사고력과 단계적 추론 능력을 평가하는 지표
- GPQA : 일반 상식이 아닌 전문 지식 기반의 질문을 통해, 심층 추론 및 과학적 정확성을 평가하는 지표
- HumanEval (코딩) : 프로그래밍 문제를 해결하는 코드를 작성하여, 모델의 코드 생성 능력과 실행 가능성을 평가하는 지표
- 해례 (Hae-Rae, 한국어) : 한국어 문해력 및 복잡한 어휘 이해를 평가하는 한국어 특화 벤치마크
- KoBEST (한국어) : 한국어 독해·상식·추론 전반을 평가하는 종합적인 한국어 벤치마크
- CLiCK (한국어) : 한국어 추론과 응용 능력을 측정하는 벤치마크로, 논리적 일관성과 상황 이해를 평가
- KMMLU (한국어, 0shot) : 다양한 한국어 기반 학문 문제를 사전 예시 없이 풀어, 한국어 학문적 지식과 추론 능력을 평가하는 지표
- Ko-IFEval : 한국어 지시문(Instructions)을 얼마나 충실하고 정확하게 따르는지를 평가하는 지표
- IFEval : 영어 지시문(Instructions)을 기반으로, 모델이 주어진 명령을 얼마나 충실히 수행하는지를 평가하는 지표
[데이터 출처]
Tri-7B 벤치마크 정보 : Trillionlabs 허깅페이스
Tri-20B 벤치마크 정보 : Trillionlabs 허깅페이스
Solar Pro 2.0 / Exaone-3.5-32B 벤치마크 정보 : Upstage solar-pro-2 모델 소개 페이지
라이선스
Tri 시리즈 모델은 Apache 2.0 라이선스로 공개되었습니다. 이 라이선스는 매우 자유도가 높은 오픈소스 라이선스로, 연구·개인 프로젝트뿐만 아니라 상업적 사용도 제한 없이 허용됩니다. 즉, 기업이나 개발자는 별도의 비용이나 라이선스 협의 없이 모델을 활용하여 상업 서비스, 제품 개발, 커스터마이징을 진행할 수 있습니다. 단, 재배포 시에는 원 저작권 고지 및 라이선스 사본을 함께 포함해야 하며, 그 외 추가적인 제약은 없습니다.
Tri-7B 모델 사용하기
가장 최근에 공개된 모델은 Tri-20B이지만, 현재 일반적인 컴퓨팅 환경에서 직접 실행하기에는 다소 무거운 편입니다. 따라서 이번 글에서는 비교적 가볍게 다룰 수 있는 Tri-7B 모델을 로컬 환경에서 실행해보겠습니다.
1) 사전 준비 사항
Tri-7B 모델을 실행하려면 먼저 Python 환경이 필요합니다. 따라서 로컬 환경에 맞는 Python을 설치한 뒤, Trillionlabs가 허깅페이스를 통해 배포한 Tri-7B 모델을 다운로드해야 합니다.
Python 설치 : https://www.python.org/downloads/
Trillionlabs 허깅페이스 Tri-7B 모델 다운로드 : https://huggingface.co/trillionlabs/Tri-7B
2) 실행 환경
- 운영체제 : Windows 11
- Python : 3.10.0
- transformers : 4.55.4
- torch : 2.6.0 + cu126
- accelerate : 1.10.1
- GPU : NVIDIA GeForce RTX 4060 Ti (VRAM 16 GB)
3) 패키지 설치
Tri-7B 모델을 실행하기 위해 필요한 패키지를 설치합니다. 아래 명령어를 Windows PowerShell에서 실행하면 됩니다.
# Windows PowerShell
pip install transformers accelerate
pip install torch==2.6.0 --index-url https://download.pytorch.org/whl/cu126
4) 코드 작성
아래와 같이 Tri-7B 모델을 실행할 수 있는 코드를 작성해줍니다.
# Python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
# 모델 로드
model_name = "Path/to/tri-7b" # 사용자 환경에 맞게 수정 (tri-7b 모델 경로)
print("Tri-7B 모델을 메모리에 업로드 중입니다...")
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
print("모델 로드 완료! 'exit'를 입력하면 종료됩니다.\n")
while True:
prompt = input("사용자 > ").strip()
if prompt.lower() == "exit":
print("프로그램을 종료합니다.")
break
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
if "token_type_ids" in model_inputs:
model_inputs.pop("token_type_ids")
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512,
do_sample=True,
temperature=0.7
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(f"모델 > {response}\n")
[실행 결과]
Tri-7B 모델 실행 시 약 14.5GB의 VRAM을 사용했습니다. 답변 생성 시간은 입력 내용에 따라 1분에서 최대 3분 정도 소요되었으며, 단순히 "안녕"이라는 짧은 프롬프트에 대한 응답조차 약 30초가 걸렸습니다. 전반적으로 추론 속도는 다소 느린 편이었습니다. 그러나 한국어 처리 능력은 상당히 우수한 모습을 보였습니다.
이번 테스트에서는 영문 시 번역과 영문 라이선스 번역 두 가지 작업을 진행했습니다.
1) 영문 시 번역
- 입력값 : Whispers of the Night
The moonlight drifts upon the sea,
A silver thread of mystery.
The stars awake, their voices near,
They sing of dreams we hold so dear.
The night is vast, yet soft and kind,
It shelters heart and wandering mind.
Within its quiet, truth is found,
A gentle peace, the world unbound.
해당 시를 번역하는 데 약 2분 정도가 소요되었으며, 번역 과정에서 일부 표현은 다소 어색하거나 원문의 뉘앙스와 미묘하게 차이가 있었습니다. 그러나 전체적으로는 원문의 의미를 비교적 충실하게 담아내어 이해에 무리가 없는 결과를 보여주었습니다.
아래는 실제 실행 결과입니다.
2) 영문 라이선스 번역
- 입력값 : Limitation of Liability. In no event and under no legal theory, whether in tort (including negligence), contract, or otherwise, unless required by applicable law (such as deliberate and grossly negligent acts) or agreed to in writing, shall any Contributor be liable to You for damages, including any direct, indirect, special, incidental, or consequential damages of any character arising as a result.
이번 테스트에서는 Apache 2.0 라이선스의 일부를 발췌하여 한글 번역을 진행했습니다. 결과가 나오기까지 약 3분 정도 소요되었으며, 단순 번역뿐 아니라 추가적인 설명까지 함께 제공되었습니다. 번역 자체는 정확하게 수행되었고, 이해를 돕는 코멘트가 덧붙여져 완성도를 높였습니다.
아래는 실제 실행 결과입니다.
Tri-7B 모델은 뚜렷한 장점과 함께 개선의 여지를 남긴 모델이었습니다. 가장 큰 장점은 7B라는 비교적 작은 규모에도 불구하고 매우 뛰어난 한국어 처리 능력을 보여준다는 점입니다. 특히 번역과 문맥 이해에서 보인 높은 정확도는, 앞으로 등장할 더 큰 규모의 모델에 대한 기대감을 높여주었습니다.
반면, 추론 속도가 예상보다 느리다는 점은 아쉬움으로 남습니다. 짧은 입력값에도 응답 시간이 다소 소요되어, 실시간 상호작용이 중요한 환경에서는 활용에 제약이 있을 것으로 보입니다. 물론 이러한 속도 문제는 향후 최적화 및 하드웨어 성능 개선을 통해 충분히 해결될 수 있을 것입니다.
Tri-7B 모델이 보여준 가능성을 발판 삼아, 앞으로 K-LLM이 더욱 발전해 나가기를 기대하고 응원합니다. 😊
'AI 소식 > 오픈소스 AI 모델' 카테고리의 다른 글
[음성 생성 AI] 마이크로소프트 VibeVoice TTS 모델 소개 및 사용 가이드 (ComfyUI 활용) (4) | 2025.09.09 |
---|---|
[오픈소스 AI] 야놀자, 한국어 번역 특화 AI 모델 EEVE-Rosetta-4B 공개 | 로컬 실행 가이드 (2) | 2025.09.03 |
[오픈소스 AI] 일론 머스크의 xAI, Grok-2 초대형 언어 모델 공개 (3) | 2025.08.28 |
[오픈소스 AI] GPT-5에 맞서는 오픈소스 AI, DeepSeek-V3.1 공개 (1) | 2025.08.22 |
[오픈소스 AI] 중국 Z.ai의 최신 V-LLM, GLM-4.5V를 소개합니다. (4) | 2025.08.21 |