본문 바로가기

AI 소식

스스로 학습하는 AI 모델, Absolute Zero Reasoner에 대해 소개합니다.

안녕하세요,

AI의 성능은 단순히 학습한 데이터의 양뿐만 아니라, 어떤 데이터를 사용했는지에 따라 큰 차이를 보입니다. 일반적으로 이러한 데이터는 AI 개발자들이 직접 선별하고 정제하여, 더 높은 품질로 가공합니다. 최근에는 별도의 학습 데이터 없이 스스로 학습해 높은 성능을 보이는 AI 기술이 등장했습니다. 이 기술은 ‘Absolute Zero Reasoner ’라고 불리며, AI가 외부의 지도 없이도 스스로 학습하여 우수한 성능 지표를 달성한다고 알려져 있습니다.

 

이번 글에서는 Absolute Zero Reasoner 기술에 대해 자세히 알아보겠습니다.


반응형

Absolute Zero Reasoner 란

Absolute Zero Reasoner(AZR)는 기존의 인간이 만든 데이터에 의존하지 않고, AI가 스스로 문제를 만들고 해결하며 학습하는 완전 자율 학습 패러다임입니다. 전통적인 추론 모델 학습 방식은 질문, 해설, 정답 등의 인간이 정제한 데이터가 필수적이지만, Absolute Zero Reasoner는 이러한 구조를 근본적으로 탈피합니다. 이 패러다임은 "Propose-Solve-Learn"의 자기 강화 루프를 통해 작동하며, 인간의 개입 없이도 범용 추론 능력을 빠르게 향상시킬 수 있는 가능성을 제시합니다.

 

출처: Absolute Zero Reasoner 공식페이지 (클릭시 페이지 이동)

 

 

작동 원리

AZR에서는 하나의 통합 모델이 문제를 만드는 역할(Proposer)과 문제를 푸는 역할(Solver)을 모두 수행합니다. 즉, 하나의 AI가 두 가지 역할을 번갈아 수행하면서, 문제 생성 → 문제 해결 → 학습 강화의 순환 과정을 지속적으로 반복하게 됩니다. 이제 아래 이미지를 바탕으로, 이러한 작동 과정을 단계별로 쉽게 살펴보겠습니다.

Absolute Zero 작동 원리

 

1. 문제를 만드는 역할 (Proposer)

가장 먼저, AI는 스스로 공부할 문제를 생성합니다. 이때 단순히 아무 문제나 만드는 것이 아니라, 너무 쉽지도, 너무 어렵지도 않은 문제를 만들도록 설계되어 있습니다. 이런 방식은 실제 사람도 학습할 때 적절한 난이도에서 더 잘 성장하는 것과 같은 원리입니다.

→ 이미지에서 왼쪽(Proposer) 부분이 바로 이 과정입니다.

 

2. 문제를 푸는 역할 (Solver)

AI는 이제 방금 만든 문제를 직접 풀어보는 Solver 역할도 수행합니다. 답을 맞히면 스스로 칭찬(보상)을 받고, 틀리면 왜 틀렸는지를 분석하면서 배우게 됩니다. 답의 정확성은 Python 코드 실행을 통해 검증되므로, 객관적인 판단 기준도 함께 작동합니다.

→ 이미지의 오른쪽(Solver)가 이 단계입니다.

 

3. 반복하면서 실력 향상 (자기 강화)

이 두 과정을 계속 반복하며 AI 스스로 문제를 내고, 풀고, 배우는 사이클이 계속되며 점점 더 똑똑해지는 것입니다. 이런 반복 학습 구조를 "자기 강화(Self-Reinforcement)"라고 부릅니다. 사람의 도움 없이도 스스로 실력을 끌어올리는 것이 Absolute Zero의 핵심 강점입니다.

→ 이미지의 아래쪽(Self-Reinforcement)는 이 반복적 성장 과정을 나타냅니다.

 

 

주요 특징

1. 외부 데이터 없이, 스스로 배우는 Self-Play 학습

사람이 만든 데이터를 전혀 사용하지 않고, AI가 스스로 문제를 만들고 풀며 학습합니다. 기존처럼 대규모 라벨링 데이터에 의존하지 않는 새로운 방식입니다.

 

2. 다양한 추론 과제를 스스로 생성하고 검증

귀납, 연역, 유추 등 다양한 추론 문제를 AI가 직접 만들고, Python 코드를 실행해 문제의 타당성을 스스로 검증합니다.

 

3. 문제 해결부터 정답 검증까지 전 과정 자동 수행

생성한 문제를 AI가 직접 해결하고, 그 정답이 맞는지 코드 실행을 통해 검증합니다. 정확도에 따라 보상을 받으며, 스스로 추론 능력을 향상시킵니다.

 

4. TRR++ 알고리즘을 통한 지속적인 성장

과거의 경험을 반영해 보상을 조정하는 TRR++ 알고리즘을 사용하여, 더 효과적으로 학습하고 복잡한 문제 해결 능력을 키워갑니다.

 

5. 고성능 추론 능력과 높은 확장성

라벨링 데이터 없이도 수학·코딩 등 복잡한 문제에서 SOTA 수준의 성능을 보여줍니다. 모델 구조나 크기에 구애받지 않아 다양한 분야에 활용될 수 있습니다.

 

 

기존 모델들과의 비교

[코딩 성능 비교]

Spinning Hexagon 실험 결과, AZR-Coder-14B는 다른 모델들과 비교해 물리적 상호작용과 시각적 정확도가 가장 뛰어난 결과를 보여주었습니다. 특히 중력, 마찰, 회전 벽 반응 등을 현실적으로 구현하며, 복잡한 시뮬레이션 조건을 정확하게 코드로 표현하는 능력에서 가장 우수한 성능을 입증하였습니다. 정확한 코드 내용은 AZR 공식페이지에서 확인하실 수 있습니다.

출처: Absolute Zero Reasoner 공식페이지 (클릭시 페이지 이동)

 

[코드와 수학적 추론 벤치마크]

AZR은 별도의 학습 데이터 없이도 기존 모델들과 동등하거나 더 뛰어난 성능을 보여줍니다. AZR 모델 기준 46.8점, Coder 모델 기준 50.4점으로 이를 상회하는 성능을 기록했습니다. 특히, 수십만 건의 전문가 데이터로 학습된 PRIME-Zero(41.5점), Oat-Zero(44.9점) 등과 비교하면, Absolute Zero는 데이터 없이도 평균 성능에서 더 높은 점수를 기록했습니다. 또한, 코드 추론 성능에서는 AZR(Coder)이 61.6점을 달성해, CodeR1-12k(61.3점), AceCoder 시리즈 등 전통적인 코드 전용 모델보다도 높은 성능을 보였습니다.

출처: Absolute Zero 공식페이지 (클릭시 이미지 확대)

 

 

현재 한계점 및 개선 방향

AZR은 외부 데이터 없이 스스로 학습하는 혁신적인 구조를 바탕으로 설계되었으나, 아직 완전히 해결되지 않은 몇 가지 기술적 한계와 개선이 필요한 부분도 함께 존재합니다. 특히, Llama3.1-8B 모델을 기반으로 학습을 진행하는 경우,
추론 도중 간헐적으로 비정상적이거나 우려스러운 사고 흐름이 나타나는 사례가 관찰되었습니다.
예를 들어, 위의 예시에서는 AI가 “기계 학습 모델과 인간 모두를 혼란스럽게 만들기 위한 복잡한 함수를 설계하라”는 식의 의도하지 않은 명령을 생성한 바 있으며, 이는 안전성 측면에서 고려가 필요한 부분입니다. 이러한 사례는 AZR의 자율적 학습 방식이 일부 상황에서 비예상적 출력을 생성할 수 있음을 시사하고, 여전히 보완이 필요한 부분이 존재합니다.

 


 

AZR은 외부 데이터 없이 스스로 문제를 만들고 풀며 학습하는, 기존과는 전혀 다른 접근 방식을 제시하는 혁신적인 모델입니다. 특히 코드 추론과 수학 영역에서 입증된 성능은, 사람이 만들어낸 데이터 없이도 AI가 스스로 사고하고 성장할 수 있다는 가능성을 실증적으로 보여주고 있습니다.

 

물론 아직 일부 상황에서는 예기치 않은 출력이나 안전성 문제와 같은 과제가 존재하지만, 이는 새로운 자율 학습 패러다임이 발전해나가는 과정에서 충분히 보완해 나갈 수 있는 부분입니다. 앞으로 AZR이 더욱 안정적이고 신뢰할 수 있는 방향으로 발전하게 된다면, 데이터에 대한 의존도를 줄이고, 더욱 효율적이며 창의적인 AI 학습 방식으로 자리 잡을 수 있을 것으로 기대됩니다.

 

감사합니다. 😊

 

반응형