본문 바로가기

AI 소식/유용한 AI 도구

Kanana-o란? 카카오가 만든 차세대 멀티모달 AI 모델 소개

안녕하세요,

최근 AI는 더 이상 영화나 뉴스 속 이야기만이 아니라, 우리 일상 속에서 직접 체감할 수 있는 기술로 자리 잡고 있습니다. 음성으로 대화를 나누고, 사진을 보여주면 그 내용을 이해하며, 필요한 정보를 실시간으로 제공하는 AI 서비스들이 점점 더 많아지고 있습니다.

그동안 이러한 기술은 주로 해외에서 먼저 개발되고 상용화되어 왔지만, 이제는 국내 기업들도 자체적인 AI 모델을 개발하며 본격적인 경쟁에 나서고 있습니다. 그중에서도 최근 카카오는 국내 기술로 개발한 통합 멀티모달 언어모델 ‘Kanana-o’를 공개하며 주목을 받고 있습니다. 이번 글에서는 Kanana-o가 어떤 모델인지, 어떤 특징을 갖고 있는지, 그리고 실제로 어떤 서비스에 활용되고 있는지를 소개해드리겠습니다.


반응형

Kanana-o

Kanana-o는 국내 기업 카카오가 2025년 5월 1일 공식 공개한, 국내 최초의 통합 멀티모달 언어모델입니다. 이 모델은 텍스트, 음성, 이미지 등 다양한 입력을 동시에 이해하고 처리할 수 있는 AI로, 사용자는 어떤 조합으로 질문을 입력하더라도 Kanana-o가 이를 정확히 분석하고, 상황에 적합한 텍스트 또는 자연스러운 음성으로 응답할 수 있습니다.

 

 

카카오, 국내 최초 텍스트·음성·이미지 통합 멀티모달 언어모델 'Kanana-o' 성능 공개

#카카오 #인공지능모델 #통합멀티모달언어모델 #카나나

www.kakaocorp.com

 

Kanana-o는 이미지 처리에 특화된 Kanana-v와 오디오 이해 및 생성에 특화된 Kanana-a 모델을 모델 병합 기술을 통해 통합하여 개발되었습니다. 이후 이미지, 오디오, 텍스트 데이터를 함께 학습하는 병합 학습 과정을 통해 시각과 청각 정보를 동시에 이해하고, 이를 텍스트와 효과적으로 연결지을 수 있도록 훈련되었습니다. 또한 기존 대규모 언어모델 구조에 이미지 이해, 음성 인식 및 합성, 감정 분석 등 고도화된 멀티모달 기능을 확장하여 적용함으로써, 더욱 정교하고 풍부한 사용자 경험을 제공할 수 있도록 설계되었습니다.

 

 

주요 특징

 

  • 음성 감정 인식 : 말투, 억양, 목소리 떨림 등 비언어적 신호를 분석하여 감정을 파악하고, 자연스러운 음성 응답을 생성할 수 있습니다.
  • 한국어 특화 및 방언 처리 : 한국어의 발화 구조와 억양을 정밀하게 반영하며, 제주도와 경상도 등 방언도 인식하여 자연스럽게 표준어로 변환합니다.
  • 실시간 스트리밍 음성합성 : 스트리밍 방식의 음성합성 기술을 적용하여, 긴 대기 시간 없이 실시간으로 감정이 담긴 응답을 제공합니다.
  • 멀티모달 질의응답 및 글로벌 성능 : 텍스트, 이미지, 음성을 결합한 질의응답에서도 뛰어난 성능을 보이며, 특히 한국어 감정 인식에서 GPT-4o보다 높은 정확도를 기록하였습니다.
  • 독자적 음성 토크나이저 개발 : 한국어 전용 음성 토크나이저를 자체 개발 중으로, 멀티모달 처리의 효율성과 정확도를 높이고 있습니다.

 

 

 

기존 모델들과의 비교

Kanana-o는 한국어 음성 처리 분야에서 다른 모델들보다 뛰어난 성능을 보이고 있습니다. 특히 한국어 음성 합성에서는 자연스럽고 감정이 반영된 결과를 안정적으로 생성할 수 있으며, 타 모델들과 비교했을 때 매우 우수한 품질을 유지합니다. 한국어 감정 인식 능력 또한 뛰어나, 억양과 말투, 목소리의 미세한 변화 등을 정밀하게 분석하여 대화 맥락에 맞는 감정 표현이 가능합니다. 이는 감정 기반 상호작용이나 정서적 대응이 필요한 상황에서 큰 장점으로 작용합니다. 한국어 음성 인식에서도 높은 정확도를 보이며, 다양한 억양과 어미 변화를 포함한 한국어의 특성을 잘 반영하고 있습니다. 이러한 특징은 한국어 사용자에게 더욱 자연스럽고 몰입감 있는 인터페이스를 제공하는 데 도움이 됩니다.

 

이처럼 Kanana-o는 한국어 기반 음성 인식, 합성, 감정 처리 전반에 걸쳐 안정적이고 신뢰할 수 있는 성능을 갖추고 있어, 국내 환경에 특화된 멀티모달 AI로서 강력한 경쟁력을 지니고 있습니다.

출처: Kanana-o 공식페이지 (클릭시 페이지 이동)

 

 

카카오 AI 서비스

카카오는 자사의 통합 멀티모달 언어모델인 Kanana-o를 기반으로 한 AI 메이트 서비스 ‘카나나(Kanana)’를 선보이며, 본격적인 상용화 단계에 돌입하였습니다. 현재는 비공개 테스트(CBT) 형태로 서비스를 운영 중입니다.

‘카나나’는 텍스트, 음성, 이미지 등 다양한 입력을 동시에 이해하고 처리할 수 있는 Kanana-o의 멀티모달 능력을 바탕으로, 사용자와 자연스럽게 상호작용하는 AI 메이트 서비스입니다. 이 서비스는 개인 메이트 ‘나나’와 그룹 메이트 ‘카나’로 구성되어 있으며, 일정 관리, 정보 제공, 감정 표현 등 다양한 기능을 수행합니다. 특히 사용자의 대화 맥락을 실시간으로 파악하고, 서비스를 이용할수록 AI의 이해도가 높아져 더욱 개인화된 응답을 제공하는 성장형 서비스로 설계된 것이 특징입니다.

 

 

평가

Kanana-o 기반 AI 서비스 ‘카나나’는 멀티모달 처리 능력과 기술적 완성도 측면에서 높은 평가를 받고 있으나, 실제 사용자 경험에서는 몇 가지 아쉬움이 지적되고 있습니다. 특히, 존재하지 않는 정보를 생성하는 환각 현상정보 출처를 명확히 제시하지 못하는 점이 주요한 한계로 언급되었으며, 카카오톡과의 직접적인 연동 부족으로 인해 활용성에도 제한이 있다는 지적이 있습니다. 반면, 맛집 추천이나 장소 안내 기능은 만족도가 높은 편이며, 카카오는 사생활 보호와 브랜드 전략 차원에서 해당 서비스를 별도 앱으로 운영하고 있다고 설명하고 있습니다.

종합적으로, 기술력은 우수하지만 실사용 관점에서는 아직 개선이 필요한 단계로 평가되고 있습니다.

 


 

해외뿐만 아니라 국내 기업들도 인공지능 기술에 대한 투자를 확대하며, 자체 모델 개발과 서비스 상용화에 적극 나서고 있는 흐름이 뚜렷하게 나타나고 있습니다. Kanana-o와 같은 멀티모달 AI의 등장은 국내에서도 경쟁력 있는 AI 생태계가 조성되고 있음을 보여주는 좋은 사례라 할 수 있습니다.

 

AI 기술이 일상 속에 자연스럽게 스며드는 시대인 만큼, 앞으로도 더욱 정교하고 사용하기 편리한 서비스들이 꾸준히 등장하길 기대합니다. 사용자의 필요에 밀착된 AI가 다양한 영역에서 도움을 줄 수 있기를 바라며, 국내 AI 기술의 지속적인 발전도 함께 응원합니다.

 

감사합니다. 😊

 

 

반응형