본문 바로가기

AI 소식/유용한 AI 도구

[오픈 소스 AI] [로컬 환경] 실시간 대화하는 AI 비서, "Moshi"를 소개합니다.

안녕하세요,

 

오픈AI가 최근 GPT-4o를 출시하며 실시간 대화 음성 기능을 선보여 큰 주목을 받았습니다. 이와 동시에 구글도 Gemini Live라는 기능을 통해 실시간 음성 채팅 서비스를 제공하고 있으며, AI와의 실시간 대화 기능이 점점 더 많은 관심을 받고 있습니다. 이제 단순한 텍스트 기반의 채팅을 넘어서, 음성으로 소통하는 AI 비서가 차세대 기술로 자리잡고 있습니다.

 

이러한 흐름 속에서 프랑스 기업 Kyutai(큐타이)는 GPT-4o와 비슷한 성능을 지닌 AI 음성 비서 Moshi(모시)를 개발하고, 이를 오픈 소스로 공개하여 더욱 큰 화제를 불러일으켰습니다. Moshi는 사용자와 자연스러운 음성 대화를 나눌 수 있는 인공지능 비서로, 다양한 용도에 쉽게 적용될 수 있도록 설계되었습니다.

 

이번 포스팅에서는 Moshi의 특징과 성능을 살펴보고, 이를 직접 사용하는 방법에 대해 자세히 안내해 드리겠습니다. Moshi가 AI 음성 비서 분야에서 어떻게 새로운 가능성을 제시하는지, 그리고 실생활에서 어떻게 활용될 수 있는지 함께 알아보겠습니다.


반응형

Moshi 란

 

프랑스 기업 Kyutai가 GPT-4와 유사한 성능을 가진 AI 음성 비서 Moshi를 공개하며 주목을 받고 있습니다. Moshi는 7억 개의 파라미터를 가진 언어 모델을 기반으로 , 실시간 음성-텍스트 상호작용을 처리하며, 최대 160ms의 빠른 응답 속도를 자랑합니다. Mimi라는 최첨단 음성 코덱을 사용해 고품질의 음성 출력을 제공하며, 감정 표현을 70가지 이상 지원합니다.  이 AI는 24GB 램과 3090급 GPU에서도 원활히 실행되며, PyTorch와 Rust로 구현되어 다양한 환경에서 사용할 수 있습니다.

 

출처: Kyutai 유튜브

 

Moshi의 가장 큰 장점은 오픈 소스로 공개되었다는 점입니다. 누구나 이를 자유롭게 다운로드해 파인 튜닝하거나 맞춤형으로 수정할 수 있습니다. PyPI를 통해 손쉽게 설치할 수 있고, 다양한 실시간 음성 처리 애플리케이션에 통합할 수 있어 개발자와 연구자들 사이에서 큰 관심을 받고 있습니다. 또한 TTS(텍스트 음성 변환) 및 ASR(자동 음성 인식) 기능을 통해 사용자와의 상호작용이 더욱 자연스럽고 빠르게 이루어집니다.

 

이러한 점에서 Moshi는 개인 프로젝트에서부터 상업적 응용까지 폭넓게 활용될 수 있으며, 실시간 음성 비서 시장에 새로운 가능성을 제시하고 있습니다. 자세한 정보와 설치 방법은 Kyutai의 GitHub 페이지에서 확인할 수 있습니다.

 

 

Kyutai에서 현재 이 Moshi모델을 사용해보실 수 있습니다. 아래 링크에서 한번 사용하실 수 있습니다.

 

 

 

Moshi 라이선스

 

Moshi의 라이선스는 상업적 사용이 가능하도록 허용됩니다. Python 코드와 웹 클라이언트 코드는 MIT 라이선스를, Rust 백엔드는 Apache 2.0 라이선스를 따르며, 이 둘 모두 상업적 사용, 수정, 배포가 가능합니다. 모델 가중치는 CC-BY 4.0 라이선스로 공개되어, 상업적 목적으로도 사용할 수 있지만, 원 저작자를 명시해야 합니다. 이러한 라이선스 구조로 Moshi는 다양한 상업적 프로젝트에 자유롭게 활용될 수 있습니다. 해당 내용은 아래 Kyutai 오픈 소스 깃허브에서 확인하실 수 있습니다.

 

 

 

목차
1. 실행 환경
2. Moshi 설치 (ubuntu, conda, python, rust, c 컴파일러)
3. Moshi 실행

 

 


728x90

1. 실행 환경

 
  • 운영체제 : Ubuntu 24.04.1 LTS (리눅스 기반 운영체제)
  • Python : 3.12.7
  • Rust : 1.81.0
  • torch : 2.4.1
  • GPU : NVIDIA GeForce RTX 4060 Ti

 

 

2. Moshi 설치

Moshi는 현재 공식적으로 Windows 환경을 지원하지 않습니다. 따라서 리눅스 기반 운영체제인 Ubuntu를 사용하여 Moshi 설치를 진행하겠습니다.

 

1) Ubuntu 설치

Windows PowerShell에서 아래 명령어를 입력하여 Ubuntu를 설치합니다.

# Windows PowerShell
wsl --install -d Ubuntu-22.04

설치가 완료되면 시스템을 재부팅합니다. 재부팅 후 설치된 Ubuntu를 실행합니다. 시작 메뉴나 Windows 작업 표시줄의 검색 창에서 "Ubuntu"를 검색해 실행할 수 있습니다.

 

 

2) Conda 설치 및 실행

Ubuntu 터미널에서 Python 가상 환경을 효율적으로 관리하기 위해 Conda를 설치합니다. 아래 명령어를 통해 Conda를 설치할 수 있습니다.

# Ubuntu 터미널
sudo apt update
sudo apt install wget
wget https://repo.anaconda.com/archive/Anaconda3-2024.06-1-Linux-x86_64.sh
bash Anaconda3-2024.06-1-Linux-x86_64.sh

 

설치 과정에서는 라이선스에 동의하고 설치 경로를 지정하게 됩니다. 기본 경로로 설치해도 무방합니다. 설치가 완료되면 다음 명령어를 통해 Anaconda를 활성화할 수 있습니다. 이는 윈도우 환경에서 환경변수를 추가하는 명령어로 보시면 됩니다.

# Ubuntu 터미널
source ~/.bashrc  # 환경 변수 설정

 

 

 

3) Rust 설치

Moshi를 설치하기 위해 Rust가 필요합니다. Rust는 시스템 프로그래밍 언어로, Ubuntu에서 다음 명령어를 통해 설치할 수 있습니다.

# Ubuntu 터미널
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

설치가 완료되면 환경 변수 설정을 적용하기 위해 다음 명령어를 실행합니다.

 

# Ubuntu 터미널
source $HOME/.cargo/env  # 환경 변수 설정

Rust 설치가 완료되었는지 확인하려면 아래 버전 확인 명령어를 사용하여 확인할 수 있습니다.

 

# Ubuntu 터미널
rustc --version

 

정상적으로 설치가 완료되었다면 아래와 같이 rust 버전이 출력됩니다.

 

 

4) c 컴파일러 설치

Moshi 설치 과정에서 일부 C 코드의 컴파일이 필요하므로, C 컴파일러를 설치해야 합니다. Ubuntu에서 GCC(GNU Compiler Collection)를 설치하기 위해 다음 명령어를 사용합니다.

 

# Ubuntu 터미널
sudo apt install build-essential

 

이 명령어는 GCC, G++ 등의 필수 컴파일러 도구들을 설치합니다. 설치 후 아래 명령어를 통해 정상적으로 설치되었는지 확인할 수 있습니다.

# Ubuntu 터미널
gcc --version

 

정상적으로 설치가 완료되었다면 아래와 같이 gcc버전이 출력됩니다.

위 과정을 통해 Ubuntu, Anaconda, Rust, 그리고 C 컴파일러 설치가 완료되었습니다. 이제 Moshi 실행하기 위한 준비가 끝났습니다.

 

 

3. Moshi 실행

아래 명령어를 통해 Moshi를 실행할 수 있습니다. 처음 실행 시 Moshi 모델을 다운로드하고 설정하는 과정이 있어 시간이 다소 소요될 수 있습니다. 이 점 참고해 주세요.

# Windows PowerShell
python -m moshi.server

 

Moshi가 정상적으로 실행되면 아래와 같은 화면이 나타납니다. 로컬 호스트 주소 "http://localhost:8998"로 접속하여 Moshi 서버에 연결할 수 있습니다.

 

 

Moshi 실행 화면

 

위 이미지는 Moshi가 정상적으로 실행된 화면입니다. Moshi는 사용자의 목소리를 인식하여 음성으로 답변하고, 텍스트 답변도 함께 제공합니다. 다만, 현재 사용 중인 하드웨어 사양이 부족하여 즉각적인 응답은 들을 수 없었습니다.

 

Moshi의 공식 깃허브페이지에 따르면, 최소 사용 사양으로 24GB의 VRAM이 필요하다고 합니다. 따라서, 고성능 GPU가 없는 환경에서는 사용이 원활하지 않을 수 있습니다. 향후 Moshi가 더 최적화되어 낮은 사양에서도 원활히 작동할 수 있게 된다면, 추가적인 사용 후기와 가이드를 포스팅하도록 하겠습니다.

 

Moshi의 잠재력은 매우 크며, 향후 발전이 기대되는 프로젝트입니다. 현재는 일부 제약이 있지만, AI 음성 인식 및 대화 기능에 관심이 있으신 분들께는 유용한 도구가 될 수 있을 것입니다. 

 

 

끝까지 읽어주셔서 감사합니다 😊