안녕하세요,
인공지능 기술은 올해도 전 세계적으로 큰 관심을 받을 전망입니다. 특히, 중국의 AI 기술력은 눈부신 발전 속도로 많은 이들에게 놀라움을 안겨주고 있습니다. 오늘 소개해드릴 내용은 바로 중국의 인공지능 기업에서 개발한 최신 언어 모델(LLM), DeepSeek-V3입니다. 이 모델은 OpenAI의 GPT-4와 견줄 만큼 뛰어난 성능을 자랑하며, 전문가와 사용자들 사이에서 큰 주목을 받고 있습니다. 그럼 이제, 이 DeepSeek-V3에 대해 자세히 알아보겠습니다.
DeepSeek-V3란
DeepSeek-V3는 대규모 언어 모델(LLM) 분야에서 획기적인 진전을 이룬 오픈소스 AI 모델입니다. 이 모델은 Mixture-of-Experts(MoE) 구조를 채택해, 각 토큰 처리 시 370억 개의 파라미터를 활성화함으로써 효율적인 추론과 비용 효과적인 학습을 실현했습니다. DeepSeek-V3는 오픈소스 모델 중에서도 최고 수준의 성능을 자랑하며, 일부 분야에서는 주요 비공개 모델과 견줄 만한 결과를 보여줍니다. 특히 코딩, 수학, 추론 작업에서 우수한 성능을 발휘해, AI 연구 및 다양한 응용 분야에서 큰 기여를 할 것으로 기대됩니다.
- DeepSeek 공식페이지 : https://www.deepseek.com/
DeepSeek-V3 성능
DeepSeek-V3는 다양한 벤치마크에서 뛰어난 성능을 보이며, 일부 영역에서는 Claude-3.5나 GPT-4o 같은 비공개 모델과 대등하거나 이를 능가합니다.
아키텍처 측면에서 Mixture-of-Experts(MoE) 구조를 채택해 효율성과 성능을 동시에 갖추었으며, 영어 관련 성능에서는 MMLU 시리즈와 DROP (3-shot F1)에서 최고 수준의 점수를 기록했습니다. GPQA-Diamond와 SimpleQA에서는 Claude-3.5와 GPT-4o보다 약간 낮았지만, 문서 이해 벤치마크 FRAMES에서는 경쟁력을 보였습니다.
코딩 성능에서는 HumanEval-Mul에서 GPT-4o를 앞섰으며, LiveCodeBench와 SWE Verified에서도 높은 점수를 기록했습니다. 특히, Aider-Edit와 Aider-Polyglot 항목에서는 대부분의 모델을 능가하는 성과를 보였습니다.
수학에서는 MATH-500과 CNMO 2024에서 압도적인 우위를 점하며, 중국어에서는 CLUEWSC와 C-Eval에서 매우 높은 점수를 기록했습니다.
전반적으로, DeepSeek-V3는 오픈소스 모델 중 최고 수준의 성능을 자랑하며, 다양한 응용 분야에서 활용 가능성이 매우 높습니다.
모델 공개
DeepSeek-V3는 오픈 소스로 공개된 모델로, 현재 GitHub와 Hugging Face를 통해 학습 코드와 모델 가중치를 모두 확인하실 수 있습니다. 이를 통해 연구자와 개발자는 모델의 구조와 작동 방식을 직접 확인하고, 자신의 필요에 맞게 활용하거나 확장할 수 있습니다. 누구나 이 모델을 다운로드하여 학습 프로세스를 재현하거나, 새로운 기능을 추가하는 등 실험과 연구를 자유롭게 진행할 수 있습니다. 이러한 공개는 DeepSeek-V3가 단순히 기술적 성과를 넘어, AI 발전과 지식 공유의 중요한 역할을 한다는 점을 보여줍니다.
- DeepSeek 깃허브 : https://github.com/deepseek-ai/DeepSeek-V3
- DeepSeek 허깅페이스 : https://huggingface.co/deepseek-ai/DeepSeek-V3/tree/main
이 모델은 오픈 소스로 공개된만큼 최소 사양만 갖춰진다면 로컬환경에서도 실행이 가능합니다. 하지만, 허깅페이스에 제공된 모델 크기만 하더라도 약 700GB 크기의 굉장히 많은 크기의 용량을 필요로 합니다. 게다가 671B 파라미터의 모델 가중치로 매우 높은 VRAM이 필요할 것으로 보입니다. 이러한 내용을 보면 이론상으로는 로컬 환경에서 사용이 가능하지만, 실질적으로 개인이 이 모델을 돌려보는 것은 불가능할 것으로 보입니다.
DeepSeek 사용
DeepSeek는 로컬 환경에서 사용이 가능할 뿐만 아니라, 현재 웹 플랫폼을 통해서도 무료로 이용할 수 있습니다. 아래 링크를 통해 DeepSeek 플랫폼에 접속하여 직접 사용가능합니다.
- DeepSeek 플랫폼 : https://chat.deepseek.com/
DeepSeek 플랫폼의 메인 페이지는 ChatGPT와 유사한 인터페이스를 제공합니다. 왼쪽에는 지금까지 진행된 대화창을 관리할 수 있는 창이 배치되어 있어, 대화를 효율적으로 정리하고 다시 확인할 수 있습니다. 중앙에는 프롬프트 입력창이 위치해 있어 사용자가 질문을 입력하면 AI가 실시간으로 응답을 제공합니다. 현재 플랫폼에서는 텍스트 입력 방식으로만 작동하며, 고급 추론 기능과 인터넷 검색 기능을 갖추고 있어 다양한 질문과 작업을 처리할 수 있습니다.
OpenAI의 ChatGPT에서 추론 기능(o1 모델)을 사용하려면 유료 결제 플랜을 구독해야 하지만, DeepSeek 플랫폼에서는 이와 같은 추론 모델을 무료로 이용할 수 있다는 점이 큰 장점입니다. 위 이미지는 추론 기능을 사용한 결과로, AI가 질문에 대해 스스로 추론하여 답변을 생성한 내용을 보여줍니다. 하지만 오른쪽 이미지를 보면, 일부 답변에서 한글 외에 한자와 영문이 섞여 출력되는 경우도 확인할 수 있습니다. 이러한 점은 아쉬운 부분이지만, 오픈소스 모델임에도 이 정도의 성능을 제공한다는 것은 매우 놀라운 점이라 할 수 있습니다.
라이선스
DeepSeek-V3는 MIT라이선스로, 소프트웨어의 상업적 사용을 명시적으로 허용합니다. 사용자는 소프트웨어를 수정하거나 그대로 사용하여 상업적인 목적으로 배포하거나 판매할 수 있습니다. 이 라이선스는 "제한 없이 소프트웨어를 활용할 수 있음"을 명시하며, 사용, 복사, 수정, 병합, 배포, 서브라이선스, 그리고 소프트웨어 복사본의 판매까지 허용합니다.
다만, 소프트웨어를 상업적으로 사용하더라도 반드시 저작권 표시 및 허가 내용을 모든 복사본에 포함해야 합니다. 이는 원 저작자의 권리를 보장하고, 라이선스 조건을 준수하기 위한 필수 조건입니다.
DeepSeek는 강력한 인공지능 기능과 사용자 친화적인 인터페이스를 통해 누구나 쉽게 AI 기술을 활용할 수 있는 환경을 제공합니다. 무료로 제공되는 고급 추론 모델과 인터넷 검색 기능은 DeepSeek의 큰 장점으로, AI 연구자뿐만 아니라 일반 사용자들에게도 폭넓은 활용 가능성을 열어줍니다.
언어 모델(LLM)은 그동안 미국 기업들이 주도해 왔지만, 이제는 중국 기업들도 이 경쟁에 적극적으로 참여하고 있습니다. AI 기술은 2025년에도 중요한 핵심 분야로 자리할 것이며, 미래를 선도하는 주요 산업 중 하나로 계속 발전할 것입니다. 한국 또한 이러한 AI 기술 발전에 적극적으로 참여하여 글로벌 경쟁력을 갖춘 기업들이 더 많이 등장하기를 기대합니다.
앞으로도 AI와 관련된 유익한 정보를 지속적으로 공유할 수 있도록 노력하겠습니다.
감사합니다. 😊
'AI 소식 > 오픈소스 AI 모델' 카테고리의 다른 글
[오픈 소스 AI] [로컬 환경] 저화질 영상을 고화질로 만들어주는 AI, STAR를 소개합니다. (0) | 2025.01.21 |
---|---|
[오픈 소스 AI] 배경 없이 객체만 그려주는 AI, TransPixar를 소개합니다. (0) | 2025.01.17 |
[오픈 소스 AI] 구글에서 발표한 기상 예보 AI, GenCast (젠캐스트)를 소개합니다. (0) | 2024.12.13 |
[오픈 소스 AI] [로컬 환경] 메타에서 공개한 LLM, Llama 3.3를 소개합니다. (2) | 2024.12.11 |
[영상 생성 AI] [오픈 소스] [로컬 환경] Genmo에서 개발한 영상 생성 AI, Mochi-1를 소개합니다. (0) | 2024.10.31 |