본문 바로가기

MCP

구글 Data Commons MCP, 신뢰성 높은 AI를 위한 새로운 공공 데이터 프로토콜

안녕하세요.

최근 인공지능 분야에서 가장 중요한 과제로 떠오른 것은 ‘신뢰할 수 있는 데이터 기반의 응답 생성’입니다. 대형 언어모델은 방대한 텍스트를 학습해 놀라운 성능을 보여주고 있지만, 여전히 사실과 다른 정보를 만들어내는 ‘환각(hallucination)’ 문제가 종종 발생하고 있습니다. 이러한 한계를 해결하기 위해 구글은 새로운 접근 방식을 제시하였습니다. 바로 Data Commons MCP — AI가 현실 세계의 공공 데이터와 직접 연결되어, 근거 있는 분석과 신뢰성 높은 응답을 제공할 수 있도록 설계된 표준 프로토콜입니다.

이번 포스팅에서는 구글이 공개한 Data Commons MCP 서버를 중심으로, 그 구조와 동작 원리, 그리고 간단한 사용 예시를 함께 살펴보겠습니다.


반응형

구글의 Data Commons MCP

2025년 9월 24일, 구글은 Data Commons Model Context Protocol(MCP) 서버를 정식으로 공개하였습니다. 이 프로토콜은 대형 언어모델(LLM)이 단순한 텍스트 이해를 넘어, 현실 세계의 공공 데이터를 직접 활용하여 신뢰할 수 있는 분석과 응답을 생성할 수 있도록 설계된 표준 체계입니다. 이번 발표는 단순한 API 공개를 넘어, AI와 데이터 인프라의 통합이라는 새로운 방향을 제시한 중요한 전환점으로 평가되고 있습니다.

 

 

Introducing the Data Commons Model Context Protocol (MCP) Server: Streamlining Public Data Access for AI Developers- Google Deve

We are excited to announce the public release of the Data Commons Model Context Protocol (MCP) Server. This release marks a major milestone in making all of Data Commons’ vast and interconnected public datasets instantly accessible and actionable for AI

developers.googleblog.com

 

 

MCP란 무엇인가?

MCP(Model Context Protocol)는 AI가 검증된 외부 데이터와 안전하게 연결될 수 있도록 돕는 표준 프로토콜입니다. 기존의 대형 언어모델은 자체 학습 데이터에 의존하기 때문에, 사실과 다른 정보를 생성하는 ‘환각(hallucination)’ 문제가 자주 발생하였습니다. 이에 구글은 MCP를 통해 AI가 공공 데이터베이스를 직접 조회하고, 검증된 데이터를 근거로 답변을 생성할 수 있는 구조를 마련하였습니다. 또한 MCP는 복잡한 API 호출 과정을 단순화하여, 개발자가 자연어 질의만으로도 데이터 탐색, 분석, 보고서 생성까지 수행할 수 있는 접근성 중심의 인터페이스를 제공합니다.

 

[MCP 구성 요소]

MCP는 LLM, MCP 호스트, MCP 클라이언트, MCP 서버의 네 가지 핵심 구성 요소로 이루어져 있습니다. 이 네 구성 요소는 모두 JSON-RPC 2.0 표준을 기반으로 통신하며, 이를 통해 복잡한 매개변수 없이 일관된 데이터 요청과 응답 구조를 유지할 수 있습니다.

구성 요소 역할 예시
LLM 사용자의 자연어 질의를 이해하고 응답을 생성함 Gemini, ChatGPT 등
MCP 호스트 LLM이 실행되는 환경(IDE, CLI, 챗봇 등) Gemini CLI, VSCode MCP 확장 등
MCP 클라이언트 LLM과 MCP 서버 간 요청·응답을 중계하고, JSON-RPC 형식으로 변환 settings.json에 등록된 MCP 연결 설정
MCP 서버 실제 데이터나 기능을 제공하는 서비스 datacommons-mcp 서버 프로세스

 

 

Data Commons MCP의 특징

구글이 공개한 Data Commons MCP는 MCP 아키텍처 중 MCP 서버(Server) 역할을 수행하는 구성요소입니다. 이 서버는 구글이 운영하는 Data Commons 플랫폼 위에 구축되어 있으며, 전 세계의 공공 통계 데이터와 지식 그래프를 AI가 직접 탐색하고 분석할 수 있도록 지원합니다.

 

 

Data Commons

Data Commons aggregates and harmonizes global, open data, giving everyone the power to uncover insights with natural language questions

datacommons.org

 

Data Commons에서는 정부, 국제기구, 연구기관 등에서 제공하는 데이터를 통합하여, 전 세계 각국의 인구, 경제, 건강, 교육, 환경 등 다양한 분야의 정보를 체계적으로 연결한 대규모 데이터베이스입니다. 여기에는 한국 통계청에서 제공하는 데이터 또한 포함되어 있습니다.

그동안 이러한 데이터를 활용하기 위해서는 복잡한 쿼리를 작성하거나 API 사용법을 숙지해야 하는 불편이 있었습니다. 그러나 이번에 공개된 MCP 서버를 통해 이제는 자연어 질의만으로도 동일한 데이터를 조회하고, 비교하거나 요약할 수 있는 환경이 마련되었습니다.

 

출처: Data Commons (Data sources)

 

 

사용 예시

Data Commons MCP를 사용하기 위해서는 먼저 API 키를 발급받고, MCP 서버를 등록한 뒤 LLM과의 연결을 설정해야 합니다.
아래에서는 그 과정을 단계별로 살펴보겠습니다. 예시로는 구글에서 제공하는 Gemini CLI를 활용하여 MCP 서버를 직접 연동하는 방법을 설명하였습니다.

 

1) Gemini CLI 설치 (MCP 구성 요소 중 LLM)

Gemini CLI는 구글에서 무료로 공개한 오픈소스 AI 에이전트 도구로, 명령줄(Command Line) 환경에서 사용할 수 있습니다. 해당 CLI는 Gemini 2.5 Pro 모델을 기반으로 작동하며, AI가 사용자의 명령을 이해하고 MCP 서버와 연동하여 데이터를 질의·분석할 수 있도록 돕습니다. 설치는 매우 간단하며, Node.js 환경에서 아래 명령어를 실행하면 바로 설치할 수 있습니다.

# Windows PowerShell
npx https://github.com/google-gemini/gemini-cli  # Gemini CLI 설치

 

Gemini CLI에 대해 더 자세히 알고 싶은 분들은 아래 블로그를 참고해주시기 바랍니다.
👉 [Marcus' Story] - 구글 AI 에이전트, Gemini CLI를 소개합니다.

 

 

2) API 키 발급 (MCP 서버 연동을 위한 인증 단계)

Data Commons MCP를 사용하기 위해서는 먼저 공식 API 키를 발급받아야 합니다. 이 키는 MCP 서버와 Gemini CLI (또는 다른 LLM 환경) 간의 통신을 인증하는 역할을 합니다.

 

  • Data Commons API 홈페이지 에 접속하여 회원가입 및 로그인을 진행합니다.
  • 로그인 후 상단 메뉴에서 My Apps 탭으로 이동합니다.
  • NEW APP 버튼을 클릭하여 새 애플리케이션을 생성합니다.
  • App Name 을 입력하고, Data Commons API 활성화 옵션을 선택한 뒤 저장합니다.

 

API 키 발급 과정

 

 

3) MCP 클라이언트 설정 (MCP 서버 등록)

API 키를 발급받았다면, 이제 Gemini CLI가 Data Commons MCP 서버를 인식하도록 설정하는 단계입니다. 이 과정은 MCP 구성 요소 중 클라이언트(MCP Client) 영역에 해당하며, LLM(Gemini)과 MCP 서버(Data Commons)를 연결하는 중간 다리 역할을 담당합니다.

 

  • 홈 디렉터리에 위치한 ~/.gemini/settings.json 파일을 엽니다.
  • 파일 내에 아래 예시와 같이 Data Commons MCP 서버 설정 블록을 추가합니다.
  • 파일을 저장한 후 터미널에서 Gemini CLI를 다시 실행합니다.

 

# ~/.gemini/settings.json
{
  ...
  "mcpServers": {
    "datacommons-mcp": {
      "command": "uvx",
      "args": [
        "datacommons-mcp@latest",
        "serve",
        "stdio"
      ],
      "env": {
        "DC_API_KEY": "<your Data Commons API key>"  # 발급받은 "API 키"로 수정
      },
      "trust": true
    }
  }
  ...
}

 

 

4) 실제 질의 실행 (MCP 연동 확인)

모든 설정이 완료되었다면, 이제 실제로 Data Commons MCP 서버가 정상적으로 연결되었는지 확인해 보겠습니다.

터미널에서 아래와 같은 프롬프트를 입력합니다.

  • 사용 프롬프트 : "미국 각 주의 소득 대비 당뇨병에 대한 간략한 보고서를 작성하세요."

실제 사용 예시 (클릭시 이미지 확대)

 

위와 같이 Data Commons MCP를 통해 문제없이 데이터를 가져올 수 있었습니다. LLM이 생성한 결과에는 각 통계의 출처가 함께 명시되어 있어, 데이터의 신빙성과 투명성이 한층 높게 평가됩니다. 특히 주목할 점은, 이 Data Commons MCP는 특정 모델에 종속되지 않는 개방형 표준이라는 점입니다. 즉, Gemini CLI뿐 아니라 ChatGPT, Claude, Mistral, 혹은 로컬 환경의 LLM 등 MCP 프로토콜을 지원하는 모든 언어모델 환경에서 동일하게 활용할 수 있는 확장성을 가지고 있습니다.

 


 

이번에 구글에서 공개한 Data Commons MCP는 인공지능이 신뢰할 수 있는 데이터에 기반하여 응답을 생성하는 새로운 전환점을 마련하였습니다. 그동안 AI의 가장 큰 한계로 지적되어 온 ‘환각(hallucination)’ 문제를 줄이고, AI가 실제 공공 데이터를 근거로 분석과 보고를 수행할 수 있도록 하는 기반이 갖추어졌습니다. 이를 통해 개발자와 연구자는 보다 투명하고 검증 가능한 LLM 시스템을 구축할 수 있게 되었으며, AI가 단순한 대화형 도구를 넘어 현실 세계의 데이터를 이해하고 활용하는 신뢰성 있는 파트너로 발전할 수 있는 가능성을 보여주었습니다.

 

앞으로 Data Commons MCP가 더 많은 데이터 소스와 도구로 확장되어, AI 생태계 전반에서 정확성과 신뢰성을 강화하는 핵심 표준으로 자리 잡기를 기대합니다. 감사합니다. 😊

 

반응형