구글 클라우드는 데이터 분석 플랫폼이 단일 CSP에 종속되지 않고 여러 클라우드 환경에서 활용될 수 있도록 하는데 집중하고 있다. 김정훈 구글 클라우드 코리아 데이터 애널리틱스 스페셜리스트는 “‘구글’이라는 포털에서 수집되는 수많은 데이터들을 분석할 수 있는 서비스들을 클라우드 서비스로 개발해 사용자들에게 제공하고 있다”며, “이는 그만큼 데이터 분석에 특화된 CSP가 구글 클라우드라는 증거”라고 설명했다.

<구글 클라우드의 데이터 플랫폼 프로세스 (출처: 구글 클라우드)>
구글 클라우드는 데이터 플랫폼을 수집, 프로세스, 저장, 분석, 활용 등 5단계로 나눠 해당 단계에 맞는 서비스들을 조합해 제공하고 있다. 수집 단계 서비스로는 스트리밍 분석 파이프라인의 이벤트 수집 및 전송을 위한 서비스인 ‘클라우드 펍섭(Cloud Pub/Sub)’이 있다. 이 서비스는 규모에 맞는 고가용성과 일관된 성능을 기반으로 내구성 있는 메시지 스토리지 및 실시간 메시지 전송을 제공해준다. 이는 OSS의 ‘아파치 카프카’와 같은 기능을 하는 서비스다.
프로세스 단계에 적용될 서비스로 ‘데이터플로우(DataFlow)’와 ‘데이터프록(Dataproc)’, ‘데이터프렙(Dataprep)’ 등 3가지가 있다. ‘데이터플로우’는 대규모 데이터 세트에서 데이터 처리 패턴을 개발하고, 간소화된 스트림 및 배치 데이터 처리를 수행하는 서비스다. ‘데이터프록’은 데이터 일괄 처리, 쿼리, 스트리밍, 머신러닝에 오픈소스 데이터 도구를 활용할 수 있는 관리형 ‘스파크’ 및 ‘하둡’ 서비스로, 자동화를 통해 신속하게 클러스터를 만들고 손쉽게 관리하며 불필요한 클러스터는 사용 중지해 비용을 절감할 수 있다는 장점이 있다.
‘데이터프렙’은 분석 및 머신러닝에 사용할 데이터를 시각적으로 탐색, 정리, 준비하는 지능형 클라우드 데이터 서비스다. 이 서비스는 서버리스 방식으로 구동되며, 규모에 상관없이 작동하기 때문에 별도로 배포하거나 관리해야 할 인프라가 없다. UI 입력마다 가장 이상적인 데이터 변환을 제안하고 예측하기 때문에, 코드를 작성하지 않아도 된다는 장점이 있다.
구글 클라우드는 저장 단계 서비스로 ‘클라우드 스토리지(Cloud Storage)’와 ‘빅쿼리(BigQuery)’를 내세우고 있다. ‘클라우드 스토리지’는 스토리지 서비스로 데이터 양에 상관없이 데이터를 저장할 수 있다. 다음은 ‘빅쿼리’다. ‘빅쿼리’는 구글 클라우드의 대표적인 서비스로 서버리스 기반의 멀티 클라우드 데이터 웨어하우스 서비스다. 표준 SQL을 사용해 타 CSP의 클라우드에서 데이터를 수집해 분석할 수 있다. 이로써 유연한 분석 환경을 구성해 데이터 분석가 또는 데이터 과학자에게게 원활한 데이터 분석 환경을 제공한다. 또 ‘빅쿼리 ML’ 기능을 활용하면 구조화 또는 반구조화된 데이터를 기반으로 하는 머신러닝 모델을 빠르게 빌드 및 운용할 수 있다.
마지막으로 활용 단계에서는 ‘버텍스 AI(Vertex AI)’와 ‘루커(Looker)’를 제안하고 있다. ‘버텍스 AI’는 머신러닝 모델을 개발할 수 있는 AI/ML 통합 플랫폼이다. ‘오토ML’ 및 커스텀 코드 학습으로 모델을 쉽게 학습하고 비교할 수 있으며, 중앙 모델 저장소에 별도로 저장된다. ‘루커’는 데이터가 어느 곳에 저장되더라도 기업의 최신 버전 데이터에 접근할 수 있게 지원하는 서비스다.
삼성전자는 음성 인식 플랫폼 ‘빅스비(Bixby)’에 구글 클라우드의 ‘빅쿼리’, ‘클라우드 스패너’, ‘데이터플로우’ 등 서비스를 적용해 수집되는 데이터를 분석하고 있다. 여기에 구글 클라우드의 ‘클라우드 TPU(Tensor Processing Unit)’을 결합해 빅스비 AI 모델의 음성인식 학습을 고도화했다. 그 결과 AI 모델 학습 속도가 18배 향상됐다. 이 외에 홈플러스도 구글 클라우드의 ‘클라우드 스토리지’와 ‘빅쿼리’를 도입해 고객 인사이트를 발굴해 비즈니스 운영 효율을 개선했다.
[인터뷰] “GCP의 데이터 플랫폼으로 확장성, 유연성, 경제성 향상”
<김정훈 구글 클라우드 코리아 데이터 애널리틱스 스페셜리스트>
Q. 구글 클라우드의 데이터 플랫폼의 특장점은.
- 우리 데이터 분석 플랫폼의 강점은 확장이 쉽고, 유연하며 구조화된 데이터 저장과 처리, 분석 작업을 경제적으로 수행할 수 있다는 점이다. 기업들의 데이터는 기하급수적으로 늘어나고 있다. 이러한 상황에서 스토리지와 처리 리소스를 필요한 만큼 사용해야 하고, 데이터에서 인사이트를 만들어내야 한다. 유연성이 반드시 담보돼야 하는 상황이라는 얘기다. 구글 클라우드에서는 스토리지와 데이터 처리 소스를 무제한에 가깝게, 저렴하게 제공하고 있다. 이에 따라 비용이 늘어날 것으로 예상할 수 있지만, 절대 그렇지 않다. 오히려 유연한 환경에서 빅데이터 분석과 머신러닝 모델을 개발, 학습한다면 불필요하게 들어가는 비용을 줄일 수 있다.
Q. 데이터 플랫폼에 대한 고객들의 반응은.
- 우리 고객들은 클라우드 기반 데이터 플랫폼에 만족하고 있다. 수만 개의 기업이 DB부터 비즈니스 의사결정을 위한 분석, 미래를 예측하고 자동화하는 AI 및 머신러닝에 이르기까지 데이터의 모든 역량을 활용하는 데이터 클라우드를 구축할 수 있도록 모든 단계를 철저하게 지원한다. 특히, 업체에 종속되지 않도록 오픈소스 도구, 트랜잭션, 프로세싱 및 분석용 엔진도 선택해 사용할 수 있도록 돕고 있다. 고객의 만족도를 알 수 있는 척도가 기업 고객의 수인데, 삼성전자, 홈플러스, 기아자동차 등 국내 수많은 기업들이 현재 구글 클라우드와 협업하고 있다.
Q. 클라우드 기반 데이터 플랫폼이 주는 가치는 무엇인지.
- 클라우드 기반 데이터 플랫폼의 가치는 데이터를 활용할 수 있는 수많은 서비스를 적용할 수 있다는 점이다. 이를 통해 새로운 인사이트를 보다 다양한 시각에서 얻을 수 있다. 오늘날 기업들은 분석이 끝난 데이터를 쉽게 활용할 수 있도록 다양한 오픈소스를 활용하고 있다. 하지만 이 오픈소스들은 지속적으로 업데이트를 해야 하고, 검증해야 하는 등 번거로운 작업을 수행해야만 한다. 이를 클라우드 서비스로 손쉽게 빠르게, 다양한 오픈소스들을 적용할 수 있도록 지원할 수 있다. 이러한 점이 클라우드 데이터 플랫폼이 주는 가장 핵심적인 가치라고 생각한다.