구글 클라우드 인사이트 BigQuery에서 CARTO를 이용한 ML 워크플로 구축 구글 인사이트 by Miyeon. Jo 2023년 06월 30일 2023년 06월 30일 459 구글 PS1팀 이진오목차개요CARTO Workflows 소개CARTO 워크플로로 BigQuery ML 잠금 해제1. 개요클라우드 네이티브 분석의 범위를 더 넓은 사용자 기반으로 확장하기 위해 BigQueryML을 파트너인 CARTO 의 혁신적인 시각적 분석 도구와 함께 사용하는 방법을 살펴보겠습니다.2. CARTO WorkflowsCARTO Workflows를 사용하면 구성 요소와 데이터 소스를 드래그 앤 드롭하여 분석을 시각적으로 디자인할 수 있습니다. 그러면 워크플로가 자동으로 SQL로 컴파일되고 BigQuery로 푸시다운됩니다. 사용자는 BigQuery SQL 및 해당 확장 프로그램의 모든 기능을 사용하여 정교한 분석 워크플로를 설계, 실행, 자동화, 공유할 수 있습니다.전체 분석 파이프라인을 생성 및 시각화하고, 개별 단계를 실행하고, 필요한 경우 디버그할 수 있습니다. Workflows에서 생성된 모든 것은 기본적으로 BigQuery에서 계산됩니다. 도구의 단순성 덕분에 팀 전체에서 분석을 더 폭넓게 채택하고 온보딩을 더 빠르게 할 수 있으므로 더 많은 비전문 사용자 집단을 위한 고급 ML 기능을 사용할 수 있습니다.3. CARTO 워크플로로 BigQuery ML 잠금 해제BigQueryML 에서 사용할 수 있는 ARIMA 제품군을 기반으로 하는 모델을 사용하여 소비자 브랜드 카테고리의 일일 매장 판매를 예측하는 워크플로를 구축합니다.3-1. 1단계 – 데이터 입력BigQuery에 대한 기본 연결을 통해 CARTO Data Explorer를 통해 이 데이터 세트에 액세스하고 데이터 세트를 Workflows 캔버스로 드래그하기만 하면 됩니다.[그림 2]만약 [그림 2]와 같이 클러스터의 평균 CPU 사용률이 권장 한도인 70% 보다 낮고, hottest node의 CPU 사용률은 거의 100%와 같이 실행될 경우에는, hot tablet을 확인해 볼 필요가 있습니다. 이와 같이 평균 node와 hottest node 사이의 CPU 사용률의 큰 차이는 hot spot의 강력한 표시라고 볼 수 있습니다.3-2. 2단계 – 데이터 준비일일 주류 판매의 모든 트랜잭션이 있으므로 매장별, 일별 트랜잭션을 그룹화해야 합니다. 결과는 각 판매 지점에 대한 단일 일일 판매 가치를 제공합니다.3-3. 3단계 – 모델 학습 필터우리 모델의 마감일은 2020-06-01입니다. 이전 일일 데이터는 모델을 교육하는 데 사용됩니다. 이렇게 하려면 Simple_Filter. 또한 1년 간의 과거 데이터로 예측할 예정이므로 Simple_Filte r 2019-06-01 날짜를 추가로 적용합니다.그런 다음 데이터 세트에서 원하는 열을 선택하고 정렬하여 최신 데이터만 표시합니다.3-4. 4단계 – ARIMA 모델 훈련단일 쿼리에서 1802개의 매장에 대한 변수를 사용하여 ARIMA 모델로 데이터를 10분 이내에 교육했습니다. CREATE_MODELBigQuery의 명령문을 사용합니다 . 미국 공휴일이 선택되었습니다. 빈도는 매일이며 다양한 계절성을 고려합니다. 계수 추정 및 매개변수 선택 작업은 BigQueryML에 맡깁니다. 워크플로에 정의된 BigQuery 옵션은 다음과 같습니다.3-5. 5단계 – 예측우리는 또한 ML.FORECAST일일 판매 예측을 하는 데 사용합니다. 예측 값에 대한 입력을 선택하고 신뢰 구간도 설정할 수 있습니다. 이 프로세스는 새로 훈련된 모델을 사용하여 설정된 지평에 따라 미래를 예측합니다. 라는 열도 추가합니다 index(CONCAT DATE WITH STORE NUMBER). 이 열은 예측 데이터를 실제 값과 결합하여 결과를 비교하는 데 사용됩니다.3-6. 6단계 – 예측 저장이 마지막 단계에서는 예측 결과를 BigQuery 테이블에 저장합니다. 이러한 결과를 추가로 분석하거나 CARTO Builder를 사용하여 출력을 시각화할 수 있습니다. 출처https://cloud.google.com/blog/products/data-analytics/building-ml-workflows-in-bigquery-the-easy-way-without-code?hl=en