구글 PS1팀 이진오
1. 개요
클라우드 네이티브 분석의 범위를 더 넓은 사용자 기반으로 확장하기 위해 BigQueryML을 파트너인 CARTO 의 혁신적인 시각적 분석 도구와 함께 사용하는 방법을 살펴보겠습니다.
2. CARTO Workflows
CARTO Workflows를 사용하면 구성 요소와 데이터 소스를 드래그 앤 드롭하여 분석을 시각적으로 디자인할 수 있습니다. 그러면 워크플로가 자동으로 SQL로 컴파일되고 BigQuery로 푸시다운됩니다. 사용자는 BigQuery SQL 및 해당 확장 프로그램의 모든 기능을 사용하여 정교한 분석 워크플로를 설계, 실행, 자동화, 공유할 수 있습니다.
전체 분석 파이프라인을 생성 및 시각화하고, 개별 단계를 실행하고, 필요한 경우 디버그할 수 있습니다. Workflows에서 생성된 모든 것은 기본적으로 BigQuery에서 계산됩니다. 도구의 단순성 덕분에 팀 전체에서 분석을 더 폭넓게 채택하고 온보딩을 더 빠르게 할 수 있으므로 더 많은 비전문 사용자 집단을 위한 고급 ML 기능을 사용할 수 있습니다.
3. CARTO 워크플로로 BigQuery ML 잠금 해제
BigQueryML 에서 사용할 수 있는 ARIMA 제품군을 기반으로 하는 모델을 사용하여 소비자 브랜드 카테고리의 일일 매장 판매를 예측하는 워크플로를 구축합니다.

3-1. 1단계 – 데이터 입력
BigQuery에 대한 기본 연결을 통해 CARTO Data Explorer를 통해 이 데이터 세트에 액세스하고 데이터 세트를 Workflows 캔버스로 드래그하기만 하면 됩니다.

[그림 2]
만약 [그림 2]와 같이 클러스터의 평균 CPU 사용률이 권장 한도인 70% 보다 낮고, hottest node의 CPU 사용률은 거의 100%와 같이 실행될 경우에는, hot tablet을 확인해 볼 필요가 있습니다. 이와 같이 평균 node와 hottest node 사이의 CPU 사용률의 큰 차이는 hot spot의 강력한 표시라고 볼 수 있습니다.
3-2. 2단계 – 데이터 준비
일일 주류 판매의 모든 트랜잭션이 있으므로 매장별, 일별 트랜잭션을 그룹화해야 합니다. 결과는 각 판매 지점에 대한 단일 일일 판매 가치를 제공합니다.
3-3. 3단계 – 모델 학습 필터
우리 모델의 마감일은 2020-06-01입니다. 이전 일일 데이터는 모델을 교육하는 데 사용됩니다. 이렇게 하려면 Simple_Filter. 또한 1년 간의 과거 데이터로 예측할 예정이므로 Simple_Filte r 2019-06-01 날짜를 추가로 적용합니다.
그런 다음 데이터 세트에서 원하는 열을 선택하고 정렬하여 최신 데이터만 표시합니다.

3-4. 4단계 – ARIMA 모델 훈련
단일 쿼리에서 1802개의 매장에 대한 변수를 사용하여 ARIMA 모델로 데이터를 10분 이내에 교육했습니다. CREATE_MODELBigQuery의 명령문을 사용합니다 . 미국 공휴일이 선택되었습니다. 빈도는 매일이며 다양한 계절성을 고려합니다. 계수 추정 및 매개변수 선택 작업은 BigQueryML에 맡깁니다. 워크플로에 정의된 BigQuery 옵션은 다음과 같습니다.


3-5. 5단계 – 예측
우리는 또한 ML.FORECAST일일 판매 예측을 하는 데 사용합니다. 예측 값에 대한 입력을 선택하고 신뢰 구간도 설정할 수 있습니다. 이 프로세스는 새로 훈련된 모델을 사용하여 설정된 지평에 따라 미래를 예측합니다. 라는 열도 추가합니다 index(CONCAT DATE WITH STORE NUMBER). 이 열은 예측 데이터를 실제 값과 결합하여 결과를 비교하는 데 사용됩니다.

3-6. 6단계 – 예측 저장
이 마지막 단계에서는 예측 결과를 BigQuery 테이블에 저장합니다. 이러한 결과를 추가로 분석하거나 CARTO Builder를 사용하여 출력을 시각화할 수 있습니다.
