BESPICK
우리 회사에 숨겨진 보물? 비정형 데이터 활용법
본격적인 AI 시대로 접어들면서 데이터의 중요성도 함께 커지고 있습니다. 많은 기업들이 데이터와 AI를 결합해 비즈니스 혁신을 이루고자 하죠. 데이터를 전략적으로 활용하기 위해서도 힘쓰고 있습니다. 한편 이러한 흐름 속에서 ‘우리는 쓸만한 데이터가 별로 없는 것 같은데…’ 고민인 분들도 계실 텐데요. 사실 알고 보면 대부분의 기업들이 이미 수많은 데이터를 가지고 있습니다. 바로 비정형 데이터입니다.
“생성형 AI의 등장으로 비정형 데이터의 중요성이 크게 높아졌습니다. 이는 RAG뿐 아니라 LLM 파인튜닝, 그리고 머신러닝, 비즈니스 인텔리전스, 데이터 엔지니어링과 같은 기존 분석 작업에서도 마찬가지입니다. 지금 이 순간에도 생성되는 대부분의 데이터는 비정형 데이터이며, 이는 새로운 기회의 핵심이 될 것입니다.”
– Source: IBM.com
요즘 비정형 데이터가 많은 주목을 받고 있습니다. 스노우플레이크, 데이터브릭스 등 데이터 기업들도 비정형 데이터 활용을 위한 다양한 기능들을 발표하고 있는데요. 비정형 데이터가 무엇이길래 AI 시대의 새로운 기회로 떠오르고 있는 것일까요? 오늘 베스픽에서 비정형 데이터 개념부터 실제 활용 사례까지 자세히 살펴보겠습니다.

이미지 출처: Kensho
비정형 데이터 vs 정형 데이터, 어떻게 다를까?
우리가 흔히 ‘데이터’라고 했을 때 떠올리는 것은 정형 데이터(Structured Data)입니다. 행과 열이 구분되어 있고, 테이블이나 필드와 같은 틀에 맞춰 정보가 기록되죠.
반면 비정형 데이터(Unstructured Data)는 이러한 일정한 형식이나 구조가 없는 데이터를 말하는데요. 예를 들어 이메일, 채팅 기록, 업무 매뉴얼 문서, 보고서, 고객 상담 녹취록, 제품 이미지 등이 있습니다. 정형 데이터가 컴퓨터가 이해할 수 있는 정보라면, 비정형 데이터는 사람이 자연스럽게 이해할 수 있는 정보인 셈입니다.

이미지 출처: Kensho
이와 같이 기업이 일상적으로 만들어내는 데이터의 대부분은 비정형 데이터입니다. 연구에 따르면 기업 내 비정형 데이터의 비율은 80% 이상이라고 하는데요. 그동안 비정형 데이터는 활용이 어렵다는 이유로 대부분 방치되었습니다. 형식이 다양하고 자유로워 컴퓨터가 자동으로 처리하기 어렵고, 사람이 직접 분석하기에는 그 양이 너무 방대했기 때문이죠. 하지만 이제 생성형 AI와 자연어 처리 기술이 발전하면서 비정형 데이터를 활용할 수 있는 길이 열렸고, 많은 주목을 받고 있습니다.
비정형 데이터가 주목받는 3가지 이유!
일반적으로 숫자 중심의 정형 데이터와는 달리 비정형 데이터에는 수치로는 표현되지 않는 다양한 정보가 담겨 있습니다. 따라서 보다 더 깊이 있는 분석이 가능한데요. 예를 들어 쇼핑몰에서 고객의 신상정보나 구매 이력과 같은 정형 데이터만으로는 그 고객이 어떤 고민을 가지고 있는지, 어떤 것을 필요로 하는지 알 수 없겠죠. 이 때 고객 리뷰, 고객 상담 채팅 기록 등의 비정형 데이터를 함께 분석하면 이를 제대로 파악하고 적합한 상품을 추천할 수 있는 것입니다.
또 하나의 특징은 최신성입니다. 회의록, 이메일, 채팅 기록과 같은 비정형 데이터는 업무 현장에서 매일 수시로 생성되는데요. 그래서 이를 활용하면 가장 최신 상황을 반영한 의사결정이 가능합니다. 예를 들어 재고 관리를 할 때 이메일이나 계약서, 배송 내역을 통해 실시간으로 재고 현황을 파악하고 필요한 물품을 빠르게 재주문할 수 있는 것이죠.
기업만의 고유한 정보가 담겨있다는 점도 비정형 데이터의 강점입니다. 정형 데이터는 표준화되어 있어 기업 고유 용어나 정책, 구조 등을 알기 어려운데요. 회의록, 업무 가이드 등의 비정형 데이터에는 기업만의 언어와 업무 맥락이 자연스럽게 녹아 있습니다. 따라서 이를 활용하면 기업 맞춤형 AI를 개발하거나 각 기업에 최적화된 비즈니스 프로세스를 확립할 수 있겠죠.
이처럼 비정형 데이터는 더 정확한 인사이트와 최신 정보, 그리고 기업 맞춤형 정보를 담고 있다는 점에서 많은 주목을 받고 있는데요. 이어서 비정형 데이터가 구체적으로 어떻게 활용되고 있는지 실제 사례를 알아보겠습니다.
인터넷 댓글도 마케팅 데이터로 활용한다?
프랑스의 여성 패션 브랜드 ‘Etam’은 100년 이상 운영되어 온 전통 있는 기업입니다. 하지만 최근 시대의 변화에 맞춰 데이터 중심의 비즈니스 전략을 추진하게 되었는데요. 그 첫 번째 프로젝트는 비정형 데이터를 자산화하고 활용하는 것이었습니다. 이메일이나 스프레드시트에만 존재하는 비즈니스 데이터를 수집해 비즈니스 목표 설정이나 마케팅 지출 모니터링에 적용하는 것이죠. 데이터에서 더 많은 가치를 얻기 위한 선택이었습니다.
최근에는 비정형 데이터를 기반으로 한 고객 편의 기능을 선보이기도 했는데요. 자사 웹사이트 내 고객 리뷰를 자동 요약해 보여주는 기능입니다. 고객이 직접 수많은 리뷰를 읽지 않아도 제품의 장단점 등 핵심만 볼 수 있죠. 이렇게 비정형 데이터와 생성형 AI를 결합한 신기능을 통해 Etam은 클릭률, 페이지 체류시간 등 여러 지표에서 긍정적인 변화를 볼 수 있었다고 설명합니다.
국내의 한 대형 식품 기업 역시 데이터 기반 혁신을 추진하며 비정형 데이터를 적극 활용 중입니다. 전사 데이터를 하나로 모으는 데이터 플랫폼을 구축하고, 여기서 다양한 비정형 데이터를 수집하고 있는데요. 고객 리뷰는 물론 상품과 관련된 인터넷상의 댓글까지도 놓치지 않고 데이터로 활용할 수 있게 되었다고 하죠. 그리고 이를 판매 데이터와 조합해 마케팅 캠페인에 빠르게 반영하는 등 데이터 기반의 비즈니스 의사결정 프로세스를 확립하고 있다고 하네요.
비정형 데이터로 더 빠르게, 더 효율적으로!
‘Target’은 미국 내 약 2,000개 매장을 운영하는 대형 마트 브랜드입니다. 이곳에서 일하는 직원들은 수십만 명에 달하는데요. Target은 지난 해에 직원들을 위한 AI 챗봇을 도입했습니다. ‘멤버십 카드에 고객을 등록시키려면 어떻게 해야 하나요?’, ‘정전이 되면 계산대 포스기를 어떻게 다시 시작하나요?’ 등의 질문을 하면 챗봇이 바로 관련 답변과 자료를 보내주는 것이죠. 그리고 이 챗봇의 학습에 활용된 것이 바로 비정형 데이터였습니다.

이미지 출처: Target
Target은 사용자 가이드, FAQ, 운영 매뉴얼 등 내부 문서를 학습 데이터로 제공했습니다. 여기에 RAG 기술을 적용해 질문과 관련된 정보를 검색하고 답변하도록 설계했죠. 만약 챗봇 훈련을 위한 데이터를 처음부터 만들어야 했다면 오랜 시간이 걸렸을 텐데요. 비정형 데이터를 활용한 덕분에 단 6개월 만에 초기 테스트부터 최종 출시까지 완료할 수 있었습니다. 결과적으로 신입 직원들도 현장에 빠르게 투입되는 등 효율성과 생산성이 높아지고, 고객들의 쇼핑 경험에도 긍정적인 영향을 미쳤다고 하네요.
한 글로벌 소비재 기업은 신제품 개발 과정에서도 비정형 데이터를 적극 활용하고 있는데요. 이전에는 판매 데이터나 인구 통계와 같은 정형 데이터를 중심으로 신제품 아이디어를 도출했기 때문에 꽤 많은 시간이 걸렸다고 하죠. 하지만 이제는 제품 피드백과 같은 비정형 데이터를 함께 분석하면서 신제품 아이디어와 콘셉트를 발굴하는 시간을 몇 시간 이내로 단축했다고 합니다.
우리 회사도 비정형 데이터를 활용하고 싶다면?
위 사례들을 통해 알 수 있는 것처럼 비정형 데이터는 고객 경험부터 비즈니스 지표, 운영 효율성, 매출 등 다양한 비즈니스 가치와 직결되는 핵심 자산으로 떠오르고 있는데요. 따라서 이제는 비정형 데이터를 얼마나 잘 관리하고 활용하느냐가 기업의 데이터 경쟁력을 판가름할 것으로 보입니다.
비정형 데이터와 생성형 AI는 매우 밀접하게 연결되어 있습니다. 그동안 방치되었던 비정형 데이터의 활용성을 높인 것이 생성형 AI이며, 생성형 AI가 더 정확하고 최신의 정보를 제공하기 위해 필요한 것이 비정형 데이터이죠. 그렇기 때문에 비정형 데이터를 제대로 관리하고 활용하기 위해서는 생성형 AI 도입은 점점 중요해지고 있습니다.
하지만 업무 현장에서 직원들이 비정형 데이터를 쉽게 활용하지 못한다면 의미가 없겠죠. 이러한 흐름 속에서 비정형 데이터를 손쉽게 활용할 수 있는 AI 기반 솔루션들도 등장하고 있습니다. 데이터를 잘 모르는 사람도 간단한 질문만으로 비정형 데이터 속에서 원하는 답변과 인사이트를 얻을 수 있는 것이죠. 즉, 누구나 데이터를 쉽게 활용할 수 있는 워크플로우의 중요성도 함께 커지고 있습니다.
지금까지 비정형 데이터에 대해 살펴보았는데요. 비정형 데이터의 가장 큰 강점은 이미 우리가 가지고 있는 데이터라는 점입니다. 새로운 데이터를 수집하거나 프로세스를 구축하지 않아도 활용이 가능하죠. 혹시 구독자 여러분들께서도 AI와 데이터가 고민이라면 비정형 데이터에서 시작해 보시길 바랍니다. 의외로 많은 기회와 정보들이 담겨있을지도 모른답니다. 또한 베스핀글로벌에는 많은 경험과 역량을 지닌 데이터 전문가들이 있으니까요. 궁금한 점이 있다면 언제든 문의해 주세요.
FAQ
Q1) 비정형 데이터는 구체적으로 어떤 데이터를 말하나요?
비정형 데이터는 정리되지 않은 모든 데이터를 의미합니다. 이메일, 회의록, 채팅 기록, 이미지, 동영상, 고객 리뷰, 음성 파일, 문서 등 일정한 형식 없이 저장된 정보를 포함하죠. 즉, 우리가 일상에서 생성하는 대부분의 데이터가 비정형 데이터입니다.
Q2) 비정형 데이터는 왜 지금 주목 받고 있나요?
생성형 AI와 자연어 처리(NLP) 기술이 급격히 발전하면서 기존에는 활용이 어려웠던 비정형 데이터 분석이 가능해졌기 때문입니다. 이 데이터를 잘 활용하면 고객 니즈 파악, 의사결정 고도화, 맞춤형 서비스 제공 등 다양한 경쟁력을 확보할 수 있습니다.
Q3) 우리 회사에 비정형 데이터가 많다고 하는데, 어떻게 파악할 수 있나요?
업무에 사용되는 문서, 이메일, 회의록, 상담 기록, 이미지 등 대부분이 비정형 데이터일 가능성이 높습니다. 먼저 내부 데이터 흐름을 점검하고, 다양한 포맷으로 흩어져 있는 데이터가 어떤 목적에 활용될 수 있을지 구체적으로 정의해보는 것이 시작입니다.
Q4) 비정형 데이터를 활용하려면 꼭 AI가 필요한가요?
그렇지는 않지만, 비정형 데이터는 양이 방대하고 형태가 다양해 사람이 직접 처리하기 어렵기 때문에 AI, 특히 생성형 AI 기반 기술(RAG, LLM 등)을 활용하면 훨씬 효과적이고 효율적으로 분석할 수 있습니다.
Q5) 베스핀글로벌은 비정형 데이터를 어떻게 도와줄 수 있나요?
베스핀글로벌은 데이터 수집부터 저장, 분석, 시각화, 그리고 AI 기반 자동화까지 통합된 데이터 솔루션을 제공합니다. 생성형 AI와 결합된 비정형 데이터 분석 워크플로우 구축 경험도 보유하고 있으며, 데이터 전문 컨설턴트를 통해 기업 맞춤형 지원이 가능합니다. 필요하시면 언제든 문의 주세요!