AI Paradox (3) | 할루시네이션의 진짜 원인은 데이터 파이프라인에 있다

파일럿은 분명히 잘 됐습니다. 데모도 깔끔했고, 정확도 역시 90%를 넘겼으니까요. 하지만 실제 서비스라는 복잡하고 날 것 그대로의 환경에 던져지는 순간, 공들인 결과물들이 무너지기 시작했습니다. 챗봇은 마치 사실인 양 당당하게 가짜 정보를 지어내고, 문서 요약은 원문에 없는 내용을 제멋대로 섞으며 핵심을 비껴갑니다. 의사결정 지원 도구마저 근거 없는 수치를 뱉어내며 판단을 흐리게 만들죠. 이처럼 인공지능이 정보의 공백을 ‘그럴듯한 거짓’으로 채워버리는 현상, 우리는 이를 할루시네이션이라고 부릅니다.

이 시점에서 많은 팀이 같은 방향을 먼저 바라봐요. 프롬프트를 다시 짜거나, 더 비싼 모델을 검토하거나, 에이전트 워크플로우를 손보는 방식으로 문제를 해결하고자 합니다. 그런데 실제 현장에서 수많은 프로젝트를 들여다보면, 문제는 대부분 거기에 있지 않았어요. 할루시네이션의 원인은 모델이 아니라, 모델에게 흘러 들어오는 데이터 파이프라인에 있는 경우가 훨씬 많습니다.

파일럿에서 90%였던 정확도가, 실 서비스에서 무너지는 이유

PoC는 구조적으로 성공하기 좋은 환경에서 진행됩니다. 담당자가 직접 데이터를 선별하고 정제하며, 가장 임팩트 있는 단일 시나리오만 골라 검증하고, 메타데이터도 수동으로 깔끔하게 정리해요. 이 조건에서 나온 AI 응답 정확도 90%는 모델이 뛰어난 결과를 낸 것이라기보다, 환경 자체가 완벽하게 통제된 결과에 가깝습니다.

반면 프로덕션 환경은 전혀 다른 현실이에요. 실제 운영 환경에는 10년, 20년치 데이터가 뒤섞여 들어오고, 새로운 데이터가 실시간으로 계속 유입됩니다. PoC 때 가정했던 단일 시나리오는 사라지고, 예측하지 못한 변수들이 복잡하게 얽힌 상황이 펼쳐지죠. 데이터 파이프라인이 이 복잡성을 감당할 수 있는 구조로 설계되지 않았다면, 아무리 정교한 모델을 올려도 할루시네이션은 피하기 어렵습니다.

파일럿 성공 이후 프로덕션으로 넘어가는 순간 맞닥뜨리는 운영 현실의 복잡성.
기술을 아는 것과 구현하고 지속하는 것은 전혀 다른 문제다. (사진=베스핀글로벌)

AI 데이터 준비에 대한 5가지 오해

오해 1. PoC를 통과했으니 프로덕션도 된다?

AI 도입 현장에서 가장 자주 마주치는 오해 중 하나는 PoC에서 검증된 결과가 프로덕션에서도 그대로 재현될 것이라는 믿음입니다. 하지만 PoC에서 얻어야 할 것은 정확도 숫자가 아니에요. 어떤 데이터 구조가 잘 작동했는지, 어떤 시나리오에서 한계가 드러났는지를 파악하는 것이 PoC의 진짜 목적입니다.

프로덕션 환경에서는 대규모 데이터가 유입되고 다양한 시나리오가 뒤섞입니다. 그 조건에서도 같은 결과가 나올 것이라고 기대하는 순간 할루시네이션은 예고 없이 찾아와요. PoC의 성공은 프로덕션의 시작점일 뿐이며, 그 사이의 간극을 메우는 것이 데이터 파이프라인 설계의 핵심입니다.

오해 2. 비정형 데이터만 정비하면 된다?

생성형 AI가 주목받기 시작하면서 많은 기업이 비정형 데이터 정비에 집중했습니다. 수백 페이지짜리 약관, 표 안의 표로 뒤엉킨 보고서, 스캔 이미지로 남아있는 오래된 문서들을 어떻게 AI에 연결할지가 주된 관심사였어요. 비정형 데이터 정비가 중요한 것은 맞습니다. 문제는 그것만으로는 충분하지 않다는 점이에요.

부족한 부분을 채워주는 것이 바로 정형 데이터입니다. 실제 프로젝트에서 AI가 의사결정을 지원하려면 수치 데이터가 반드시 필요해요. 특정 수치가 기준치를 넘었는지, 어떤 규칙에 따라 판단해야 하는지는 정형 데이터 없이는 답할 수 없습니다. ERP, CRM, SCM 같은 핵심 시스템도 정형 데이터를 중심으로 움직이고, 성과 측정 지표 역시 마찬가지예요. 비정형 데이터가 중요하지 않다는 것이 아닙니다. 비정형만으로는 AI가 신뢰할 수 있는 답을 내놓기 어렵다는 것이에요.

오해 3. 벡터 DB를 구축하면 준비가 끝난다?

벡터 DB 도입을 검토하거나 이미 구축한 팀이라면 한 번쯤 이런 생각을 했을 겁니다. 데이터를 벡터화해서 넣어두면 AI가 알아서 찾아 쓸 수 있다고 말이에요. 벡터 DB는 분명히 중요한 기술입니다. 하지만 벡터 DB 구축은 준비의 끝이 아니라 시작이에요.

벡터 DB를 구축하더라도 할루시네이션이 사라지지 않는 이유는 그 안에 들어가는 데이터의 품질 때문입니다. 문서를 자르는 방식이 잘못되면 맥락이 단절된 조각들이 벡터화돼요. 메타데이터 없이 한 통에 넣으면 필요한 데이터를 정확히 찾아내기 어렵습니다. 버전 관리 없이 업데이트가 쌓이면 AI는 오래된 정보를 기반으로 답을 내놓아요. 벡터 DB는 이 문제들을 해결해주는 도구가 아니라, 이 문제들이 해결된 이후에 비로소 제 역할을 하는 도구입니다.

오해 4. 좋은 플랫폼 하나면 다 해결된다?

인제스천부터 청킹, 임베딩, 벡터화까지 데이터 파이프라인 전 과정을 한 번에 처리해주는 플랫폼들이 등장하면서, 플랫폼 하나만 도입하면 데이터 준비가 끝난다는 기대가 생겼어요. 데이터브릭스나 주요 클라우드 벤더들이 제공하는 통합 데이터 플랫폼이 대표적입니다. 하지만 플랫폼이 데이터를 처리하는 방식이 아무리 정교해도, 그 안에 들어가는 데이터 자체가 정리되지 않았다면 결과는 달라지지 않아요.

같은 데이터라고 하더라도 HR에서, 영업팀에서, 재무팀에서 해석하는 방식은 각기 다릅니다. 하나의 플랫폼에 전부 밀어 넣으면 도메인별 맥락이 사라지고, 데이터 책임 소재도 불명확해져요. 플랫폼 도입 전에 어떤 데이터가 어디에 있고, 누가 관리하며, 어떤 용도로 쓰이는지를 먼저 정의하는 작업이 반드시 선행되어야 합니다.

오해 5. AI 출력 결과만 보면 된다?

AI가 틀린 답을 내놓았을 때, 많은 팀이 가장 먼저 확인하는 것은 출력 결과입니다. 어떤 답이 나왔는지, 어디서 틀렸는지를 결과 화면에서 역추적하려고 하죠. 하지만 데이터가 인제스천되는 순간부터 AI 응답이 나오기까지의 과정이 블랙박스로 남아 있다면, 결과를 아무리 들여다봐도 원인을 찾기 어려워요.

품질 문제가 파이프라인 어느 단계에서 발생했는지, 어떤 데이터가 어떻게 변형되어 모델에 전달됐는지를 단계별로 추적할 수 있는 구조가 없으면 사후 대응은 언제나 느릴 수밖에 없습니다. 결과를 보는 것은 필요하지만, 그것만으로는 부족해요. 데이터가 들어오고 나가는 전 과정을 가시화하고 각 단계의 상태를 실시간으로 파악할 수 있어야 할루시네이션의 원인을 정확히 짚고 개선할 수 있습니다.

AI 출력 결과만 확인하는 사후 점검 방식으로는 할루시네이션의 원인을 찾기 어렵다.
데이터 파이프라인 전 과정을 단계별로 추적하는 과정 중심 점검이 필요하다. (사진=베스핀글로벌)

다섯 가지 오해를 짚어봤습니다. 이 오해들에는 공통점이 하나 있어요. 모두 데이터 파이프라인의 특정 단계만 보고, 전체 흐름을 놓쳤다는 점입니다. 할루시네이션을 구조적으로 막으려면 파이프라인 전체를 세 개의 레이어로 나눠 각각을 통제 가능한 구조로 설계해야 해요.

할루시네이션을 구조적으로 막는 3개 레이어

1. 인풋: 데이터 품질을 자동으로 감시한다

데이터가 파이프라인에 들어오는 순간부터 품질 관리가 시작되어야 합니다. 문제는 수백 개, 수천 개에 달하는 테이블과 문서를 사람이 일일이 점검하는 건 현실적으로 불가능하다는 점이에요. 그래서 필요한 것이 AI 기반의 자동 품질 감시 체계입니다. 데이터의 과거 패턴과 계절성을 학습해 이상이 감지되면 즉시 알림을 보내고, 어떤 파이프라인을 거쳐 어디서 문제가 발생했는지까지 역추적할 수 있는 구조가 갖춰져야 해요.

데이터 품질 감시 체계를 갖췄다면, 다음으로 고민해야 할 것은 어떤 데이터부터 먼저 감시할 것인가입니다. 전체 데이터를 동일한 비중으로 모니터링하려다 보면 정작 AI가 실제로 참조하는 핵심 데이터의 이상을 놓치는 역설이 생겨요. AI가 답변을 생성할 때 실제로 끌어다 쓰는 테이블과 문서를 먼저 식별하고, 그 데이터가 최신 상태를 유지하고 있는지를 집중적으로 점검하는 것이 인풋 레이어 설계의 출발점입니다. 감시 범위를 넓히는 것보다, 핵심 데이터를 정확히 짚어내는 것이 먼저예요.

2. 거버넌스: 데이터의 출처와 흐름을 추적한다

데이터 품질을 감시하는 것만으로는 부족합니다. 그 데이터가 어디서 왔고, 어떤 경로로 흘러갔으며, 누가 어디에 접근할 수 있는지를 한눈에 추적할 수 있어야 해요. 이것이 거버넌스 레이어의 역할입니다. 데이터 테이블과 모델, 파이프라인 노트북, 벡터 데이터까지 AI가 사용하는 모든 자산을 하나의 카탈로그 안에서 통합 관리할 수 있어야 합니다. 파편화된 시스템에 데이터가 흩어져 있으면, AI가 오래된 정보를 참조하고 있어도 알아채기 어려워요.

권한 관리도 거버넌스의 핵심 축입니다. HR이 보는 데이터와 영업팀이 보는 데이터는 달라요. 도메인별로 접근 권한을 세분화하고, 누가 언제 어떤 데이터에 접근했는지 이력이 남아야 합니다. 특히 AI 시대에는 사람뿐 아니라 에이전트도 데이터에 접근하기 때문에, 에이전트의 접근 범위와 이력까지 동일한 거버넌스 체계 안에서 관리되어야 해요. 데이터가 어디서 와서 어디로 흘러갔는지 전체 리니지를 한 번에 확인할 수 있을 때, 비로소 할루시네이션의 원인을 정확히 짚을 수 있습니다.

3. 아웃풋: AI 답변을 AI가 평가한다

데이터가 잘 들어오고, 흐름이 추적되더라도 마지막 관문이 남아 있습니다. AI가 내놓은 답변이 실제로 신뢰할 수 있는지를 검증하는 단계예요. 사람이 모든 답변을 일일이 확인하는 건 불가능합니다. 그래서 등장한 개념이 AI 판사, 즉 AI가 AI의 답변을 평가하는 구조예요. 질문과 참조 데이터, 그리고 AI의 응답을 함께 놓고 답변이 근거에 기반하고 있는지, 정확도와 신뢰도가 기준치를 넘는지를 자동으로 판단합니다. 기준을 충족하지 못한 답변은 배포되지 않도록 막는 것이죠.

이 체계가 운영 단계에서도 계속 작동해야 합니다. 서비스를 오픈한 이후에도 사용자의 질문과 AI의 답변 데이터가 지속적으로 쌓이고, AI 답변 정확도가 일정 수준 아래로 떨어지면 즉시 알림이 발생해야 해요. AI 답변 정확도가 기준치를 밑돌기 시작했다면, 어떤 데이터 소스에서 문제가 생겼는지, 어떤 파이프라인을 거쳐 어디서 품질이 무너졌는지를 역추적할 수 있어야 합니다. 할루시네이션은 한 번 잡는다고 끝나지 않아요. 데이터가 바뀌고 서비스가 업데이트될 때마다 반복적으로 감시하는 구조가 필요합니다.

베스핀글로벌 AI 파트너스데이 컨퍼런스 현장에서 관계자가 AI 도입과 관련한 내용을 설명하고 있다. (사진=베스핀글로벌)

검색 품질이 할루시네이션을 결정한다

3개 레이어가 데이터 파이프라인을 감시하고 통제하는 구조라면, 검색은 그 파이프라인 위에서 AI가 실제로 데이터를 끌어다 쓰는 접점입니다. 아무리 인풋 품질을 높이고 거버넌스를 갖춰도, 검색이 엉뚱한 데이터를 끌어오면 할루시네이션은 그 지점에서 다시 발생해요. 3개 레이어가 데이터를 잘 준비해두는 과정이라면, 검색은 그 데이터를 얼마나 정확하게 꺼내 쓰느냐의 문제입니다. 결국 두 가지가 함께 갖춰져야 할루시네이션을 구조적으로 막을 수 있어요.

RAG에서 결국 중요한 건 검색이다

RAG는 질문이 들어오면 관련 데이터를 검색해 LLM에 전달하고, LLM이 그 데이터를 바탕으로 답변을 생성하는 구조입니다. 얼핏 단순해 보이지만, 할루시네이션이 발생하는 지점은 대부분 검색 단계예요. LLM이 잘못된 답을 내놓는 게 아니라, 검색이 잘못된 데이터를 가져온 것이죠. 검색 결과의 품질이 곧 AI 답변의 품질을 결정합니다. RAG를 도입했는데도 정확도가 기대에 못 미친다면, 모델을 바꾸기 전에 검색 구조를 먼저 점검해야 해요.

청킹부터 리랭킹까지, 정확도를 높이는 4가지 기법

검색 품질을 높이기 위해 현장에서 확인된 방법은 크게 네 가지입니다.

첫째는 청킹 방식이에요. 문서를 단순히 일정 길이로 자르면 맥락이 단절된 조각이 만들어져 검색 품질이 떨어집니다. 문서 전체의 맥락을 반영해 의미 단위로 자르는 컨텍스트 기반 청킹이 필요해요.

둘째는 멀티모달 임베딩입니다. 텍스트뿐 아니라 표, 그래프, 이미지까지 하나의 임베딩 엔진에서 처리할 수 있어야 문서 안의 정보를 온전히 검색에 활용할 수 있어요. 예를 들어 보험 약관 문서 안에 보장 범위를 정리한 표가 있을 때, 텍스트만 임베딩하면 그 표의 내용은 검색에서 누락됩니다. 멀티모달 임베딩이 적용되면 표와 텍스트를 함께 벡터화하기 때문에, 문서 안에 담긴 정보를 빠짐없이 검색 결과에 반영할 수 있어요.

셋째는 하이브리드 검색입니다. 키워드 검색과 벡터 검색을 함께 사용하고, 업무 유형에 따라 가중치를 조정하는 방식이에요. 법률이나 규정처럼 정확한 키워드가 중요한 경우엔 키워드 검색에, FAQ처럼 의미 기반 탐색이 필요한 경우엔 벡터 검색에 비중을 둡니다.

넷째는 리랭킹이에요. 검색된 결과를 질문과 얼마나 정확히 매칭되는지 기준으로 재정렬한 뒤 LLM에 전달하면, 토큰 낭비를 줄이고 답변 정확도를 높일 수 있습니다.

데이터 파이프라인을 바꾸자, 정확도가 달라졌다

모델을 바꾸거나 프롬프트를 다듬는 것만으로 할루시네이션이 해결되지 않는다면, 결국 돌아올 곳은 데이터 파이프라인입니다. 인풋 단계에서 품질을 감시하고, 거버넌스로 흐름을 추적하고, 아웃풋 단계에서 AI 답변을 검증하는 구조가 갖춰졌을 때 비로소 할루시네이션을 사전에 막는 체계가 완성돼요. 여기에 검색 품질까지 더해지면, AI가 내놓는 답변의 신뢰도는 달라지기 시작합니다. 이 구조는 이론이 아닙니다. 베스핀글로벌이 데이터브릭스, 몽고DB, 엘라스틱서치 등 파트너사들과 함께 고객사 현장에서 직접 설계하고 검증해온 방식이에요. AI 도입의 첫 단계가 어디서부터 시작되어야 하는지 궁금하다면, Journey to AI에서 베스핀글로벌의 접근 방식을 먼저 확인해보세요.

데이터 파이프라인 구축부터 AI 도입까지,
베스핀글로벌 AI 파트너스데이 컨퍼런스 현장에서 참석자들이 다양한 솔루션 자료를 살펴보고 있다. (사진=베스핀글로벌)

데이터 파이프라인 점검부터 구축까지 함께 고민하고 싶다면, 베스핀글로벌과 직접 이야기 나눠보세요.

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

AI Paradox (3) | 할루시네이션의 진짜 원인은 데이터 파이프라인에 있다

TREND

파일럿에서 90%였던 정확도가, 실 서비스에서 무너지는 이유

AI 데이터 준비에 대한 5가지 오해

오해 1. PoC를 통과했으니 프로덕션도 된다?

오해 2. 비정형 데이터만 정비하면 된다?

오해 3. 벡터 DB를 구축하면 준비가 끝난다?

오해 4. 좋은 플랫폼 하나면 다 해결된다?

오해 5. AI 출력 결과만 보면 된다?

할루시네이션을 구조적으로 막는 3개 레이어

1. 인풋: 데이터 품질을 자동으로 감시한다

2. 거버넌스: 데이터의 출처와 흐름을 추적한다

3. 아웃풋: AI 답변을 AI가 평가한다

검색 품질이 할루시네이션을 결정한다

RAG에서 결국 중요한 건 검색이다

청킹부터 리랭킹까지, 정확도를 높이는 4가지 기법

데이터 파이프라인을 바꾸자, 정확도가 달라졌다

관련 상품

더 읽어볼 만한 컨텐츠

금융 AI 도입, POC에서 멈추지 않으려면 무엇이 달라야 하는가 | 베스핀글로벌 AI Expert 2팀 안원빈 팀장

AI Paradox (2) | 보안 공격도 AI가 하는 시대, 기업 자산을 지키는 4가지 전략