BESPICK
AI 실무자라면 꼭 알아야 할 개념들만 골랐습니다, AI 용어 사전 1탄
안녕하세요! 베스픽 구독자 여러분. AI 기술이 빠르게 진화하면서 실무에 자주 등장하는 용어들도 점점 낯설고 복잡해지고 있는데요. 이번 베스픽에서는 최근 실무자들 사이에서 자주 언급되지만, 정확히 설명하기는 어려운 핵심 개념을 정리했습니다.
왜 지금 이 개념이 중요하고, 어떤 흐름 속에서 등장했는지 꼼꼼히 챙겼으니까요. 회의나 티타임 자리에서 “그게 뭐야?” 묻지 않고 설명할 수 있도록 즐겨찾기 후 두고두고 꺼내 보시길 권해드릴게요.

1. AI 시스템의 뼈대를 구축하는 인프라 영역
AI가 진정한 비즈니스 파트너로 자리잡기 위해서는 다양한 시스템과의 연동, 실행 환경 표준화, 보안이 뒷받침되어야 합니다. 이 영역의 기술들은 조직 내 AI 확산의 첫걸음을 가능하게 하는데요.

① MCP(Model Context Protocol): LLM이 업무에 필요한 맥락(Context)을 이해할 수 있도록, 사용자 세션 정보·정책·외부 호출 결과 등을 구조화된 헤더로 전달하는 방식
생성형 AI가 민감한 산업 영역에 도입되면서, LLM이 실제 업무에 필요한 문맥(Context)을 충분히 반영하지 못한다는 문제 제기가 시작되었는데요.
사용자 권한, 거래 내역, 내부 정책 등 핵심 정보가 모델에 전달되지 않으면 부정확한 판단이나 컴플라이언스 위반 가능성이 높아지기 때문입니다. 이를 해결하기 위해 OpenAI, Anthropic 등 주요 AI 기업들이 MCP 개념을 바탕으로 다양한 구현 방안을 실험하고 있습니다.
지난 베스픽에서 MCP를 주제로 다룬 적 있으니 더 자세한 내용이 궁금하시면 아래 링크를 참고해주세요.
▶[베스픽 다시 읽기] AI를 연결한다고? 업계가 주목하는 ‘MCP’ 알아보기
② Function Calling: 모델이 외부 API 명세(Schema)를 기반으로, 대화 중 필요한 함수를 호출하도록 설계된 기능
오픈AI(GPT-4), 앤트로픽(Claude), 메타(LLaMA Adapter 등)는 Function Calling 또는 유사 기능을 도입하며, LLM의 활용 범위를 확장하고 있는데요. Function Calling은 모델이 사전에 정의된 API 스펙을 읽고 적절한 파라미터를 구성하여 외부 함수를 호출할 수 있도록 설계된 기능입니다. 예를 들어, 기업 내부 헬프데스크에서는 계정 상태를 알려달라는 자연어 요청만으로 인증과 조회 API를 자동 실행할 수 있습니다. 또 예약 시스템에서도 대화 흐름 안에서 자연스럽게 일정 등록·수정이 가능해집니다.
이처럼 Function Calling은 복잡한 백엔드 로직 없이도 대화형 워크플로우를 빠르게 구성할 수 있게 해주며, 동시에 입력/출력 검증, 호출 권한 관리 등의 보안 요소까지 체계적으로 통제할 수 있어 AI 기반 업무 자동화의 핵심 인프라 기술로 주목받고 있습니다.
③ A2A(AI to AI Interaction): 단일 거대 모델이 아닌, 역할 분담된 AI 에이전트 간 협업 구조
하나의 거대 모델이 모든 작업을 처리하던 모놀리식(monolithic) 구조는, 복잡성이 증가할수록 성능 저하·비용 증가·유지보수 어려움 등의 한계를 드러내고 있습니다. 특히 생성형 AI의 업무 활용이 확산되면서, 보다 유연하고 확장 가능한 아키텍처에 대한 필요성이 커지고 있는데요. 이러한 배경에서 등장한 A2A(AI-to-AI Interaction)는 기능별로 나뉜 다수의 AI 에이전트가 역할을 분담하고, API 호출이나 메시지 큐를 통해 상호 협업하는 분산형 구조입니다.
예를 들어, 이커머스 고객지원 시스템에서는 문의 분류 → 데이터 조회 → 답변 생성 단계를 각 에이전트가 담당해 유지보수와 확장성을 크게 개선하고, 문서 처리 자동화 워크플로우에서는 OCR, 텍스트 정제, 요약·분류 에이전트가 순차 협업해 처리 속도와 안정성을 높이는 식입니다. 이처럼 A2A는 복잡한 업무를 작고 특화된 에이전트 단위로 쪼개어 처리함으로써, 운영 효율성과 확장성을 동시에 확보하는 새로운 AI 설계 패러다임으로 눈길을 끌고 있습니다.
④ Open-Weight vs Closed-Weight: LLM 가중치(weight) 공개 여부에 따른 운영 방식
Open-Weight은 모델 가중치가 공개되어 누구나 다운로드와 수정, 재배포가 가능한 방식이며, Closed-Weight은 가중치가 비공개로 유지되어 API를 통해서만 사용할 수 있는 통제형 모델입니다. 2023년 6월 메타가 라마의 일부 파라미터(7B·13B)를 공개하며 Open-Weight 바람을 일으켰습니다. 반면에 같은 해 말, 오픈AI는 GPT-4의 파라미터를 비공개(Closed-Weight)로 유지하며 API 기반 전략을 고수했습니다.
의료·금융·공공기관 등 엄격한 컴플라이언스가 요구되는 산업에서는 모델 내부를 노출하지 않고도 안전하게 AI 기능을 활용할 수 있는 Closed-Weight을 선호하는데요. 현재는 Open-Weight 모델로 실험과 확장을 빠르게 수행하고, Closed-Weight API로 운영 안정성과 보안을 확보하는 ‘병행 전략’을 채택하는 추세입니다.
2. 설계와 학습, ‘지능’을 만들기 위한 핵심 기술들
AI가 복잡한 작업을 수행하기 위해서는 단순히 데이터를 전달받는 수준을 넘어서, 구조적 설계와 효율적인 학습 기술이 뒷받침되어야 하는데요. 비용 효율성과 정확도 사이에서 균형을 잡는 다양한 기법들이 등장 중입니다.

① LoRA(Low-Rank Adaptation): 기존 모델을 고정하고 소형 행렬만 학습하는 효율적인 파인튜닝 기법
LoRA는 대규모 LLM을 재학습하지 않고도 도메인 특화 튜닝이 가능하게 만든 경량 파인튜닝 기법입니다. 원본 모델의 가중치를 고정한 채, 소규모 저랭크 보조 행렬만 추가로 학습하는 구조로, 수백 MB 수준의 추가 학습만으로 수십억 파라미터 모델의 성능을 특정 태스크에 맞게 조정할 수 있습니다.
2023년 이후 Hugging Face, Databricks 등 주요 MLOps 플랫폼들이 LoRA 기능을 기본 제공하면서, 빠른 실험과 반복 튜닝이 필요한 현업에서 도입이 확대되고 있습니다. 특히 고객 도메인별 챗봇 파인튜닝, 엣지 환경용 경량 모델 개발 등에 널리 활용되며, 학습 비용과 시간은 물론 하드웨어 자원 요구도 크게 줄이는 방식으로 각광받고 있습니다.
② RLHF(Reinforcement Learning from Human Feedback): 사용자 선호도를 반영해 LLM 출력을 개선하는 강화 학습 기법
RLHF는 사람이 매긴 피드백을 통해 모델 출력의 품질을 개선하는 대표적인 강화학습 기법입니다. 2022년 OpenAI가 InstructGPT에 처음 적용하면서 널리 알려졌으며, 인간 평가자가 모델의 응답 예시를 점수화해 ‘보상 모델’을 학습시키고, 이를 기반으로 PPO(Proximal Policy Optimization) 알고리즘을 활용해 LLM을 추가 훈련합니다.
파인튜닝 이후에 인간의 선호도를 학습에 반영함으로써, 단순 정답 일치보다 사용자 만족도와 정책 준수에 중점을 둔 응답 생성이 가능해집니다. 브랜드 톤 유지, 유해 콘텐츠 필터링, 게임 NPC의 자연스러운 대화 생성 등 AI의 신뢰성과 일관성이 중요한 다양한 분야에서 활용되고 있습니다.
③ Chain of Thought: 중간 추론 과정을 드러내 모델의 사고 흐름을 투명하게 만드는 프롬프트 기법
Chain of Thought(CoT)는 모델이 최종 정답 뿐만 아니라 중간 추론 단계를 명시적으로 생성하도록 유도하는 기법입니다. 2021년 구글 리서치 연구팀이 모델이 중간 추론 단계를 생성하면 정확도가 크게 올라간다는 사실을 논문으로 발표하면서 주목받기 시작했는데요. 잘못된 추론 경로(Shortcut Reasoning)를 방지하고, 사람이 중간 단계에서 오류를 발견하거나 보정할 수 있는 여지를 제공합니다. 현재 수학 튜터, 법률/특허 분석, 의료 AI 등 신뢰성과 해석 가능성이 중요한 분야에서 도입이 확대되고 있습니다.
④ QAT(Quantization Aware Training): 양자화에 따른 정확도 손실을 최소화하는 엣지 AI 훈련 기법
스마트폰·IoT·드론 등 엣지 환경에서 대형 모델 배포가 어려워지며, QAT가 본격적으로 주목받기 시작했습니다. QAT는 모델 훈련 단계부터 8비트 이하의 양자화를 고려해 정확도를 유지하는 학습 기법인데요. 파이토치(PyTorch), 텐서플로우(TensorFlow)가 QAT API를 공식 지원하고, 퀄컴과 엔비디아가 엣지 전용 SDK에 통합하며 보급이 가속화됐습니다. 오늘날 QAT는 실시간 번역·음성비서, 자율주행, 산업용 IoT 센서 이상 탐지 등 고속 추론이 필요한 엣지 AI 프로젝트의 필수 기법으로 자리잡고 있습니다.
안정성과 효율성을 지키는 AI 기술 개념들과 아직 본격적으로 시작되지는 않았지만 향후에 기대해 볼만한 AI 용어들에 대해 소개해 드릴 텐데요. 다음 주에 공개될 AI 용어 사전 2탄도 많은 관심 부탁드립니다.
FAQ
Q1) MCP(Model Context Protocol)란 무엇인가요?
MCP는 LLM이 사용자의 업무 맥락을 이해할 수 있도록 세션 정보, 권한, 외부 데이터 등을 구조화된 형태로 모델에 전달하는 방식입니다. 민감한 산업에서의 AI 활용을 위해 중요한 기술로 떠오르고 있습니다.
Q2) Function Calling은 왜 중요한가요?
Function Calling은 LLM이 외부 API 명세를 읽고 필요한 함수를 직접 호출하게 해주는 기능입니다. 복잡한 백엔드 없이도 대화형 워크플로우를 구현할 수 있어, AI 기반 업무 자동화에서 핵심 기술로 활용됩니다.
Q3) A2A(AI to AI Interaction)와 모놀리식 아키텍처의 차이는 무엇인가요?
A2A는 여러 개의 특화된 AI 에이전트가 역할을 나눠 협업하는 구조이며, 모놀리식은 하나의 거대 모델이 모든 작업을 처리하는 방식입니다. A2A는 확장성과 유지보수 측면에서 유리합니다.
Q4) Open-Weight 모델과 Closed-Weight 모델은 어떻게 다르나요?
Open-Weight 모델은 가중치가 공개되어 자유롭게 수정·재배포가 가능하고, Closed-Weight 모델은 가중치가 비공개로 API를 통해서만 사용할 수 있습니다. 두 방식은 목적에 따라 병행해 사용하는 추세입니다.
Q5) LoRA와 RLHF는 어떤 차이가 있나요?
LoRA는 경량 파인튜닝 기법으로, 기존 모델의 가중치를 고정한 채 소형 행렬만 학습합니다. 반면 RLHF는 사람의 피드백을 반영한 보상 모델을 통해 LLM 출력을 개선하는 강화학습 방식입니다.