엔비디아 쓰던 빅테크들, 왜 직접 'AI 칩' 설계에 뛰어드나?

지난달 아마존의 Andy Jassy CEO는 주주서한에서 흥미로운 숫자를 꺼냈습니다. ‘자사 칩 사업 연 매출이 200억 달러(약 29조 원)를 넘어섰으며, 만약 외부에 직접 판매할 경우 그 규모는 500억 달러에 달할 것’이라는 내용이었죠. 뿐만 아니라 구글, 마이크로소프트, 메타, 오픈AI 등 AI 업계를 주도하는 기업들은 저마다 자체적으로 칩을 설계하기 시작했습니다.

ARM은 창사 35년 만에 처음으로 자체 설계한 데이터센터용 칩을 출시했고요. 일론 머스크는 Tesla와 SpaceX, xAI 합작으로 텍사스에 최대 1,190억 달러(약 174.7조 원) 규모의 반도체 공장 건설 계획을 공식화했습니다. 엔비디아를 가장 많이 쓰는 기업들이 직접 칩을 만들기 시작한 건데요. 이 역설적인 움직임 뒤에는 어떤 계산이 깔려 있을까요?

AI 칩, 왜 지금 모두가 주목하나

2022년 말 ChatGPT가 등장한 이후, AI는 어느새 우리 일상 깊숙이 자리잡았습니다. 검색부터 고객 응대까지, 이제 AI가 없는 비즈니스는 상상하기 어렵죠. 그런데 이 흐름이 가속화될수록 업계에는 아주 현실적인 고민이 생겨났습니다. 모델을 ‘얼마나 잘 만드느냐’보다, ‘이걸 매일 돌리는 비용을 어떻게 감당하느냐’의 문제입니다.

핵심은 학습(Training)과 추론(Inference)의 비용 구조가 근본적으로 다르다는 데 있습니다. 학습은 모델을 만드는 일회성 과정이라 큰 비용이 들어도 한 번으로 끝나지만, 추론은 다릅니다. 사용자가 챗GPT에 질문을 던지거나 추천 알고리즘이 작동할 때마다 비용이 실시간으로 누적되죠. 딜로이트는 2026년 전체 AI 컴퓨팅에서 추론이 차지하는 비중이 약 3분의 2(66%)에 달할 것으로 전망했습니다. 2023년에 비해 불과 3년 만에 두 배가 된 셈입니다. 젠슨 황이 이를 ‘Inference Inflection(추론 변곡점)’이라 부르며 강조한 것도 바로 이 지점입니다.

문제는 범용 GPU가 이 구조에 최적화돼 있지 않다는 점입니다. 다양한 연산을 유연하게 처리하도록 설계된 GPU는 학습 단계에선 강력하지만, 특정 서비스만 반복 수행하는 추론 환경에서는 전력 소모와 단가 면에서 비효율이 발생합니다. 추론 전용 칩 시장만 2026년 500억 달러를 넘어설 것으로 전망되는 건 이 때문입니다. GPU 공급 부족과 가격 폭등이 반복되는 상황에서, 올해 빅테크의 데이터센터 투자 규모가 6,000억 달러(약 840조 원)를 넘어설 것으로 예상되는 만큼, 이 비효율을 방치할 수 없는 상황이 되어 버렸습니다.

GPU만으론 부족하다? ASIC가 뜨는 이유

AI 칩 시장에서 요즘 가장 주목받는 키워드는 ASIC(주문형 반도체, Application-Specific Integrated Circuit)입니다. 범용적인 연산을 유연하게 처리하는 GPU와 달리, ASIC은 특정 목적과 연산을 위해 설계된 전용 칩입니다. 범용성은 낮지만 그 작업만큼은 효율성과 전력 대비 성능 면에서 GPU를 압도합니다.

시장이 ASIC에 주목하는 이유는 생성형 AI 서비스가 고도화됨에 따라 ‘추론’의 비중이 커지고 있기 때문입니다. 모델 학습 단계에는 여전히 고성능 GPU가 필수적이지만, 실제 서비스 단계인 추론은 상대적으로 반복적이고 정형화된 연산이 주를 이룹니다. 이에 따라 값비싼 범용 GPU 대신, 추론에 최적화된 ASIC을 병행 운용하는 멀티 가속기(Multi-Accelerator) 구조가 기업들의 핵심 전략으로 자리 잡고 있습니다.

시장조사기관 Futurum Group의 CEO Daniel Newman은 CNBC와의 인터뷰에서 “맞춤형 ASIC 시장이 향후 수년간 GPU 시장보다 가파른 성장세를 보일 것”이라고 전망했습니다. 엔비디아를 대체하는 게 아니라, AI 인프라의 공급망을 다변화하고 특정 벤더에 대한 의존도를 낮추려는 전략적 판단으로 풀이됩니다

빅테크의 칩 독립 선언, 각자의 생존법

빅테크들은 방향은 같되, 각자가 처한 비즈니스 상황에 따라 조금씩 다른 방식을 택하고 있습니다. 단순히 칩 하나를 만드는 게 아니라, 자사 서비스의 마진을 결정할 인프라 구조 자체를 다시 설계하고 있는 셈입니다.

독자 생태계 구축: 가장 앞서 있는 건 Google입니다. 2015년 빅테크 최초로 자체 ASIC인 TPU(텐서 처리 장치, Tensor Processing Unit)를 출시하며 이 흐름을 열었고, 현재까지 가장 완성도 높은 자체 칩 생태계를 갖추고 있습니다. 최근 브로드컴(Broadcom)과 2031년까지 장기 공동 개발 계약을 체결한 것도 같은 맥락으로 볼 수 있습니다. 구글 클라우드에서 구글 모델을 돌릴 때 가장 높은 가성비를 내도록 설계함으로써, 칩 레벨에서부터 경쟁사와 차별화하겠다는 전략입니다.
비즈니스 모델 확장: Amazon은 분리 전략을 택했습니다. 학습용 트레이니엄(Trainium)과 추론용 인퍼런시아(Inferentia)로 용도를 명확히 나눠 운영하고 있는데요. 앞서 말씀드린 것처럼, Andy Jassy CEO는 주주서한에서 칩 사업 연 매출이 이미 200억 달러를 넘어섰다고 밝히며, 비용 절감을 넘어 칩 자체를 새로운 수익원으로 키울 가능성을 내비쳤습니다.
하드웨어·소프트웨어 동시 설계: MS는 하드웨어와 소프트웨어를 동시에 설계하는 방향을 택했습니다. 자체 개발한 Maia 200(마이아 200)을 데이터센터에 적용하면서, 특정 모델에 최적화된 인프라를 구축하고 있는데요. 단순한 인프라 비용 절감이 아닌 AI 서비스 경쟁력 강화를 위한 방안으로 볼 수 있습니다.
파트너십 기반 서비스 최적화: 직접 설계보다 파트너십을 택한 기업들도 있습니다. Meta는 브로드컴과 손잡고 1GW 규모의 인프라 구축에 나섰습니다. Llama 같은 오픈소스 모델을 대규모로 운영해야 하는 Meta 입장에서는 속도가 곧 경쟁력이고, 직접 설계 역량을 키우기보다 검증된 파트너와 빠르게 최적화된 칩을 확보하는 편이 유리하다는 판단입니다. OpenAI는 반도체 스타트업 Cerebras와 100억 달러 이상의 인프라 계약을 맺었습니다. 엔비디아에 대한 의존도를 분산시키면서 공급망 리스크를 줄이는 방향입니다.

빅테크의 칩 내재화는 단순한 비용 절감을 넘어선 전략적 선택으로 보이는데요. 공급망의 리스크를 줄이고, 자사 모델에 최적화된 인프라를 확보해 AI 비즈니스의 지속 가능성을 설계하려는 것이죠. 딜로이트가 예측한 대로라면 추론 연산의 비중이 압도적으로 커지는 지금, ‘우리 서비스에 딱 맞는 엔진’을 얼마나 잘 갖췄느냐가 승부를 가를지도 모릅니다.

결국 AI 칩을 둘러싼 이 뜨거운 움직임은, AI가 신기한 기술을 넘어 하나의 거대한 산업 인프라로 자리 잡는 과정이 아닐까요? 인프라의 깊이가 곧 서비스의 경쟁력이 되는 시대, 과연 이 ‘칩 전쟁’의 최종 승자는 누가 될지 궁금해집니다.

방금 읽은 이 콘텐츠가 마음에 드셨다면?
지금 바로 베스핀글로벌의 뉴스레터 ‘베스픽’을 구독하고, 매주 인사이트를 가장 빠르게 받아보세요.

FAQ

Q1. 빅테크 기업들이 엔비디아 GPU 대신 자체 칩(ASIC)을 직접 만들기 시작한 이유는 무엇인가요?
가장 큰 이유는 ‘비용 효율성’과 ‘최적화’입니다. 엔비디아의 GPU는 모든 연산에 쓰이는 범용 칩이라 가격이 비싸고 전력 소모가 큽니다. 반면, 자체 설계한 ASIC(주문형 반도체)은 자사 서비스에 필요한 특정 연산만 수행하도록 설계되어, GPU 대비 운영 비용을 획기적으로 낮추고 성능을 극대화할 수 있습니다.

Q2. 본문에 언급된 ‘추론 변곡점(Inference Inflection)’이란 무엇을 의미하나요?
AI 모델을 만드는 ‘학습’ 단계보다, 완성된 모델을 실제 서비스에 적용해 결과를 내놓는 ‘추론’ 단계의 컴퓨팅 비중이 급격히 커지는 시점을 뜻합니다. 젠슨 황 엔비디아 CEO가 강조한 개념으로, 2026년에는 전체 AI 연산의 약 66%가 추론에서 발생할 것으로 예상되어 기업들에게 추론 전용 칩 확보가 생존 전략이 되었습니다.

Q3. 구글의 TPU와 아마존의 트레니움/인퍼런시아는 어떻게 다른가요?
구글의 TPU는 가장 먼저 개발된 ASIC으로, 구글 클라우드 생태계 내에서 자사 모델을 돌릴 때 최상의 가성비를 내도록 설계되었습니다. 반면 아마존(AWS)은 고객의 필요에 따라 학습용(트레니움)과 추론용(인퍼런시아)으로 제품군을 명확히 분리하여, 비용 절감을 넘어 칩 자체를 클라우드 수익 모델로 확장하고 있다는 차이가 있습니다.

Q4. 직접 칩을 설계하지 않고 파트너십(메타, 오픈AI 등)을 맺는 기업들의 전략은 무엇인가요?
칩 설계에는 막대한 시간과 자본이 소요됩니다. 메타나 오픈AI 같은 기업들은 직접 설계 역량을 키우기보다 브로드컴이나 세레브라스 같은 전문 기업과 협력함으로써, 빠르게 최적화된 인프라를 확보하고 엔비디아에 대한 의존도를 분산시키는 ‘속도’와 ‘리스크 관리’ 전략을 취하고 있습니다.

Q5. 빅테크의 칩 내재화가 가속화되면 엔비디아의 입지는 좁아질까요?
단기적으로는 영향이 있을 수 있으나, 완전히 대체하기는 어렵습니다. AI 모델 ‘학습’ 단계에서는 여전히 엔비디아 GPU의 압도적인 성능과 소프트웨어 생태계(CUDA)가 필수적이기 때문입니다. 시장은 ‘학습은 GPU, 추론은 맞춤형 ASIC’을 병행하는 멀티 가속기 구조로 재편될 가능성이 큽니다.

더 읽어볼 만한 컨텐츠

Agentic AI Platform AI AI Agent AI 데이터 AI 트렌드 BESPINGLOBAL HELPNOW HelpNow AI HelpNow AI Foundry 베스핀글로벌 온톨로지

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

엔비디아 쓰던 빅테크들, 왜 직접 ‘AI 칩’ 설계에 뛰어드나?

BESPICK

AI 칩, 왜 지금 모두가 주목하나

GPU만으론 부족하다? ASIC가 뜨는 이유

빅테크의 칩 독립 선언, 각자의 생존법

FAQ

더 읽어볼 만한 컨텐츠

“실험은 끝났다” Google Cloud Next 26이 선포한 AI 에이전트의 시대

미토스 쇼크는 현재진행형! 에이전틱 AI는 세상을 어떻게 바꿀까?