TREND
AI의 다음 단계로: 오픈AI, ‘GPT-5’ 모델 공개와 그 의미
지난해 5월 GPT-4o가 공개됐을 때 많은 사람들은 영화 ‘Her’를 떠올리며 “AI가 한 걸음 더 가까워졌다”는 평가를 내렸습니다. 텍스트뿐 아니라 이미지나 음성, 심지어 감정 표현까지 처리할 수 있는 멀티모달 AI임을 강조했고, 단순히 질문에 답하는 AI를 넘어 마치 사람과 대화하는 듯한 모습을 구현해내며 전 세계를 놀라게 했죠. 오픈AI는 이번에 출시한 GPT-5를 “우리가 개발한 가장 강력한 모델”이라고 소개하며 전작의 혁신을 뛰어넘을 것이라고 확신했습니다. 오늘은 오픈AI가 말하는 가장 강력한 모델, GPT-5에 대해 자세히 살펴봅니다.

기본 모델과 추론 모델의 통합
GPT-5의 가장 큰 변화는 모델을 통합했다는 점입니다. 이전에는 기본 모델인 GPT-4o와 심층 추론형 모델인 o3를 별도로 제공해 사용자가 어떤 모델이 더 적합한지 판단한 뒤 직접 골라 사용해야 했죠.
오픈AI는 GPT-5가 실시간 라우터(Router)를 갖춘 통합 시스템이라고 설명합니다. 라우터는 질문의 주제와 난이도, 도구 사용의 필요성 등을 종합적으로 분석해 처리 방식을 자동으로 선택합니다. 또한 사용자가 어떤 응답을 선호했는지, 실제 결과의 정확도는 어땠는지 등의 데이터 학습을 통해 시간이 지날수록 더 정교한 판단을 내릴 수 있도록 설계됐습니다.
더불어 사용자가 고급 추론이 필요하다고 판단할 경우 직접 ‘Thinking’ 모드를 선택할 수 있습니다. 기존 o3처럼 복잡한 문제를 단계적으로 분석하고 해결하는 것도 가능한데요. 통합된 시스템 안에서 필요에 따라 사용자가 수동으로 지정할 수 있는 옵션을 둔 것입니다.
벤치마크로 입증한 성능 향상
오픈AI는 다양한 벤치마크 결과를 제시하며 GPT-5의 성능 향상을 강조했습니다. 수학, 코딩, 멀티모달 이해, 의료 등 주요 분야에서 GPT-4o와 o3를 모두 뛰어넘는 정확도라고 합니다. ‘Thinking’ 모드를 활용했을 때 박사급 과학 지식 문제를 다루는 GPQA 벤치마크에서 역대 최고 수치를 기록했다는 점도 언급했고요.
생성형 AI의 대표적 한계로 지적되어 온 할루시네이션(Hallucination) 문제도 개선했다고 합니다. GPT-5는 GPT-4o에 비해 오류 발생률이 최대 20% 줄었고, 추론 모드를 사용할 경우 o3와 비교해 최대 70%까지 오류를 줄였다고 밝혔습니다.
글쓰기, 코딩, 의료에서의 성능 향상도 오픈AI가 강조한 특징입니다. 챗GPT가 가장 많이 사용 되는 분야인 글쓰기에서는 글의 짜임새나 문학적 표현력을 개선해 시, 보고서, 이메일 등 다양한 양식에서 더욱 자연스럽고 풍부한 응답이 가능해졌습니다.
코딩 분야에서는 단일 프롬프트로 완성도 높은 결과물을 구현할 뿐만 아니라, 대규모 코드베이스에서도 버그를 찾아내고 해결 방안을 제시하는 디버깅(debugging) 능력을 강화했다고 합니다. 의료 분야에서도 사용자의 지식 수준과 맥락을 반영한 응답을 할 수 있도록 개선해 벤치마크 평가에서 기존 모델을 상회하는 점수를 기록했습니다.
낮아진 비용 부담
GPT-5 기본 모델은 입력 토큰 100만 개당 1.25달러입니다. GPT-4o가 입력 토큰 100만 개당 2.5달러였으니, 기존 모델의 절반 수준으로 요금을 낮춘 것이죠. 출력 토큰 단가는 100만 개당 10달러로 이전과 동일하지만, 반복 입력은 자동으로 인식하게 하고 한 번에 처리할 수 있는 문서 길이도 늘어나 대규모 데이터를 다루는 경우 비용 부담이 줄어듭니다.
경쟁 기업 서비스의 요금제를 확인해보면 오픈AI가 내놓은 가격 정책이 얼마나 공격적인지 알 수 있는데요. 앤스로픽(Anthropic)의 Claude Opus 4.1는 토큰 100만 개당 입력은 15달러, 출력은 75달러이고, xAI의 Grok4는 각 3달러, 15달러입니다. 구글(Google)의 Gemini 2.5 Pro는 GPT-5와 기본 요금이 동일한데요. 그러나 Gemini는 토큰을 월 20만 개 초과 사용할 경우 입력 2.5달러/출력 15달러로 과금되는 구조여서 GPT-5가 비교적 저렴하다고 볼 수 있습니다.
하지만 사용자들의 기대감이 커진 탓일까요? GPT-5의 출시 이후 일부 사용자들은 여전히 응답 속도나 오류 문제를 지적하며, 오히려 이전 모델을 복구해달라는 목소리를 내기도 했습니다. 이러한 반응에도 불구하고 오픈AI의 챗GPT는 60%가 넘는 압도적인 시장 점유율을 유지하며, 최근 챗GPT의 월 매출이 출시 이후 처음으로 10억 달러를 돌파하는 성과를 거두었습니다. 이는 챗GPT가 출시된지 2년 8개월만에 이룬 기록으로 GPT-5가 가져온 변화와 맞물려 오픈 AI가 시장에서 여전히 거대한 영향력을 발휘하고 있음을 보여주는 지표이기도 합니다.
하지만 성장률 측면에서는 앤스로픽의 클로드, xAI의 그록 등 경쟁사들이 챗GPT를 앞서고 있는 상황입니다. GPT-5가 현재의 시장 점유율을 수성하는 방패가 될지, 아니면 경쟁사들의 강력한 도전에 직면하게 될지, 앞으로의 AI 시장은 더욱 흥미로운 격전지가 될 것으로 보입니다.
FAQ
Q1) GPT-5는 이전 모델인 GPT-4o와 어떤 점이 가장 크게 다른가요?
가장 큰 차이점은 모델 통합입니다. GPT-4o와 심층 추론 모델인 o3를 별도로 제공했던 것과 달리, GPT-5는 하나의 시스템에 통합되어 질문의 난이도와 유형에 따라 최적의 처리 방식을 자동으로 선택합니다. 또한 ‘Thinking’ 모드를 통해 사용자가 직접 고급 추론 기능을 활성화할 수도 있습니다.
Q2) GPT-5의 ‘Thinking’ 모드는 정확히 어떤 역할을 하나요?
‘Thinking’ 모드는 복잡하고 어려운 문제에 대해 단계적인 심층 추론을 수행하는 기능입니다. 마치 사람이 복잡한 문제를 여러 단계로 나누어 생각하듯이, 이 모드를 활성화하면 GPT-5가 논리적인 과정을 거쳐 더 정확하고 신뢰도 높은 답변을 도출합니다.
Q3) GPT-5가 할루시네이션(Hallucination) 문제를 얼마나 개선했나요?
오픈AI의 발표에 따르면, GPT-5는 GPT-4o에 비해 오류 발생률이 최대 20% 감소했습니다. 특히 ‘Thinking’ 모드를 사용할 경우, 기존 추론 모델인 o3보다 오류를 최대 70%까지 줄였다고 합니다.
Q4) GPT-5의 가격 정책은 이전보다 저렴해진 건가요?
네, 그렇습니다. GPT-5 기본 모델의 입력 토큰 비용은 GPT-4o의 절반 수준으로 낮아졌습니다. 입력 토큰 100만 개당 2.5달러였던 GPT-4o에 비해, GPT-5는 1.25달러로 요금을 책정했습니다. 이는 경쟁사 대비 매우 공격적인 가격 정책으로 평가받고 있습니다.
Q5) GPT-5의 성능이 구체적으로 얼마나 향상되었나요?
오픈AI는 다양한 벤치마크 결과를 공개했습니다. 수학, 코딩, 멀티모달 이해, 의료 등 여러 주요 분야에서 GPT-4o와 o3를 모두 뛰어넘는 정확도를 기록했습니다. 특히 박사급 과학 지식을 다루는 GPQA 벤치마크에서는 역대 최고 점수를 달성했습니다.
Q6) GPT-5가 특히 강점을 보이는 분야는 무엇인가요?
알려진 주요 강점 분야는 글쓰기, 코딩, 의료입니다. 글쓰기에서는 문학적 표현력과 짜임새를 개선했고, 코딩 분야에서는 디버깅 능력을 강화했습니다. 의료 분야에서도 사용자의 지식 수준과 맥락을 반영한 정확한 답변이 가능하도록 개선되었습니다.
Q7) 현재 생성형 AI 시장에서 챗GPT의 경쟁 구도는 어떤가요?
현재 챗GPT는 60.4%의 압도적인 시장 점유율로 1위를 유지하고 있습니다. 그러나 앤스로픽의 클로드, xAI의 그록, 구글의 제미니 등 경쟁사들은 챗GPT보다 더 높은 분기 성장률을 보이며 빠르게 추격하고 있어, 시장의 경쟁이 더욱 치열해질 전망입니다.