구글 젬마 4 발표…진정한 오픈 모델로 재탄생

구글이 오픈 모델 제품군 ‘젬마(Gemma)’의 차세대 버전 ‘젬마 4(Gemma 4)’를 공식 발표했다.

구글은 젬마 4가 추론, 코드 생성, 복합 논리 부문에서 대규모 모델들을 능가하는 성능을 발휘하며 오픈 모델의 새로운 기준을 제시한다고 강조하는데, 젬마 4의 라이선스 변경이 더 큰 관심을 끌고 있다. 이번 젬마 4에서는 아파치 2.0 라이선스로 변경, 커뮤니티나 기업에서 자유롭게 사용할 수 있게 됐다.

지난 버전까지 구글 젬마가 오픈 모델들 사이에서 성능이나 기능이 뒤처졌던 것은 아니다. 그러나 미스트랄(Mistral)이나 큐원(Qwen)보다는 덜 선택됐는데 이유는 애매한 라이선스 정책 때문이었다.

이전까지 젬마 라이선스는 구글이 직접 만든 커스텀 라이선스(Gemma Terms of Use)로, 사용 조건에 구글 정책이 포함돼 있었다. 무료 사용, 상업적 이용, 미세조정은 가능했지만 기업이나 커뮤니티에서 자유롭게 재배포하거나 변형하는 데 제약이 있었다. 메타 Llama 4도 커스텀 라이선스다.

(자료 출처=구글)
특히 구글이 언제든 사용 조건을 바꿀 수 있었다. 구글의 금지 사용 정책(Prohibited Use Policy)은 약관에 참조 포함 방식으로 포함돼, 계속 사용 시 업데이트된 조건에 동의한 것으로 간주됐다. 즉, 라이선스 정책의 범위는 고정된 것이 아니라 구글이 게시하는 내용에 따르며, 이는 언제든 업데이트에 따라 변경될 수 있다는 뜻이었다.

또 사용을 원격으로 차단하는 권한이 구글에게 있었다. 이전 버전의 커스텀 라이선스에서 구글은 자사의 금지 사용 정책이나 관련 법률과 규정을 위반한다고 판단될 경우 젬마 사용을 “원격 또는 기타 방법으로 제한”할 권리를 보유했다. 구글이 마음만 먹으면 이미 배포된 제품도 원격으로 막을 수 있는 구조였다.

이러한 제한은 사용자의 고객에까지 적용된다. 사용자가 젬마를 토대로 제품을 만들어 재배포할 경우, 그 파생 제품의 사용자까지 해당 라이선스의 규제를 받는다. 심지어 젬마에서 생성한 합성 데이터로 학습된 모델도 대상이다. 이는 커뮤니티는 물론 특히 기업에서 젬마를 사용하기 어렵도록 만들었다.

이 때문에 젬마나 Llama가 오픈 모델이 맞느냐 하는 비판도 있었다. 가중치에 대한 공개 모델(open-weight model)이지, 오픈소스는 아니라는 평가를 받으며 허깅 페이스(Huging Face) 등에서는 생태계 구축이 더더졌다.

파라미터 기준 모델 크기 대비 성능. (자료 출처=구글)
그러나 이번 젬마 4는 아파치 2.0 라이선스를 채택하면서 커스텀 조항이나 재배포 제한, 상업적 예외 조항을 모두 없앴다. 구글의 향후 규칙 변경, 파생 배포물로의 규제 상속 등을 염려할 필요가 없어졌다. 메타의 월간 활성 사용자 수 제약도 없다. 메타 Llama 4의 커뮤니티 라이선스에서는 월 7억 사용자 이상 시 별도 계약을 요구한다. 아파치 2.0 라이선스는 원본의 저작권과 수정 사실만 알리면 된다.

구글 "젬마 4, 20배 더 큰 모델보다 성능 앞서"

제미나이 3(Gemini 3)와 동일한 연구와 기술을 기반으로 구축된 젬마 4는 Effective 2B(E2B), Effective 4B(E4B), 26B MoE, 31B Dense의 네 가지 크기로 제공된다. 구글은 채팅 기능을 넘어 에이전트 기반 워크플로(Agentic workflows)를 위한 툴을 기본 지원하며, 특히 젬마 4보다 20배 더 큰 모델보다도 성능이 앞선다고 주장하고 있다.

LLM(거대언어모델)과 생성형 AI의 성능을 평가하는 공개 웹 기반 벤치마킹 플랫폼 아레나(Arena AI)의 결과를 살펴보면, 젬마 31B Dense 모델은 아레나 AI 텍스트 리더보드에서 27위를 기록했는데 오픈 모델 중에서는 3위다. 26B 모델은 전체 40위, 오픈 모델 중 6위를 기록했다.

아레나 AI의 리더보드에서 젬마 모델 순위. (자료 출처=아레나 AI)
젬마 모델명의 E는 유효 파라미터(effective parameters)를 의미한다. E2B 모델의 총 파라미터는 51억개지만 추론 시 약 23억개의 유효 파라미터만 활성화된다. 이는 PLE(Per-Layer Embeddings) 기법이 적용됐기 때문이다.

PLE는 모델에 레이어나 파라미터를 추가하는 대신, 각 디코더 레이어마다 모든 토큰에 대한 소규모 자체 임베딩을 부여한다. 이 임베딩 테이블은 크기는 크지만 빠른 조회에만 사용되기 때문에, 유효 파라미터 수가 전체 파라미터보다 훨씬 적다. 즉, 23억 활성 파라미터만으로 51억 파라미터 수준의 표현력을 구현하고, 양자화 시 1.5GB 미만의 메모리로 구동된다.

젬마 4 26B MoE(Mixture-of-Experts, 전문가 혼합) 모델은 128개의 전문가와 항상 활성화되는 공유 전문가 1개로 구성되며, 토큰당 8개의 전문가가 활성화된다. 활성 파라미터 수는 약 38억 개다. 따라서 전체 약 260억 개 파라미터 중 실제 추론에 사용되는 것은 약 38억 개다. 구글에 따르면 이는 약 260억 규모 모델 수준의 지능을, 대략 40억 규모 모델 수준의 연산 비용으로 구현한다는 의미다.

젬마 4 모델의 다양한 벤치마크 결과들. (자료 출처=독일 AI 미디어 디코더)

오픈 모델들에 대한 GPQA 다이아몬드 벤치마크 결과 모음들. 젬마 4는 오픈 모델 중 2위를 차지했다. (자료 출처=Artificial Analysis)
그러나 독립 테스트 기관 AA(Artificial Analysis)에 따르면 GPQA 다이아몬드(Graduate-level Google-proof Question Answering Diamond) 벤치마크에서 젬마 4 31B는 85.7%로 2위를 차지하면서 85.8%의 큐원3.5 27B에 밀렸다. 이는 파라미터가 400억개 미만인 오픈 모델을 대상으로 한 것이다.

26B MoE 모델의 경우 79.2%, 큐원3.5 9B는 80.6%였다. 큐원 3.5는 MMLU-Pro, HLM에서도 젬마 4를 앞섰다.

GPQA 다이아몬드는 LLM의 고난도 과학·수학·기초학문 추론 능력을 평가하기 위해 설계된 AI 벤치마크 서브셋으로, 대학원 또는 전문가급 문제를 낸다. MMLU-Pro(Massive Multitask Language Understanding-Pro)와 HLE(Humanity’s Last Exam) 역시 AI의 진짜 지능과 한계를 시험하기 위해 등장한 초고난도 테스트다. 특히 HLE는 AI가 인류를 넘어서기 전 치르는 마지막 관문이라는 이름처럼 각 분야의 박사급 전문가들도 풀기 힘든 문제들로 테스트한다.

그러나 이전 버전인 젬마 3 대비 추론 성능은 대폭 도약했다. 젬마 3 27B가 AIME(수학 추론)에서 사고 모드 없이 20.8%, 라이브코드벤치(LiveCodeBench)에서 29.1%를 기록한 반면, 젬마 4 31B는 각각 89.2%와 80.0%를 기록했다.

출처

디일렉(THE ELEC)

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

PRODUCT DESCRIPTION

구글 젬마 4 발표…진정한 오픈 모델로 재탄생

구글 인사이트

구글 "젬마 4, 20배 더 큰 모델보다 성능 앞서"

BigQuery Studio의 Gemini 어시스턴트, 이렇게 달라졌습니다

최첨단 인텔리전스에 실행력까지 갖춘 ‘제미나이 3.5’를 소개합니다.