오늘 키노트 전에 알아야 할 숫자
2026년 5월 19일, 구글은 캘리포니아 Mountain View의 Shoreline Amphitheatre에서 I/O 2026 키노트를 연다. 무대 위에서는 새 Gemini 모델, Gemini Omni, Gemini Spark, Android XR 안경, Aluminium OS 노트북 플랫폼이 줄줄이 등장할 예정이다.
그런데 키노트가 시작되기도 전에 불편한 숫자 하나가 먼저 나왔다.
"18개 벤치마크 중 17개에서 Claude Mythos에 패배."
TechTimes가 인용한 업계 소식통의 표현이다. 새롭게 I/O에 공개될 Gemini는 OpenAI의 GPT-5.5 수준에는 도달하지만, Anthropic의 Claude Mythos에게는 '의미 있게 뒤처져 있다'는 평가다. 화려한 발표 무대 뒤에 이 숫자가 있다는 것, 오늘 키노트를 보기 전에 먼저 이해해야 한다.
2026 AI 삼강 구도, 지금 어디쯤?
2026년 초, AI 프런티어 모델 시장은 세 축으로 굳어졌다.
- Anthropic — Claude Mythos Preview로 코딩·멀티모달 1위를 주장
- OpenAI — GPT-5.5로 에이전트 자동화 분야에서 선두
- Google — Gemini 3.1 Pro로 추론·장문 처리에서 존재감 유지
각 기업은 서로 다른 분야의 왕좌를 주장하고 있다. 문제는 그 중 코딩 분야에서 격차가 유독 선명하다는 점이다. 그리고 코딩은 개발자·기업 고객이 AI를 선택할 때 가장 먼저 보는 기준이다.
벤치마크로 본 Gemini의 현주소
아래 표는 2026년 5월 현재 공개된 주요 벤치마크 기준으로 세 모델을 비교한 것이다.
| 벤치마크 | Claude Mythos | GPT-5.5 | Gemini 3.1 Pro | Mythos 우위 |
|---|---|---|---|---|
| SWE-bench Verified (코딩) | 93.9% | ~85% | 80.6% | +13.3%p |
| SWE-bench Pro (코딩 심화) | 77.8% | 58.6% | 54.2% | +23.6%p |
| Terminal-Bench 2.0 (코딩 자동화) | 82.0% | 82.7% | 68.5% | +13.5%p |
| GPQA Diamond (과학 추론) | 94.5% | ~93% | 94.3% | 거의 동률 |
| USAMO (수학 올림피아드) | 97.6% | — | 74.4% | +23.2%p |
| ARC-AGI-2 (추상 추론) | ~60% | ~55% | 77.1% | Gemini 선두 |
| GDPval (지식 작업) | ~79% | 84.9% | ~75% | GPT-5.5 선두 |
| OSWorld-Verified (에이전트) | ~66% | 78.7% | ~60% | GPT-5.5 선두 |
출처: Lushbinary, BenchLM.ai, OfficeChai (2026년 5월 기준)

표를 보면 패턴이 보인다.
Gemini 3.1 Pro가 앞서는 영역: ARC-AGI-2(추상 추론, 77.1%), GPQA Diamond(과학 지식, 94.3%), 200만 토큰 장문 컨텍스트 처리.
Gemini 3.1 Pro가 뒤처지는 영역: 코딩 전반, 수학 추론, 에이전트 도구 사용.
그리고 기업 고객의 AI 선택에서 가장 가중치가 높은 분야는 코딩과 에이전트 자동화다.
Gemini는 왜 코딩에서 뒤처지나
"추론은 잘하는데 코딩은 왜?"라는 의문이 자연스럽게 나온다. 두 가지 관점에서 볼 수 있다.
첫째, 벤치마크와 실전의 괴리. Medium의 한 개발자 분석이 눈길을 끈다: "Gemini 3.1 Pro는 벤치마크에서 멋지게 보이지만 실제 코딩 작업에서는 도전적이었다." 추상적 추론 능력이 높아도 실제 소프트웨어 문제 해결(버그 패치, PR 생성, 테스트 작성)로 전환되는 과정에서 격차가 벌어진다는 뜻이다.
둘째, 학습 데이터·파인튜닝 전략의 차이. Claude Mythos가 93.9%를 기록한 SWE-bench Verified는 실제 GitHub 이슈를 기반으로 한 현실적 코딩 테스트다. Anthropic이 코드 생성과 디버깅에 집중적인 RLHF를 투자했을 가능성이 높다. Google은 멀티모달과 장문 처리 쪽에 더 많은 자원을 쏟은 것으로 보인다.
셋째, 접근성 제한의 역설. Claude Mythos Preview는 현재 40개 이상 Glasswing 파트너사에만 제한 공개된 상태다. 반면 Gemini 3.1 Pro는 관대한 무료 티어와 함께 공개돼 있다. 광범위한 실전 사용 데이터가 Gemini에 더 많이 쌓이고 있음에도 불구하고 코딩 성능 격차가 유지된다는 것은 오히려 Gemini의 기초 역량 문제를 시사한다.
"Gemini 업데이트는 더 이상 헤드라인이 아니다"
TechTimes 기사에서 가장 날카로운 문장을 뽑자면 이것이다:
"Gemini 업데이트는 더 이상 헤드라인 성과가 아니며, 2026년에는 업계 논의에 참여하기 위한 최소 요구사항이다."
2023년에는 Gemini 출시 자체가 뉴스였다. 2024년에는 멀티모달 능력이 화제였다. 2025년 Gemini 2.0 시리즈는 기대를 모았다. 하지만 2026년의 AI 생태계는 다르다. GPT-5.5와 Claude Mythos가 이미 코딩·추론의 성능 기준을 높여놓은 상황에서, Gemini가 내놓아야 하는 것은 '따라잡기'가 아닌 '앞서나가기'다.
오늘 키노트에서 구글이 발표하는 새 Gemini가 GPT-5.5 수준에 도달한다고 해도, Claude Mythos와의 격차는 여전히 남는다. 업계 소식통들이 "의미 있게 뒤처져 있다(meaningfully short)"고 표현한 이유가 여기에 있다.
I/O가 판세를 뒤집을 수 있을까
가능성은 있다. 다만 조건이 있다.
조건 1 — 깜짝 모델 공개. 소식통들이 알고 있는 정보를 능가하는 새 모델이 나온다면 이야기가 달라진다. 구글은 과거에도 예고 없이 예상치를 뛰어넘은 전례가 있다. Gemini Omni가 단순 멀티모달 업그레이드가 아니라 코딩 성능의 도약을 함께 가져온다면 오늘 기사들은 내일 다시 쓰여질 수 있다.
조건 2 — 에코시스템 승부. 모델 성능만이 AI 전쟁의 전부가 아니다. Google은 Android, Chrome, Workspace, YouTube, Search에 Gemini를 통합하는 에코시스템 우위를 갖고 있다. 기조연설에서 Gemini Intelligence, Gemini Spark, Android XR 등 에코시스템 통합이 강력하게 시연된다면 "모델 성능보다 플랫폼 파워"라는 구글의 전통적 강점이 다시 주목받을 수 있다.
조건 3 — 가격 경쟁력. Claude Mythos Preview의 API 가격은 입력 $25/100만 토큰, 출력 $125/100만 토큰이다. GPT-5.5는 입력 $5, 출력 $30으로 약 4배 저렴하다. Gemini가 GPT-5.5와 비슷한 성능을 더 낮은 가격에 제공한다면, 기업 고객 입장에서는 충분히 매력적인 선택지가 된다.
오늘 키노트에서 확인해야 할 것들
Google I/O 2026 키노트는 한국 시간으로 오늘 밤 10시(5월 20일 02:00 KST)에 시작된다. 아래 포인트에 집중하면 판세 변화를 빠르게 읽을 수 있다.
- 새 모델 이름과 벤치마크 공개 여부 — 구글이 공식 발표에서 SWE-bench나 GPQA 수치를 직접 제시한다면 비교 분석이 즉시 가능하다.
- Gemini Omni의 실체 — 텍스트·이미지·비디오 통합 파이프라인이라고 알려졌지만, 코딩 에이전트 기능이 포함되는지가 관건이다.
- Glasswing 파트너십 확대 발표 여부 — Claude Mythos의 제한 공개 전략에 맞서 구글이 자체 엔터프라이즈 파트너 프로그램을 강화한다면, 실전 사용 기반에서의 반격을 예고하는 신호다.
- 가격 및 API 접근성 — I/O에서 새 Gemini의 API 가격이 공개되면 GPT-5.5 대비 비용 경쟁력을 즉시 비교할 수 있다.
정리
솔직히 말하면, 오늘의 구글은 수비 포지션이다. 2026년 초 기준으로 Claude Mythos는 코딩에서 압도적이고, GPT-5.5는 에이전트 자동화를 장악했다. Gemini 3.1 Pro가 추론과 장문 처리에서 강점을 보이지만, 개발자·기업 고객이 가장 먼저 묻는 "이걸로 코드 짜도 돼?"에 자신 있게 "응"을 말하기 어려운 상황이다.
I/O 키노트는 그 질문에 대한 구글의 공개 답변이다.
키노트가 끝나면 데이터가 나온다. 그때 다시 판단하면 된다.
참고 출처:
- TechTimes — Google I/O 2026 Keynote Opens Tuesday as New Gemini Lands Behind Mythos and GPT-5.5
- AndroidHeadlines — Google May Launch New Gemini Model at I/O Event to Tackle OpenAI's GPT-5.5
- Lushbinary — GPT-5.5 vs Gemini 3.1 Pro vs Claude Mythos: Benchmarks & Routing Guide
- BenchLM.ai — Claude Mythos Preview vs GPT-5.5
- OfficeChai — Claude Mythos Preview Beats Google Gemini 3.1 Pro, GPT 5.4 On Most Benchmarks
- Analytics Insight — Google I/O 2026: Gemini Omni, Spark & Android XR Launch Expected
