AI 툴 카니 2026.05.20 AI 보조 작성·편집자 검수

카니 · AI 보조 작성, 편집자 검수

Gemini 3.5 Flash: Flash가 Frontier가 됐다, 4배 빠른 속도와 Antigravity 2.0 에이전트 능력 총정리

핵심 요약

Google I/O 2026 둘째 날 발표된 Gemini 3.5 Flash는 단순한 Flash 라인업 업그레이드가 아니다. 구글 표현 그대로 “frontier-level 성능을 비교 모델 대비 4배 속도로” 내는 모델이고, 핵심은 두 가지다.

첫째, 자기보다 한 체급 위인 Gemini 3.1 Pro를 코딩·에이전트 벤치마크에서 능가했다.
둘째, 같은 키노트에서 공개된 Antigravity 2.0 에이전트 하네스의 기본 엔진이 되면서, “Flash는 보조 모델”이라는 위치를 스스로 깼다.

48시간 전 발표된 Gemini 3.2 Flash가 속도·가격이라는 두 축을 다듬은 점진적 개선이었다면, 3.5 Flash는 “Flash 등급이 Pro를 추월한다”는 흐름의 명확한 전환점이다. 본 글은 3.2 → 3.5 차이부터 Antigravity 통합, 실제 에이전트 워크플로 예시까지 deep-dive로 정리한다.

3.2 Flash와 무엇이 다른가 — 같은 “Flash”인데 왜 사건인가

이름이 비슷해 그냥 마이너 버전 올림처럼 보이지만, 3.2와 3.5는 설계 의도가 다르다. 3.2 Flash는 “큰 모델을 어떻게 작고 싸게 압축할까”에 집중한 distillation·sparsification 결과물이었다. 200ms 응답과 입력 1M 토큰 $0.25라는 가격이 그 결과다.

3.5 Flash는 그 위에 한 단계를 더 얹었다. 압축은 유지하되, 학습 데이터와 RLHF 단계에서 “에이전트 작업”을 1급 시민으로 끌어올린 모델이다. 구글 발표 표현을 옮기면 다음과 같다.

Gemini 3.5 Flash delivers frontier-level performance at 4x the speed of comparable frontier models — often at less than half the cost.
— Google, I/O 2026 developer highlights (blog.google)

핵심 차이를 표로 정리하면 이렇다.

Gemini 3.5 Flash vs 3.2 Flash 벤치마크 비교

항목	Gemini 3.2 Flash (5월 19일)	Gemini 3.5 Flash (5월 20일)
포지셔닝	Flash 라인업 가격·속도 최적화	Flash가 Frontier 등급에 진입
비교 기준선	Gemini 3 Flash, GPT-5.5 가성비 비교	Gemini 3.1 Pro 직접 능가
응답 속도	평균 200ms 이하	출력 토큰 기준 비교 frontier 모델 대비 4배
에이전트 능력	일반 추론에 집중, 도구 호출은 외부 프레임워크 의존	Long-horizon agentic, 서브에이전트 팀 오케스트레이션 내장
통합 플랫폼	AI Studio, Gemini API	+ Antigravity 2.0 데스크톱, Managed Agents API
디폴트 모델 적용	Google Search AI 오버뷰, 지메일 등 소비자 제품	+ Gemini 앱, AI Mode, AI Studio “기본”

3.2가 “싸고 빠른 Flash”의 정점이라면, 3.5는 “Flash라는 이름표를 단 frontier 모델”이다. 같은 라인업 안에서 두 등급이 동시에 존재하는 이례적인 구성인데, 구글은 이를 “목적별 분리”라고 설명한다. 대량 처리·실시간 임베드는 3.2 Flash, 에이전트 워크로드와 새 기능 진입은 3.5 Flash가 맡는 구조다.

벤치마크 — Flash가 Pro를 추월한 지점들

가장 충격적인 데이터는 3.5 Flash가 Gemini 3.1 Pro를 코딩·에이전트 영역에서 직접 능가했다는 부분이다. officechai 정리와 deepmind.google 모델 페이지를 교차 확인한 수치는 다음과 같다.

벤치마크	Gemini 3.5 Flash	Gemini 3.1 Pro
Terminal-Bench 2.1 (코딩 에이전트)	76.2%	약 72%
GDPval-AA (실무 과업 평가)	1,656	1,400대 추정
멀티모달 이해 (MMMU 계열)	선두	—

Gemini 3.5 Flash’s GDPval-AA score of 1,656 leaps well past Claude Sonnet 4.6, signaling a step-change in Google’s agentic capabilities.
— officechai, Gemini Flash 3.5 Benchmarks

GDPval-AA는 OpenAI가 함께 설계에 참여한 “실제 직무 과업” 평가 벤치마크다. 코딩 단일 점수가 아니라 보고서 작성, 데이터 분석, 일정 조율 같은 복합 워크플로의 완성도를 본다. 여기서 Flash 등급 모델이 Claude Sonnet 4.6을 넘었다는 건, 단순한 토큰 처리 속도가 아니라 에이전트로 끝까지 작업을 마무리하는 능력에서도 frontier 그룹에 들어갔다는 의미다.

속도 쪽 수치도 출처마다 약간씩 다르게 인용된다. newsbytesapp은 약 1,500 tokens/sec, llm-stats 기반 분석은 약 289 tokens/sec를 인용했다. 1,500은 배치/병렬 처리 시 피크, 289는 단일 세션 sustained로 해석하는 것이 합리적이다. 어느 쪽이든 “비교 frontier 대비 4배”라는 주장 자체는 일관된다.

Antigravity 2.0 — 3.5 Flash가 진짜 사는 곳

Antigravity 2.0 + Gemini 3.5 Flash 아키텍처 도식

3.5 Flash 발표가 단순 모델 업데이트로 끝나지 않은 이유는 Antigravity 2.0이다. Antigravity는 작년 I/O에서 처음 공개됐던 “에이전트 우선 개발 플랫폼”인데, 2.0에서 데스크톱 앱이 추가되고 Managed Agents가 신설됐다. 그 엔진 자리에 3.5 Flash가 앉았다.

구글이 I/O 2026 developer highlights 글에서 정리한 신기능은 세 갈래다.

Google Antigravity 2.0 데스크톱 앱 — IDE처럼 동작하지만 에이전트 세션이 1급 객체다. 한 번 만든 인터랙션을 다음 호출에서 그대로 이어서 쓸 수 있다.
Managed Agents in the Gemini API — Antigravity 에이전트 하네스를 Gemini API와 AI Studio에서 그대로 호출하는 신규 엔드포인트. 백엔드에서 상태·파일·도구 호출을 관리해 준다.
Native Android vibe coding in Google AI Studio — 자연어로 Android 앱 시안을 만드는 워크플로. 내부 엔진이 3.5 Flash다.

핵심 구조는 “에이전트 하네스 + 상태 보존 세션 + 마크다운 기반 사용자 확장”이다. 사용자는 자기만의 instructions와 skills를 markdown 파일로 정의해 에이전트에 주입할 수 있고, 한 인터랙션 안에서 만들어진 파일과 컨텍스트는 같은 ID로 다시 호출하면 그대로 살아 있다. 이전 세션을 “재개”하는 것이 메모리 트릭이 아니라 API 1급 기능이라는 점이 중요하다.

Each interaction creates an environment you can resume in follow-up calls with all files and state intact, enabling seamless multi-turn sessions.
— Google I/O 2026 developer highlights

3.5 Flash가 이 하네스의 엔진으로 지정된 이유도 분명하다. 에이전트는 한 작업당 수십 번의 추론·도구 호출을 반복하는데, 단계당 latency가 1초만 되어도 사용자 체감 누적 대기시간이 분 단위로 늘어난다. Frontier급 추론 능력을 유지하면서 단계당 응답이 4배 빠르다는 점이 “Flash = 에이전트 엔진”이라는 등식을 성립시킨다.

에이전트 액션이 실제로 작동하는 워크플로 3가지

추상적 능력만 봐서는 감이 잘 안 온다. 키노트와 Gemini 앱 발표 글, Antigravity 데모에서 소개된 실사용 시나리오 세 가지를 정리했다.

1) 다단계 코딩 — “이슈 → PR” 자동화

Antigravity 2.0에서 Linear/Jira 이슈를 던지면, 3.5 Flash 기반 에이전트가 다음 단계를 자동으로 실행한다. 저장소 클론, 관련 파일 탐색, 후보 패치 작성, 로컬 테스트 실행, 실패 시 재시도, 마지막으로 PR 초안 생성. 사람은 PR 단계에서 진입한다. 기존에는 Cursor/Cline 같은 에이전트 IDE가 외부에서 모델을 호출해야 했는데, 이번엔 IDE-에이전트 하네스-모델이 같은 회사 스택 안에 정리됐다는 점이 다르다.

2) Gemini Spark — 카드 명세서·메일 자동 처리

같은 키노트에서 발표된 Gemini Spark는 3.5 Flash를 백엔드로 쓴다. 카드 명세서 PDF를 통째로 넣으면 숨은 구독, 환불 가능 항목, 카드사 프로모션 만료 일자를 정리해 준다. 한 번의 단발 추론이 아니라, 명세서를 받아 정리하고 → 사용자에게 확인을 요청하고 → 확인 후 액션(구독 취소 메일 초안 작성 등)을 이어가는 다단계 에이전트 작업이다.

3) AI Studio Android vibe coding — 자연어로 앱 시안

“하이킹 기록 앱인데, 첫 화면에 지도와 오늘 누적 고도가 보이고, 친구 ID로 경로 공유가 되는 버전” 정도의 자연어 요구를 넣으면 Android 앱 골격이 생성된다. 내부적으로 3.5 Flash가 디자인 토큰, 화면 구조, 데이터 모델, 빌드 설정까지 같이 만들어 낸다. 결과물은 Android Studio로 export 가능하다. 이 시나리오에서 의미 있는 건, 모델이 단일 파일을 쓰는 게 아니라 프로젝트 단위의 다중 파일 일관성을 유지한다는 점이다.

세 시나리오의 공통점은 “LLM이 끝까지 작업을 마치고 결과물을 내놓는다”는 흐름이다. 단발 질문/답이 아니라, 도구 호출·중간 검증·실패 복구·메모리가 모델 안에서 일관되게 돌아간다. 이 부분이 3.2 Flash까지의 Flash 라인업이 외부 프레임워크에 의존하던 영역이었다.

지금 바로 쓰는 방법

3.5 Flash는 발표 즉시 일반 사용 가능 상태로 풀렸다. 진입 경로는 네 곳이다.

Gemini 앱 — Android/iOS/웹. 기본 모델이 3.5 Flash로 자동 전환됐다.
Google AI Studio — gemini-3.5-flash 모델 ID 선택. 신규 Managed Agents 토글이 별도로 제공된다.
Antigravity 2.0 데스크톱 앱 — 공식 다운로드 페이지 기준 macOS/Windows/Linux 빌드 제공.
AI Mode in Google Search — 검색창의 “AI Mode” 토글이 활성화된 지역에서 자동 적용.

가장 단순한 API 호출 예시는 다음과 같다.

from google import genai

client = genai.Client(api_key="YOUR_API_KEY")

resp = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="이번 분기 KPI 회의록을 요약하고, 후속 액션 아이템을 표로 정리해 줘.",
)
print(resp.text)

에이전트 모드로 도구 호출까지 자동화하려면 Managed Agents 호출용 별도 엔드포인트인 Interactions API(/v1beta/interactions)를 쓴다. Python SDK에서는 client.interactions.create가 그 진입점이다.

first = client.interactions.create(
    agent="antigravity-preview-05-2026",
    model="gemini-3.5-flash",
    contents="이슈 트래커에서 P0 버그 3개를 확인하고, 후보 패치를 작성해 PR 초안까지 만들어 줘.",
)
print(first.id, first.text)

이어서 같은 작업 흐름을 재개하려면, 직전 호출의 id를 previous_interaction_id로 넘긴다.

follow_up = client.interactions.create(
    agent="antigravity-preview-05-2026",
    model="gemini-3.5-flash",
    contents="첫 번째 PR 초안만 다시 보여 줘. 테스트 실패가 났던 파일을 함께 보고 싶다.",
    previous_interaction_id=first.id,
)

이 흐름이 “resume 가능 세션”의 정체다. 직전 인터랙션에서 만들어진 파일·상태·도구 호출 결과가 같은 environment 안에서 살아 있고, previous_interaction_id만 넘기면 그대로 이어서 호출된다. Antigravity가 광고하는 멀티턴 에이전트 세션이 별도 트릭이 아니라 API 1급 필드로 노출돼 있다는 의미다.

가격은 발표 시점 기준으로 “비교 frontier 모델 대비 절반 이하”로만 표현됐고, 토큰당 정확한 표는 6월 중 AI Studio Pricing 페이지에 반영될 예정이라고 안내됐다. 가격이 확정되면 본 글 하단 출처에 업데이트한다.

개발자가 지금 해야 할 일

기존 3.1 Pro로 돌리던 “에이전트형” 작업(코딩 어시스턴트, 데이터 분석 에이전트, 다단계 워크플로)을 3.5 Flash로 교체해 토큰 비용과 latency를 다시 측정해 보자. 구글 자체 벤치 기준으로는 비용·속도·정확도 모두 개선되는 시나리오가 다수다.
Antigravity 2.0의 Managed Agents API를 시험하자. 자체 에이전트 프레임워크(LangGraph, CrewAI 등)와 비교해서 “세션 상태 유지” 기능이 얼마나 코드를 단순화하는지가 평가 포인트다.
AI Studio의 Android vibe coding 워크플로는 사이드 프로젝트나 사내 툴 프로토타이핑에 적합하다. 풀스택 프로덕션 앱을 만든다기보다, 빠른 검증용 prototyping pipeline으로 보면 된다.
3.5 Pro가 6월 중 출시 예정이다. 현재 3.1 Pro에서 도는 “장기 추론, 복합 분석” 워크로드는 3.5 Pro 출시 후 한 번 더 마이그레이션 검토가 필요하다.

관전 포인트

단기적으로 가장 흥미로운 지표는 “Flash 등급 모델이 frontier 그룹에 진입한 이후 Pro 등급의 차별화 포인트는 무엇인가”다. 구글이 다음 달 내놓을 3.5 Pro가 같은 4배 속도를 유지하면서 어떤 차원에서 더 나아갈지에 따라, Flash와 Pro의 위계 자체가 재정의될 가능성이 있다.

경쟁 진영은 압박을 받는다. Claude Sonnet 4.6을 GDPval에서 추월했다는 메시지는 Anthropic의 가격·성능 라인을 직접 겨눈다. OpenAI도 GPT-5.5 mini/nano 등 저가 라인업 가격을 방어해야 한다.

장기적으로는 “에이전트 하네스를 누가 표준화하느냐”의 싸움이 시작된다. 구글은 Antigravity, OpenAI는 ChatGPT Apps + Operator, Anthropic은 Computer Use + MCP를 각각 밀고 있다. 3.5 Flash + Antigravity 2.0의 조합은 “모델과 하네스를 같은 회사가 함께 최적화하면 어디까지 가는가”라는 새로운 기준선을 던졌다.

정리

3.5 Flash의 진짜 메시지는 “Flash가 Pro를 추월했다”가 아니다. 구글이 모델 등급 체계 자체를 “일반 추론 vs 에이전트 워크로드” 축으로 재정렬하기 시작했다는 신호다. 같은 회사가 같은 키노트에서 3.2 Flash(소비자 제품 임베드)와 3.5 Flash(에이전트 개발자 플랫폼)를 같이 내놓은 이유가 여기에 있다.

48시간 동안 “Flash가 빨라졌다”는 뉴스가 두 번 나왔지만, 두 발표가 의미하는 바는 다르다. 3.2 Flash는 “구글 서비스에 깔리는 AI”의 결승선이었고, 3.5 Flash는 “구글이 만드는 에이전트 시대”의 출발선이다. 본 글이 다룬 deep-dive 항목들은 그 출발선의 모양을 보여 주는 데이터다.

출처

공식

보도·분석

Antigravity Gemini Gemini 3.5 Flash Gemini API Google IO 2026 Managed Agents 에이전트 AI