AI 이슈 2026.05.20

Anthropic, Google TPU 100만 개를 산다: Claude 인프라 이전이 사용자에게 의미하는 것

Anthropic, Google TPU 100만 개를 산다: Claude 인프라 이전이 사용자에게 의미하는 것

한 줄 요약

Anthropic이 Google Cloud로부터 최대 100만 개의 7세대 TPU(코드네임 Ironwood)와 1GW 이상 규모의 전력 용량을 확보했다. 계약 규모는 “수백억 달러”로 보도됐고, 가동 시점은 2026년이다. 이 거래는 두 가지를 동시에 의미한다. 하나, Claude의 추론과 학습 일부가 NVIDIA GPU 한 축이 아니라 Google TPU·AWS Trainium·NVIDIA GPU 세 축으로 분산된다는 것. 둘, 사용자 입장에서는 응답 속도, 가용성, 가격 정책에 중기적으로 변화가 따라온다는 것이다.

출처: Anthropic 공식 — Expanding our use of Google Cloud TPUs and Services, Google Cloud Press — Anthropic to Expand Use of Google Cloud TPUs and Services, Google blog — Ironwood TPU and the age of inference, Google Cloud blog — Ironwood TPUs and new Axion-based VMs.

Anthropic이 Google TPU 100만 개를 사들였다 — 1 GW 규모, 2026년 가동. 좌측 Anthropic, 우측 Google Cloud가 합류하는 구도의 와이드 비주얼

무슨 일이 일어났나 — 숫자부터 정리

2025년 10월 23일 양사 공동 보도자료로 처음 공개된 거래의 골자는 이렇다.

  • TPU 칩 수: 최대 100만 개 (up to 1 million TPUs)
  • 전력 용량: 2026년 안에 1GW 이상 (well over a gigawatt of capacity online in 2026)
  • 계약 규모: “수백억 달러대(tens of billions of dollars)”로 양사 공식 확인
  • TPU 세대: Ironwood, Google의 7세대 TPU이자 첫 “추론 우선” 설계
  • 가동 시점: 2026년
  • 양사 관계: 2023년 전략적 파트너십 이후의 대규모 확장

“Anthropic and Google have a longstanding partnership and this latest expansion will help us continue to grow the compute we need to define the frontier of AI.”
— Krishna Rao, CFO, Anthropic (Google Cloud Press Release, 2025-10-23)

“Anthropic’s choice to significantly expand its usage of TPUs reflects the strong price-performance and efficiency its teams have seen with TPUs for several years.”
— Thomas Kurian, CEO, Google Cloud

Anthropic은 같은 발표에서 “30만 비즈니스 고객, 연 매출 10만 달러 이상 대형 계정은 1년 새 7배 가까이 증가”라는 자체 수요 데이터를 함께 공개했다. 즉 이 계약은 “전망형 확장”이 아니라 이미 수요가 인프라를 추월한 상태에서 나온 응급 보강에 가깝다.

여기에 더해 2026년에는 후속 거래가 추가로 보도됐다. 두 갈래다. 첫째, 2026년 4월 24일 Alphabet이 Anthropic에 최대 400억 달러를 “현금 + 컴퓨트” 형태로 투자하면서 향후 5년간 5GW 규모의 Google TPU 용량을 전용 할당한다는 발표가 나왔다(CNBC 2026-04-24, TechCrunch 2026-04-24). 둘째, 그보다 보름 앞선 2026년 4월 6일에는 Broadcom을 중간자로 둔 별도 라인을 통해 2027년부터 추가 3.5GW의 Google TPU 용량을 Anthropic에 공급한다는 발표가 같이 나왔다(CNBC 2026-04-06, Tom’s Hardware 2026-04-06). 본문에서는 2025년 10월 양사가 직접 발표한 “100만 칩 / 1GW / 2026”까지만 확정 사실로 다루고, 2026년 4월의 400억 달러·5GW·3.5GW 숫자는 매체 보도 인용으로 표시한다.

왜 하필 Ironwood인가 — “age of inference”의 칩

Google이 Ironwood를 공개하며 내건 문구가 “age of inference”다. 학습이 아니라 추론을 1차 목표로 설계한 첫 TPU 세대라는 뜻이다. Anthropic이 이 칩을 100만 개 단위로 사들이는 이유도 거기에 있다. Claude의 매출과 비용을 결정하는 변수는 점점 학습이 아니라 “초당 토큰을 얼마나 싸게, 얼마나 안정적으로 뿜어내느냐”로 옮겨가고 있기 때문이다.

Ironwood의 공식 스펙은 다음과 같다.

항목 Ironwood (7세대) Trillium (6세대) 대비
칩당 피크 연산 4,614 TFLOPs 약 10배 (v5p 대비)
칩당 HBM 192 GB 6배
HBM 대역폭 7.37 TB/s 4.5배
칩 간 ICI 대역폭 1.2 TB/s 양방향 (포드 9.6 Tb/s) 1.5배
슈퍼팟 최대 규모 9,216 칩
슈퍼팟 합산 연산 42.5 ExaFLOPS 세계 최대 슈퍼컴 대비 24배
슈퍼팟 공유 HBM 1.77 PB
전력 효율 Trillium 대비 2배 1세대 TPU 대비 약 30배
냉각 액체 냉각, 3세대 CDU

출처: Google blog — Ironwood TPU, Google Cloud blog.

Ironwood vs Trillium 세대별 스펙 비교 — HBM 용량, 대역폭, Superpod 연산 성능, 전력 효율. 본 블로그 제작, 수치 출처: Google blog Ironwood TPU.

3개 Ironwood TPU 보드가 액체 냉각 라인으로 연결된 실물 — 이미지: Google Cloud blog (2025)

추론 워크로드 관점에서 진짜 의미 있는 숫자는 두 가지다. 첫째, 칩당 192GB HBM. 대형 모델 가중치를 한 칩에 더 많이 올릴 수 있다는 뜻이고, 분산 추론 시 노드 간 통신 횟수가 줄어든다. 둘째, 9,216 칩이 1.77PB의 HBM을 공유하는 슈퍼팟 구조. 긴 컨텍스트, 멀티모달, 에이전트 워크플로 같이 메모리에 부담을 주는 사용 사례에서 지연시간이 떨어진다.

Anthropic의 컴퓨트 책임자도 같은 포인트를 짚는다.

“Ironwood’s improvements in both inference performance and training scalability will help us scale efficiently while maintaining the speed and reliability our customers expect.”
— James Bradbury, Head of Compute, Anthropic (Google Cloud blog)

“속도와 안정성”이 키워드로 등장한 것이 우리 사용자 입장에서 가장 직접적인 신호다.

Claude 사용자가 체감할 변화 — 응답 속도, 가격, 가용성

여기가 글의 본론이다. 인프라 계약은 추상적으로 들리지만, 결국 우리가 결제하고 쓰는 Claude 앱·Console·API에 다음 세 가지로 나타난다.

1. 응답 지연(latency)과 “말 끊김” 감소

지난 1년 동안 Claude 헤비 유저들이 가장 자주 호소한 문제가 출시 직후 며칠과 트래픽 피크 시간대의 응답 지연, 그리고 “Claude is currently overloaded” 류의 거부였다. Anthropic 스스로 발표에서 “대형 계정이 1년 새 7배 가까이 증가했다”고 밝힌 이상, 기존 GPU 풀만으로는 더 이상 감당이 안 된다.

Ironwood의 슈퍼팟 구조와 192GB HBM은 추론 단계에서 분산 통신과 메모리 압박을 크게 줄여 준다. 곧장 “토큰당 응답 시간”이 줄어드는 효과로 이어진다. 사용자 입장에서 가장 먼저 보이는 변화는 다음이다.

  • 긴 컨텍스트를 줬을 때 첫 토큰 나오기까지의 대기(TTFT)가 짧아진다.
  • 동시 접속 피크 때 503/오버로드 메시지를 만날 확률이 떨어진다.
  • Claude Code, Claude Skills, 에이전트 류처럼 다단계로 호출이 이어지는 워크플로의 누적 지연이 줄어든다.

다만 단서를 달아야 한다. Ironwood 가동은 “2026년 중”이고 100만 칩은 “단계적 도입”이다. 사용자 체감 변화는 한 번의 공지로 점프하지 않고, 분기 단위로 천천히 누적된다.

2. 가격 — 인상보다 “tier 신설”과 “캐시 가격 조정” 가능성

TPU는 동일 추론 작업당 전력·달러 효율에서 NVIDIA GPU 대비 유리하다는 평가를 받아 왔다. 이번 거래로 Anthropic의 단위 추론 원가가 내려갈 여지가 생긴다. 그러나 사용자 가격이 그대로 내려간다고 단정하기는 이르다.

현실적인 시나리오는 이렇다.

  • 기존 Claude Sonnet·Opus 가격은 큰 변동 없이 유지되되, 캐시 적중 가격(prompt caching) 비율과 한도, 컨텍스트 윈도 가격이 더 공격적으로 조정될 가능성.
  • 추론 비용 부담이 큰 Skills·Code·Agents 워크플로 대상의 새 사용 등급(Pro Max, Power 등) 또는 정액 한도 확장.
  • 기업 고객용 Vertex AI 채널에서 TPU 기반 가격표가 별도 라인으로 등장.

요지는 “직접 인하”보다 “쓸수록 유리한 구조”로 옮겨갈 가능성이 높다는 것이다. 인프라가 늘었다고 단가 인하를 약속한 발표는 아직 어느 쪽도 한 적 없다는 점은 정직하게 짚어 두자.

3. 가용성과 지역(region) 확장

1GW급 신규 용량은 단일 데이터센터로 묶일 수 없는 규모다. Google Cloud의 기존 TPU 리전(미국 중심)에 더해 추가 리전으로 확장될 가능성이 높고, 이는 글로벌 사용자의 체감 지연과 데이터 주권(EU/한국 등) 옵션에 직접 영향을 준다. 특히 Claude를 Vertex AI 채널로 끌어와 운영하는 한국 기업에는 “서울 리전에서 Ironwood TPU 기반으로 Claude를 호출”하는 옵션이 현실화될 여지가 생긴다.

NVIDIA 단일 의존 시대의 끝 — 세 축 시대로

이 거래의 업계적 의미를 한 단어로 줄이면 “탈NVIDIA”가 아니라 “3축화”다. Anthropic 본인이 발표에서 못박았다. TPU 확장이 곧 NVIDIA 또는 AWS 이탈을 뜻하지는 않으며, 세 축을 모두 적극 운영한다는 메시지다.

Anthropic 멀티클라우드 3축 구조 — 중앙에 Anthropic/Claude, 외곽에 AWS Trainium(Project Rainier), Google TPU(Ironwood), NVIDIA GPU 채널이 동시에 연결되는 형태

  • AWS Trainium 축: Project Rainier 기반. 2026년 한 해에만 1GW 규모의 Trainium2/Trainium3 용량, 100만 칩 수준의 학습 풀이 운영 중이라는 보도가 이어지고 있다(Data Center Frontier).
  • Google TPU 축: 이번 거래의 100만 Ironwood, 1GW+. 2026년 4월 추가 보도로 “5년간 최대 400억 달러 + 5GW 전용 용량”(CNBC 2026-04-24), 그리고 Broadcom 라인을 거쳐 2027년부터 추가 3.5GW가 더 들어오는 안(Tom’s Hardware 2026-04-06)이 함께 알려졌다.
  • NVIDIA GPU 축: 기존 H100·B200·GB200 풀과 신규 클러스터, Microsoft Azure 채널과 결합한 보강.

핵심 비교 대상은 OpenAI의 Stargate다. OpenAI가 단일 거대 인프라 베팅으로 가는 사이, Anthropic은 세 공급선을 동시에 묶어 “한 곳이 막혀도 다른 두 곳으로 워크로드를 옮길 수 있는 구조”를 굳히고 있다. NVIDIA 공급이 빡빡해질 때마다 가격이 흔들렸던 지난 2년의 패턴을 떠올리면, 사용자 입장에서도 멀티칩 전략이 안정적인 서비스로 환원될 가능성이 크다.

이는 곧 NVIDIA 단일 의존 시대의 사실상의 종료를 보여주는 가장 큰 시그널이다. Trillium·Ironwood, Trainium2/3, Instinct MI 시리즈, 자체 ASIC까지 “모델 회사가 칩을 고른다”의 시대가 본격화된다.

Google ↔ Anthropic 관계 — 투자자에서 사실상 동맹으로

이 거래를 단순한 클라우드 구매로 읽으면 그림이 안 그려진다. Google은 Anthropic의 주요 투자자다. 그 위에 “수백억 달러짜리 컴퓨트 공급 계약”과 “추가 400억 달러 투자 보도”까지 얹히면, 두 회사의 관계는 사실상 전략적 동맹에 가까워진다.

이게 만들어내는 비대칭은 다음과 같다.

  • Anthropic은 NVIDIA·AWS·Google 사이에서 가격 협상력을 키운다.
  • Google은 Anthropic을 Ironwood의 가장 큰 레퍼런스 고객으로 세워 “TPU도 프런티어 추론에서 통한다”는 신호를 시장에 보낸다. 같은 발표에 등장한 Lightricks, Essential AI 같은 고객 사례는 그 신호를 보강하는 위성 인용이다.
  • Google Cloud는 Anthropic의 폭증하는 토큰 수요를 자기 매출로 환산하면서, AWS·Azure를 상대로 한 AI 인프라 경쟁의 뒷심을 확보한다.

투자자 관계와 공급자 관계가 한 회사 안에서 겹친 구조라, 두 회사의 이해가 같은 방향으로 정렬돼 있다. Anthropic이 새 모델을 빨리 띄울수록 TPU 매출이 늘고, TPU가 더 좋아질수록 Anthropic이 더 싸게 모델을 돌릴 수 있다. 사용자 입장에서는 “Claude의 차기 세대 출시 주기가 더 일정해질 가능성”으로 이어진다.

정직하게 짚어둘 불확실성

마지막으로, 분위기에 휩쓸리지 않기 위해 양사 공식 발표가 “명시하지 않은” 부분들을 짚어 둔다.

  • 100만 칩은 “up to(최대)” 표현이다. 단일 시점에 100만 칩이 일제히 가동된다는 뜻이 아니다. 양사는 단계적 도입, 2026년 1GW+ 가동을 함께 못박았을 뿐 칩 수의 분기별 분배는 공개하지 않았다.
  • “수백억 달러”는 양사가 직접 확인한 표현이지만 정확한 금액·지급 구조는 비공개다.
  • 2026년 4월에 보도된 “Google 추가 400억 달러 투자 + 5년간 5GW 전용 용량” 안은 양사 공식 발표 형식이 아니라 CNBC 2026-04-24, TechCrunch 2026-04-24 등 매체 보도에 기반한 수치다. 같은 흐름에서 “2027년부터 Broadcom 경유 3.5GW 추가” 안도 CNBC 2026-04-06, Tom’s Hardware 2026-04-06 보도가 1차 출처다. 본문에서는 별도 표기로 다뤘다.
  • 사용자 가격 인하나 신규 region 출시는 양사가 어느 쪽도 명시한 적이 없다. 이 글의 “체감 변화” 섹션은 인프라 변화의 합리적 함의를 정리한 것이지, 일정과 가격이 약속됐다는 뜻이 아니다.

사용자가 챙겨볼 지점

세 가지만 골라 정리한다.

  • Claude의 응답 지연·오버로드 빈도가 분기별로 어떻게 바뀌는지 체감 단위로 지켜보자. 2026년 중반~연말이 1차 변곡점이다.
  • Anthropic이 새 사용 등급, 캐시 가격, Skills/Code 한도 정책을 손볼 가능성이 있다. 변화가 보이면 결제 전에 단위 비용을 다시 계산하자.
  • Vertex AI를 통한 Claude 도입을 검토 중이라면, Ironwood 기반 추론 가격표가 별도로 등장하는지가 관전 포인트다. 동일 모델이라도 채널에 따라 단가가 달라질 수 있는 구간이 생긴다.

결국 이 거래는 “Claude의 다음 1년이 어디서 돌아가는가”에 대한 답이다. NVIDIA GPU가 단일 정답이던 시대는 끝났고, Anthropic은 Google TPU, AWS Trainium, NVIDIA GPU를 동시에 굴리며 “용량과 가격을 협상으로 풀 수 있는 회사”가 됐다. 우리가 다음에 결제할 Claude의 속도·가격·안정성은 이 세 축이 얼마나 잘 맞물려 돌아가느냐로 결정된다.


이미지 출처: Ironwood TPU 비교 인포그래픽은 Google blog 공식 수치를 바탕으로 본 블로그가 자체 제작했고, Ironwood 보드 실물은 Google Cloud blog 이미지를 보도 인용했다. 그 외 hero·멀티클라우드 다이어그램·featured 이미지는 본 블로그가 자체 생성.

참고 자료

공유

Threads X