카파시는 왜 Anthropic pre-training으로 갔나: Claude가 Claude 연구를 돕는 시대

핵심 요약

Andrej Karpathy가 Anthropic에 합류했다. 발표 기준은 2026년 5월 19일 미국 시간, Axios 보도 시각 2026년 5월 19일 15:38 UTC를 한국 시간으로 바꾸면 2026년 5월 20일 00:38 KST다. Karpathy 본인은 X에 Anthropic에 합류했으며 LLM 프런티어의 다음 몇 년이 특히 중요하다고 밝혔고, Anthropic은 그가 Claude의 pre-training 팀에서 일한다고 확인했다.

이 뉴스는 “OpenAI 공동창업 멤버가 경쟁사로 갔다”는 인물 뉴스로 소비되기 쉽다. 하지만 핵심은 소속보다 역할이다. TechCrunch와 Axios에 따르면 Karpathy는 Anthropic의 pre-training 리드 Nick Joseph 아래에서 일하며, Claude를 활용해 pre-training 연구 자체를 가속하는 팀을 만드는 역할을 맡는다. 즉 “Claude를 더 잘 학습시키기 위해 Claude를 연구 도구로 쓰는 팀”이 생기는 것이다.

Andrej Karpathy의 Anthropic 합류와 Claude pre-training 팀 배치를 요약한 대표 이미지. (이미지: 본 블로그 제작)

기존에 우리가 다룬 Anthropic의 Google TPU 100만 개·다중 인프라 전략 글이 “모델을 돌릴 계산 자원”의 이야기였다면, 이번 글은 “그 계산 자원을 어떤 연구 루프로 바꿀 것인가”의 이야기다. Anthropic은 컴퓨트, 기업 배포, 개발자 플랫폼을 동시에 확장해 왔고, 이제 pre-training 조직에 AI 연구 자동화 경험이 강한 인물을 배치했다. 이 조합이 중요하다.

무슨 일이 있었나

Karpathy는 OpenAI 초기 founding member 중 한 명이다. OpenAI의 2015년 공식 소개 글에도 Trevor Blackwell, Vicki Cheung, Andrej Karpathy, Durk Kingma, John Schulman, Pamela Vagata, Wojciech Zaremba 등이 founding members로 명시돼 있다. 이후 그는 2017년 Tesla로 이동해 Autopilot과 Full Self-Driving 관련 컴퓨터비전 팀을 이끌었고, 2022년 Tesla를 떠났다. 2023년부터 2024년까지는 OpenAI에 다시 합류해 midtraining과 synthetic data generation 팀을 만들었다고 본인 사이트에 적고 있다.

이번 합류에서 눈에 띄는 지점은 직책명이 아니다. Anthropic이 그를 “pre-training”에 붙였다는 점이다. TechCrunch는 Anthropic 대변인을 인용해 Karpathy가 Claude를 활용해 pre-training 연구를 가속하는 팀을 시작한다고 보도했다. VentureBeat도 Anthropic의 Head of Pretraining인 Nicholas Joseph이 X에서 같은 취지의 환영 메시지를 냈다고 전했다.

pre-training은 LLM의 뼈대를 만드는 단계다. 대규모 데이터와 계산 자원을 투입해 모델이 언어, 코드, 수학, 세계 지식의 기본 분포를 학습한다. 이후 post-training, RL, tool-use 튜닝, 안전성 조정이 붙지만, 모델의 기본 한계와 가능성은 pre-training 단계에서 크게 결정된다. Claude가 어떤 문제를 “애초에 생각할 수 있는가”를 좌우하는 층이다.

그래서 이 영입은 제품 매니저나 홍보성 자문 영입이 아니다. Anthropic이 가장 비싸고 가장 깊은 연구 레이어에 Karpathy를 배치했다는 뜻이다.

왜 하필 pre-training인가

AI 경쟁은 겉으로는 모델명과 벤치마크 싸움처럼 보인다. 하지만 프런티어 모델 회사 내부에서는 세 가지 병목이 같이 움직인다. 첫째, GPU·TPU 같은 계산 자원. 둘째, 학습 데이터와 커리큘럼. 셋째, 대규모 학습 실험을 설계하고 실패 원인을 읽어내는 연구자 시간이다.

Anthropic은 첫 번째 병목을 최근 매우 공격적으로 풀고 있다. 2026년 5월 6일 Anthropic은 SpaceX의 Colossus 1 데이터센터 컴퓨트 용량을 활용하는 계약을 발표했고, 이로 인해 300MW 이상, 22만 개 이상의 NVIDIA GPU 용량을 한 달 안에 확보한다고 밝혔다. 같은 발표에서 AWS Trainium, Google TPU, NVIDIA GPU를 모두 사용한다고도 설명했다. 5월 18일에는 Stainless를 인수해 SDK와 MCP 서버 도구 체인을 강화했고, 5월 19일에는 KPMG와 전사적 Claude 도입 파트너십도 발표했다.

계산 자원과 제품 채널은 빠르게 넓어지고 있다. 남는 질문은 이것이다. 이 거대한 자원을 더 좋은 모델로 바꾸는 연구 루프를 얼마나 빨리 돌릴 수 있는가.

Karpathy의 역할은 여기에 들어맞는다. 그는 “새 아키텍처를 하나 발명하는 천재”라는 식의 팬덤적 이미지보다, 모델 학습과 데이터 루프를 실제 시스템으로 만드는 쪽에 더 강한 사람으로 읽힌다. Tesla에서는 실세계 주행 데이터, 라벨링, 학습, 배포가 이어지는 대규모 반복 시스템을 다뤘다. OpenAI 복귀기에는 midtraining과 synthetic data generation 팀을 만들었다고 본인 사이트에 적었다. 교육 콘텐츠에서는 micrograd, makemore, nanoGPT처럼 작은 구현으로 원리를 끝까지 이해하는 방식을 반복해 왔다.

pre-training에서 중요한 것은 더 큰 클러스터만이 아니다. 어떤 데이터를 어떤 순서로 먹일지, 합성 데이터를 어디까지 믿을지, 작은 실험에서 나온 신호를 대형 학습으로 어떻게 확장할지, 중간 checkpoint의 이상 징후를 어떻게 빠르게 찾을지가 중요하다. Karpathy의 강점은 바로 이 “학습 시스템을 투명하게 쪼개 보고 다시 조립하는 감각”에 있다.

Claude로 Claude 연구를 가속한다는 말의 의미

이번 보도에서 가장 중요한 문장은 “using Claude to accelerate pre-training research”다. 이 말은 곧장 “AI가 자기 자신을 완전히 개선한다”는 뜻은 아니다. 그렇게 말하면 과장이다. 더 현실적인 의미는 연구자의 반복 작업 일부를 Claude가 대신하거나, 최소한 훨씬 빠르게 보조한다는 뜻에 가깝다.

예를 들면 이런 작업들이다. 학습 로그와 평가 결과를 읽고 실패 패턴을 분류한다. 데이터 mixture 변경이 어떤 벤치마크에 영향을 줬는지 요약한다. synthetic data 후보를 만들고 품질 검사를 돕는다. 실험 설정 파일과 학습 코드를 점검한다. 작은 규모의 ablation 아이디어를 제안한다. 내부 문서와 이전 실험 기록을 연결해 “이미 해본 실패”를 줄인다.

이런 일들은 하나하나가 대단해 보이지 않지만, pre-training 조직에서는 비용이 매우 크다. 대형 학습 실험은 한 번 잘못 돌리면 시간과 계산 자원이 크게 날아간다. 모델이 실험 설계와 검증의 반복 속도를 높이면, 같은 컴퓨트로 더 많은 후보를 탐색할 수 있다. 여기서 경쟁력이 생긴다.

Anthropic의 최근 모델 전략과도 맞닿아 있다. Claude Code, MCP, Computer Use, Cowork 같은 제품은 모두 “모델이 도구와 시스템 안에서 일을 수행한다”는 방향으로 이어진다. 그런데 그 방향을 내부 연구에도 적용하면, Claude는 고객의 코드를 고치는 도구이면서 동시에 다음 Claude를 만드는 연구 도구가 된다. 이번 Karpathy 합류는 이 내부 전환을 공개적으로 보여주는 신호다.

Anthropic 전략의 세 축: 컴퓨트 확장, 개발자 플랫폼, pre-training 연구 자동화

Anthropic 전략의 세 축인 컴퓨트 확장, 개발자 플랫폼, pre-training 연구 자동화를 정리한 도식. (이미지: 본 블로그 제작)

OpenAI와 Anthropic 사이의 인재 흐름

Karpathy의 이동은 독립 사건이 아니다. Anthropic 자체가 OpenAI 출신 연구자들이 만든 회사이고, 이후에도 OpenAI 출신 핵심 인력이 여러 차례 합류했다. John Schulman, Jan Leike, Durk Kingma 같은 이름은 이미 Anthropic과 연결돼 왔다. 이번 Karpathy 합류가 주목받는 이유는 그가 연구자, 산업 배포 리더, 교육자라는 세 이미지를 동시에 갖고 있기 때문이다.

OpenAI 입장에서 보면 상징성이 크다. Karpathy는 ChatGPT 시대 이후의 OpenAI 대표 제품을 만든 핵심 실무자로 오래 남아 있던 인물은 아니지만, OpenAI의 초기 정체성과 AI 개발자 커뮤니티의 학습 문화에는 강하게 연결돼 있다. 그가 Anthropic의 pre-training 팀으로 간다는 것은 Anthropic이 단순히 “안전한 Claude” 회사가 아니라, 프런티어 모델 연구의 가장 안쪽 레이어에서도 인재를 끌어당기는 회사가 됐다는 신호다.

Anthropic 입장에서는 더 실용적이다. 지금 회사는 두 방향을 동시에 밀고 있다. 바깥쪽에서는 KPMG, PwC 같은 대형 기업 배포와 Claude Code 매출을 키운다. 안쪽에서는 Google, AWS, NVIDIA, SpaceX로 이어지는 대규모 컴퓨트 라인을 확보한다. 이 두 축 사이에 pre-training 연구 자동화 팀이 들어오면, “수요가 늘어 컴퓨트를 늘리고, 컴퓨트가 늘어 더 많은 실험을 하고, 실험 속도가 빨라져 모델 품질을 끌어올리는” 순환이 생긴다.

이 순환이 실제로 작동하면 Claude의 경쟁력은 단일 모델 릴리스가 아니라 조직 학습 속도에서 나온다. OpenAI, Google DeepMind, xAI, Meta가 모두 컴퓨트를 키우는 상황에서, 같은 양의 컴퓨트로 더 좋은 실험을 고르는 능력은 점점 더 중요해진다.

당장 Claude가 좋아진다는 뜻은 아니다

여기서 선을 그어야 한다. Karpathy가 합류했다고 다음 Claude 모델이 곧바로 성능 점프를 한다고 말할 수는 없다. pre-training은 긴 사이클의 일이다. 데이터 설계, 실험, 스케일업, 안전성 평가, 배포까지 이어지려면 시간이 걸린다. 오늘의 영입이 내일의 챗봇 답변 품질로 바로 보이는 일은 거의 없다.

또 하나, “Claude가 Claude를 만든다”는 표현도 조심해야 한다. 현재 확인된 사실은 Claude를 활용해 pre-training 연구를 가속하는 팀을 만든다는 것이다. 이는 연구 보조, 실험 자동화, 문서·코드·평가 분석을 포함할 수 있지만, 완전한 recursive self-improvement가 공식적으로 확인됐다는 뜻은 아니다. Anthropic이 실제 내부 연구 자동화 수준, 모델 접근 범위, 검증 절차를 공개하지 않은 이상 그 선을 넘겨 읽으면 안 된다.

다만 방향은 선명하다. 프런티어 AI 회사의 다음 경쟁은 “누가 더 큰 모델을 한 번 훈련하느냐”에서 “누가 더 빠르게 좋은 실험을 골라 다음 훈련에 반영하느냐”로 이동하고 있다. Karpathy가 맡은 역할은 바로 이 두 번째 경쟁에 가깝다.

독자가 봐야 할 관전 포인트

첫째, Anthropic이 앞으로 pre-training 또는 synthetic data 관련 연구 글을 더 자주 공개하는지 봐야 한다. Karpathy의 공개 커뮤니케이션 성향을 감안하면, 내부 연구의 일부가 논문, 블로그, 강연, 오픈소스 도구 형태로 바깥에 나올 가능성이 있다.

둘째, Claude Code와 내부 연구 자동화가 서로 영향을 주는지 봐야 한다. 내부에서 pre-training 연구를 돕기 위해 만든 도구가 안정화되면, 일부는 개발자용 에이전트 기능이나 Claude API 기능으로 내려올 수 있다. Anthropic이 Stainless를 인수한 것도 이런 도구 연결성을 넓히는 흐름과 맞다.

셋째, 다음 Claude 모델의 성능 변화보다 평가 방식 변화에 주목해야 한다. 단순 MMLU, SWE-bench 같은 공개 벤치마크보다 “모델이 연구자의 시간을 얼마나 줄이는가”, “실험 후보를 얼마나 잘 제안하는가”, “긴 코드·데이터 파이프라인에서 실패를 얼마나 빨리 찾는가” 같은 내부형 지표가 더 중요해질 수 있다.

이번 영입은 스타 연구자 이동 뉴스가 아니다. Anthropic이 “컴퓨트 확장” 다음 단계로 “연구 루프 확장”을 겨냥하고 있다는 신호다. Karpathy가 Claude pre-training에 들어간다는 것은, Claude의 미래가 더 큰 데이터센터만으로 결정되지 않는다는 뜻이기도 하다. 이제 경쟁은 모델을 돌리는 힘뿐 아니라, 모델을 사용해 다음 모델을 더 똑똑하게 설계하는 조직 능력으로 옮겨가고 있다.

출처

Andrej Karpathy X 원문, 2026-05-19: https://x.com/karpathy/status/2056753169888334312
Nicholas Joseph X 원문, 2026-05-19: https://x.com/nickevanjoseph/status/2056760504949842219
Axios, OpenAI co-founder Andrej Karpathy joins Anthropic, 2026-05-19 15:38 UTC: https://www.axios.com/2026/05/19/anthropic-openai-karpathy-andrej-claude
TechCrunch, OpenAI co-founder Andrej Karpathy joins Anthropic’s pre-training team, 2026-05-19: https://techcrunch.com/2026/05/19/openai-co-founder-andrej-karpathy-joins-anthropics-pre-training-team/
VentureBeat, OpenAI co-founder Andrej Karpathy announces he’s joining Anthropic, 2026-05-19: https://venturebeat.com/technology/andrej-karpathy-announces-hes-joining-anthropic
Karpathy 개인 공식 사이트: https://karpathy.ai/
OpenAI 공식, Introducing OpenAI, 2015-12-11: https://openai.com/index/introducing-openai/
Anthropic 공식, Higher usage limits for Claude and a compute deal with SpaceX, 2026-05-06: https://www.anthropic.com/news/higher-limits-spacex
Anthropic 공식, Anthropic acquires Stainless, 2026-05-18: https://www.anthropic.com/news/anthropic-acquires-stainless
Anthropic 공식, KPMG integrates Claude across its core business, 2026-05-19: https://www.anthropic.com/news/anthropic-kpmg

AI 연구 자동화 Andrej Karpathy Anthropic Claude Pretraining 인재전쟁