TPU 8i의 달러당 성능 80% 향상은 언제부터 적용되나요?

구글은 TPU 8i의 GA(정식 출시)를 2026년 중 예정으로 발표했습니다. 현재는 프리뷰 단계이므로 가격 체계와 적용 시점은 GA 발표를 통해 확인해야 합니다.

AI·자동화

구글 TPU 8i, 달러당 성능 80% 향상 — LLM 추론 비용 전략 어떻게 바뀌나

kokojj 2026. 5. 5. 10:00

구글 TPU 8i, 달러당 성능 80% 향상 — LLM 추론 비용 전략 어떻게 바뀌나

Q: TPU 8t와 8i 중 어느 것이 내 서비스에 맞나요?

에이전트 추론, API 서빙, 실시간 응답이 주라면 TPU 8i가 적합합니다. 수백억~수천억 파라미터 모델의 사전 학습, 대규모 파인튜닝, 단일 메모리 풀에서 복잡한 모델 전체를 실행해야 한다면 TPU 8t입니다.

Q: 기존 TPU v5 사용자는 마이그레이션이 필요한가요?

당장 필수는 아닙니다. 추론 워크로드를 대규모로 운영 중이라면 8i GA 시점을 기준으로 비용 절감 타당성 검토를 미리 시작하는 것이 합리적입니다.

Q: NVIDIA GPU와 TPU를 혼용할 수 있나요?

구글이 NVIDIA Vera Rubin GPU를 Google Cloud에서 Virgo 네트워크와 함께 제공하기로 했으며, 동일 클라우드 환경 안에서 구글 칩과 GPU를 워크로드별로 선택할 수 있습니다.

Q: FP4 네이티브 연산 지원은 무엇을 의미하나요?

FP4(4비트 부동소수점)를 Matrix Multiply Unit에서 네이티브로 지원하면, 양자화 모델의 학습·실행 효율이 소프트웨어 변환 없이 하드웨어 수준에서 최적화됩니다.

2026년 05월 04일

· TPU 8i · TPU 8t · LLM 추론 비용 전략

LLM 추론 비용·인프라 선택에 실제로 영향을 주는가
TPU 8t vs TPU 8i — 무엇이 어떻게 다른가
핵심 수치로 보는 8세대 TPU 성능 변화
구글 인프라 전략의 변화 — TPU 독점에서 다중 하드웨어로
자주 묻는 질문

한 줄 요약

TPU 8i는 동일 비용 대비 추론 처리량 약 2배로 LLM 서빙 비용 전략에 즉각 영향을 주며, TPU 8t는 초대형 모델 학습·실행 전용으로 역할이 분리되어 인프라 선택 기준도 워크로드 유형에 따라 이원화할 것을 권장합니다.
달러당 성능 80% 향상(8i 기준)이라는 수치는 동일 예산으로 약 2배의 추론 트래픽을 처리할 수 있다는 뜻이며, 이는 LLM API 서빙 단가를 결정하는 핵심 변수입니다.
현재 v5 기반 인프라를 운영 중이라면 2026년 GA 시점을 기준으로 8i로의 마이그레이션 타당성 검토를 미리 시작하는 것이 합리적입니다.

Google Cloud Next '26에서 구글은 8세대 구글 칩 2종(8t·8i)을 공개했습니다. 발표의 핵심은 단순한 성능 업그레이드가 아니라, 학습과 추론을 별도 칩으로 분리하는 아키텍처 전략 전환입니다.

LLM 서빙 인프라를 운영하는 개발자 입장에서 이 발표가 중요한 이유는 달러당 성능과 지연 시간 수치가 실제 서비스 비용 계획에 직접 연결되기 때문입니다. 사실, 훈련과 저지연 추론의 연산 프로파일이 단일 아키텍처로 최적 처리하기 어려운 수준으로 분기했다는 업계 분석이 이미 나와 있습니다.

LLM 추론 비용·인프라 선택에 실제로 영향을 주는가

결론부터 말씀드리면 — 추론 워크로드에는 8i 칩이 즉각적인 비용 개선 옵션이고, 초대형 모델 학습이나 복잡한 연구 실험에는 8t 칩이 별도 선택지입니다. 두 칩을 혼동해서 쓰면 오히려 비용이 늘어납니다.

핵심 — 에이전트 기반 LLM 서빙(빠른 응답, 고처리량)이라면 8i 칩 선택. 수백억~수천억 파라미터 모델의 대규모 학습·파인튜닝이라면 8t 칩 선택. 이 두 갈림길이 이번 발표의 실질적 의미입니다.

왜 이런 이원화가 필요해졌을까요? LLM이 에이전트 형태로 진화하면서 추론 요청의 빈도와 지연 민감도가 급격히 높아졌습니다. 기존처럼 학습과 추론을 동일 하드웨어로 처리하는 방식은 비용 최적화 한계에 부딪혔고, 구글은 두 연산 프로파일을 아예 다른 칩으로 분리하는 방식을 선택했습니다.

TPU 8t vs TPU 8i — 무엇이 어떻게 다른가

쉽게 말하면 — TPU 8t는 "거대한 창고"처럼 엄청난 메모리로 모델 전체를 한 번에 담아 학습하는 칩이고, TPU 8i는 "빠른 배달 오토바이"처럼 작은 요청을 최소 지연으로 처리하는 추론 전용 칩입니다.

두 칩은 설계 목표부터 다릅니다. 8t 칩은 단일 슈퍼팟이 9,600칩 규모로 확장되며, 2 페타바이트의 공유 HBM에 모델 전체를 올려두고 처리합니다. 반면 8i 칩은 온칩 SRAM과 ICI 대역폭을 극대화해 토큰 하나하나를 최소 지연으로 생성하는 데 집중합니다.

항목	TPU 8t (학습·대형 모델 전용)	TPU 8i (에이전트 추론 전용)
설계 목표	대규모 학습, 대형 메모리 모델 실행	저지연 추론, 에이전트 멀티스텝 워크플로
최대 클러스터 규모	슈퍼팟 9,600칩 / 100만 칩 근선형 확장	개별 노드 최적화 (지연 최소화)
메모리	2 PB 공유 HBM (단일 슈퍼팟)	HBM 288 GB (이전 대비 50% 증가)
온칩 SRAM	미공개	384 MB (이전 세대 대비 3배)
핵심 가속 기술	Matrix Multiply Unit, FP4 네이티브 연산, Axion Arm CPU	Collectives Acceleration Engine, Boardfly 아키텍처
비용 효율	학습 비용 최적화 (규모 경제)	달러당 성능 80% 향상, 동일 비용 2배 트래픽

용어 — Collectives Acceleration Engine (CAE)
분산 연산 시 여러 칩 사이에서 데이터를 주고받는 "집합 통신(collective communication)" 작업을 하드웨어 수준에서 가속하는 전용 엔진입니다. 이 엔진 덕분에 8i 칩은 온칩 지연을 최대 5배 줄일 수 있습니다.

Boardfly 아키텍처는 8i 칩에 도입된 네트워크 토폴로지로, 칩 간 연결 경로(네트워크 직경)를 기존 대비 50% 이상 축소합니다. 쉽게 말하면 데이터가 목적지까지 거치는 "중간 경유지"가 절반으로 줄어드는 것입니다. 이 구조가 ICI(Inter-Chip Interconnect) 대역폭 2배 향상과 맞물려 추론 지연을 크게 낮춥니다.

핵심 수치로 보는 8세대 TPU 성능 변화

구글 공식 발표와 기술 상세 자료를 기준으로 발표된 주요 수치는 다음과 같습니다. 꽤 인상적인 수치들이지만, 실측 환경에 따라 달라질 수 있으므로 참고 기준으로 활용하는 것이 합리적입니다.

8t 슈퍼팟 총 컴퓨팅: 121 ExaFlops (9,600칩 기준)
8t 공유 HBM: 2 페타바이트 (단일 슈퍼팟)
8t 칩 이전 세대 대비: 팟당 컴퓨팅 성능 약 3배, 스토리지 접근 속도 10배, 인터칩 대역폭 2배 향상
8t goodput 목표: 97% 이상 (실질 생산 컴퓨팅 비율), 100만 칩 근선형 스케일링
8i 온칩 SRAM: 384 MB (이전 세대 대비 3배)
8i HBM: 288 GB (이전 대비 50% 증가)
8i ICI 대역폭: 19.2 Tb/s (이전 세대 대비 2배)
8i 온칩 지연: 최대 5배 감소 (Collectives Acceleration Engine 적용)
8i 달러당 성능: 이전 세대 대비 80% 향상, 동일 비용으로 약 2배 트래픽 처리 가능

알아두기 — goodput(굿풋)은 "실제 유용한 작업에 쓰인 컴퓨팅 비율"입니다. 97% 이상이라는 목표는 하드웨어 오류나 재시작으로 낭비되는 시간을 3% 이하로 억제하겠다는 뜻으로, 대규모 학습 클러스터에서 매우 중요한 지표입니다.

이 수치들이 실질적으로 의미하는 바는 — LLM API 서빙 비용의 주요 구성 요소인 "토큰당 컴퓨팅 비용"이 8i 기반 인프라에서 절반 수준으로 낮아질 수 있다는 것입니다. 다만 실제 절감 폭은 모델 크기, 배치 크기, 요청 패턴에 따라 다를 수 있습니다.

구글 인프라 전략의 변화 — TPU 독점에서 다중 하드웨어로

이번 발표에서 주목할 또 다른 변화는 구글이 NVIDIA Vera Rubin GPU를 Google Cloud에서 Virgo 네트워크와 함께 제공한다는 점입니다. 이는 "8세대 칩만 쓰세요"에서 "구글 칩이든 GPU든 워크로드에 맞게 선택하세요"로의 전략 전환을 의미합니다.

Futurum Group의 분석에 따르면, 이 "인프라 무관(agnostic)" 전략은 개발자가 동일 Google Cloud 환경 안에서 구글 칩과 GPU를 혼합해 선택할 수 있는 유연성을 제공합니다. 결국 클라우드 공급자 락인을 우려하던 기업 고객에게도 열린 선택지를 제시하는 것입니다.

주의 — 8t·8i 두 칩 모두 2026년 중 GA(정식 출시) 예정이며, 현 시점에서는 프리뷰 단계입니다. 가격 책정과 정확한 출시 일정은 GA 발표 때까지 미확정이므로 인프라 계획 수립 시 이 점을 감안해야 합니다.

8세대 구글 칩 2종은 Google DeepMind와의 공동 설계(co-design)로 개발되었으며, 구글이 "full-stack purpose-built infrastructure"라 부르는 전략의 일환입니다. AI 모델 개발팀과 하드웨어 팀이 함께 설계했다는 것은 모델 최적화와 하드웨어 특성이 처음부터 맞물려 있다는 뜻으로, 서드파티 GPU 대비 특정 워크로드에서 유리한 성능을 낼 수 있는 이유이기도 합니다.

자주 묻는 질문

빠른 선택 가이드 —

에이전트 추론·API 서빙 중심 → 8i 칩 선택 (달러당 성능 80% 향상)
대형 모델 사전 학습·파인튜닝 중심 → 8t 칩 선택 (121 ExaFlops, 2PB HBM)
현 시점(GA 전) → 프리뷰 신청 후 실측 비용 확인 후 결정 권장

Q. TPU 8t와 8i 중 어느 것이 내 서비스에 맞나요?

워크로드 유형으로 판단하면 됩니다. 에이전트 추론, API 서빙, 실시간 응답이 주라면 8i 칩이 적합합니다. 수백억~수천억 파라미터 모델의 사전 학습, 대규모 파인튜닝, 단일 메모리 풀에서 복잡한 모델 전체를 실행해야 한다면 8t 칩입니다. 두 용도를 혼용하면 비용 최적화 효과가 줄어들 수 있습니다.

Q. 8i의 달러당 성능 80% 향상은 언제부터 적용되나요?

구글은 8i 칩의 GA(정식 출시)를 2026년 중 예정으로 발표했습니다. 현재는 프리뷰 단계이므로, 가격 체계와 적용 시점의 정확한 일정은 GA 발표를 통해 확인해야 합니다. 구글 공식 블로그의 업데이트를 추적하는 것이 가장 정확한 방법입니다.

Q. 기존 v5 사용자는 마이그레이션이 필요한가요?

당장 필수는 아닙니다. 다만 추론 워크로드를 대규모로 운영 중이라면 8i GA 시점을 기준으로 비용 절감 타당성 검토를 미리 시작하는 것이 합리적입니다. 달러당 성능 향상 폭이 트래픽 규모에 비례하기 때문에, 서비스 규모가 클수록 마이그레이션 ROI가 높습니다.

Q. NVIDIA GPU와 구글 칩을 혼용할 수 있나요?

구글의 이번 발표가 바로 이 가능성을 열어주는 것입니다. NVIDIA Vera Rubin GPU를 Google Cloud에서 Virgo 네트워크와 함께 제공하기로 했으며, 동일 클라우드 환경 안에서 구글 칩과 GPU를 워크로드별로 선택할 수 있습니다. 다만 혼용 아키텍처 설계는 데이터 전송 비용과 지연을 고려해 신중하게 검토해야 합니다.

Q. FP4 네이티브 연산 지원은 무엇을 의미하나요?

FP4(4비트 부동소수점)는 숫자 하나를 4비트로 표현하는 저정밀도 수치 형식입니다. 모델 가중치를 FP4로 양자화하면 메모리 사용량과 연산 비용이 크게 줄어듭니다. 8t 칩의 Matrix Multiply Unit이 FP4를 네이티브로 지원한다는 것은 양자화 모델의 학습·실행 효율이 소프트웨어 변환 없이 하드웨어 수준에서 최적화된다는 의미입니다.

이번 8세대 칩 발표의 핵심은 "더 빠른 칩"이 아니라 "워크로드별 최적 칩 선택의 이원화"입니다. 에이전트 서비스의 추론 비용을 줄이고 싶다면 8i GA를, 초대형 모델 연구를 확장하려면 8t를 각각의 타임라인으로 추적하는 것이 합리적입니다.

팀 상황에 따라 다를 수 있지만 — 현재 추론 서빙에 비용 부담을 느끼는 팀이라면 8i 프리뷰 신청을 검토할 만하고, 대규모 기초 모델 학습이 계획에 있는 팀이라면 8t의 슈퍼팟 구성 옵션을 미리 살펴보는 것이 다음 단계입니다. 어느 쪽이든 GA 전까지는 공식 가격 발표와 실측 벤치마크를 함께 모니터링하는 것을 권장합니다.