AI 시대 슈퍼컴퓨팅: TPU vs. GPU

현대 인공지능은 수백만개의 수식으로 정확히 표현될 수 있다. 일반적으로 이를 행렬 연산이라고 부르는데, GPU와 TPU는 이 행렬 연산을 빠르게 해준다. 흔히 가속기라고 부른다.
올해 초까지만해도 엔비디아의 GPU가 인공지능 가속기로써 많이 사용되었다. 하지만, 인공지능 기업들이 엔비디아의 의존도를 낮추고자 TPU를 고려하고 있다는 얘기에, 이 둘을 필자의 주관에 기반하여 비교하고 경제적 관점에서 장단점을 알아보도록 하고자 한다.
1. 범용성 vs. 특수성
흔히 어떤 물건을 여러 목적으로 사용할 때 범용성이라는 단어를 사용하고, 특정한 목표를 위해 사용할 때 특수성이라는 단어를 사용한다. GPU와 TPU는 인공지능을 가동하는데 사용되지만, 설계 목적이 근본적으로 다르다.
| 구분 | GPU | TPU |
| 목적 | 범용적, 컴퓨터 그래픽 연산 | 텐서(행렬) 연산 |
| 정밀도 | 고정밀 (일반적으로) | 저정밀 (일반적으로) |
| 접근성 | 직접 구매 가능 (일반적으로) | 주로 Google Cloud 임대 혹은 반도체 자체 설계 (일반적으로) |
| 장점 | AI뿐만 아니라 다른 목적(그레픽 작업)에도 활용 가능. | AI 학습 및 추론에서 압도적인 속도 |
| 단점 | 몇몇 AI 구조에서는 TPU보다 전성비가 안 나올 가능성 존재 (일반적으로) | 특수성을 띄기에, 특정 AI 구조가 아니면 최대의 효율을 내기 어려움 (일반적으로) |
GPU는 원래 그래픽 처리를 위해 설계된 가속기다. 하지만, 그래픽 처리 외에도 범용적으로 다른 처리도 할 수 있도록 설계돼 있기에 다양한 구조의 AI를 처음 만들고 실험하는데 최적화되어 있다. 범용적인만큼, 개발자가 다양한 AI 연구를 할 수 있는 원동력이 GPU인 것이다.
GPU는 뭐든 빠르게 동시에(병렬적) 처리할 수 있는 일꾼.
TPU는 행렬 연산 더 나아가 고차원 행렬(텐서) 연산에 특화된 ASIC의 한 종류로 일반적으로 알려져 있다. AI는 90% 이상이 텐서(행렬) 연산으로 이뤄져 있기에, 행렬 연산에 특화된 TPU는 GPU보다 AI 연산에 일반적으로 더욱 빠르고 전력 소모가 작다는 특징이 있다.
TPU는 수학만 전문적으로 빠르고 효율적으로 처리할 수 있는 일꾼.
2. 현 AI 기업이 바라보는 두 가속기

GPU와 TPU의 장단점을 백날 알아도 현 기업들이 이 둘을 어떻게 바라보는지 모른다면 무용지물이 될 것이다. 아래는 필자의 개인적인 관점에서 각 기업들이 바라보는 GPU와 TPU를 정리해 보았다.
NVIDIA 관점
GPU의 범용성과 이 GPU를 쉽게 사용할 수 있는 CUDA라는 도구의 지배력을 강조하여 GPU의 역할을 부각시킨다. CUDA는 쉽고 개방적이라는 장점 하에 일반 개발자와 연구자들 사이에 빠르고 널리 퍼져 있어 새로운 무언가를 만들 때 가장 먼저 찾게 되는 도구이다.
Google 관점
TPU를 자체 클라우드 인프라에 통합시켜 GPU의 의존도를 획기적으로 낮추고 자사의 LLM (Gemini) 학습과 추론 비용을 절감했다. 구글의 TPU는 트랜스포머라는, 현대의 LLM에 많이 사용되는 기술에 특화된 가속기이기에 LLM을 효율적이고 효과적으로 가동시킬 수 있게 한 장본인이라고 할 수도 있다.
스타트업 관점
상황에 따라 다르겠지만, 일반적으로는 GPU를 여전히 선호한다. GPU의 범용성은 자사의 다양한 AI를 빠르게 테스트하기에 적합하며, 현재의 개발자 및 연구자들은 GPU를 기반으로 연구를 진행해 왔기에 친숙한 GPU를 선택할 가능성이 높다. 다만, 한 번 AI의 구조가 결정되면 대규모 프로젝트의 경우, 구글 TPU의 높은 가성비를 선택지로 고려할 가능성이 높다.
그 외 기업
다른 기업들은 GPU의 독점 시장에 대응하기 위해 TPU로 갈아 타려는 경향을 최근에 보이고 있다. 일반적으로 AI 거대 기업들은 잘 확립된 자사 AI 모델이 있기에, 출시될 제품에는 범용적 GPU보다는 특수성 TPU를 선택하는 것이 비용적으로 훌륭한 선택지이다. 다만, 이런 AI 기업들도 새로운 모델을 연구하기 때문에 완전한 탈 GPU는 어려울 것으로 생각된다.
3. 경제적인 관점에서 비교
GPU와 TPU를 단순히 성능적 측면으로 비교하는 것은 옳지 못하다. 필자는 여러 질문을 통해 이 둘을 다양한 각도에서 하고자 한다.
초기 비용은 어떻게 될까?
GPU와 TPU에대한 접근성은 명확하다.
- GPU 칩 자체는 매우 높으며, 초기 투자 비용이 막대하다. 하지만, 그 범용성으로 인해 초기 AI 개발 및 연구에 일반적으로는 효과적이다. 또한 기존 개발자 및 연구자들이 CUDA(GPU 가동 프로그램)에 익숙하기에 추가적인 교육이나 비용 지불 없이도 GPU를 쉽게 활용하고 최적화할 수 있다.
- TPU는 일반적으로 구글 클라우드에서 임대하는 방식이고, 사용량에 따라 비용 청구를 하기에 일반적으로는 초기 투자 비용이 낮다. 같은 맥락으로 설비 관리 비용이 따로 들지는 않기에 설비 관리로 인한 비용을 아낄 수 있다. 하지만, 구글 인프라에 묶이는 종속 비용이 발생할 가능성이 있다. 또한 기존 연구자와 개발자는 TPU에 익숙하지 않기에 추가적인 교육과 비용 지불이 발생할 수 있다.
- 일부 기업은 TPU를 자체적으로 제작하려는 것으로 보인다. 이는 엔비디아와 구글 모두에게서 벗어나려는 시도로 보이지만, TPU(ASIC) 자체를 설계하고 성능을 높이고 양산하는 것은 어마어마한 초기 비용이 들며 실패할 수 있다는 위험 부담이 있다.
AI 가동 비용은?
모든 초기 개발(AI 개발, TPU 자체 제작 등)을 마치고 가동하는 측면으로 본다면, TPU가 압도적이라고 생각된다. 인공지능 가동 비용에서 전력이 차지하는 비율은 압도적으로 높다. TPU는 전력 대비 성능이 좋은데, 이는 곧 같은 결과를 얻을 때 TPU를 사용하면 비용이 적게 든다는 것이다.
유지 보수 비용은?
인공지능 서비스 유지 비용의 상당수는 위에서 언급한 AI 가동 비용이 차지한다. 물론 버그 수정 등의 부가적인 비용이 있겠지만, 이는 AI 구조 자체를 수정하지는 않는다. 동일한 구조의 AI를 유지시키고 보수하는데 있어 TPU의 장점은 부각된다.
그럼 GPU는 돈 먹는 하마 아닌가?
아니다. 앞선 질문들은 어디까지나 개발이 완료된 AI를 사용할 때의 이야기다. 기업들은 서로 경쟁하며 더 나은 서비스를 위해 새로운 AI를 개발하고 연구한다. 요즘에는 로봇에도 AI를 도입하려고 한다. 이런 다양하고 빠르게 바뀌는 연구&개발 단계의 AI에는 TPU보다는 범용적인 GPU가 나은 선택이다.
TPU는 이미 개발된 AI를 전력 효율적이고 대규모로 가동하는데 최적화 되어 있어 범용적인 개발 생태계까 GPU만큼은 좋지 못하다는 것이 필자의 생각이다.
결국 개발 vs. 서비스 구도로.
결국 관점은 개발이냐 서비스냐로 나눌 수 있다. 개발 단계에서는 다양한 구조의 AI가 나올 수 있고 빠르게 테스트하기 위해 엄청난 양의 범용 GPU가 사용된다. 반면, 한 번 개발이 완료되어 단일 모델을 대규모로 구동시킬 때는 TPU가 사용된다.
개인적으로 필자는 개발하는데 연산량이 많이 필요하다 느껴 여전히 많은 양의 GPU가 필요하다 생각한다. 이는 사람마다 다르게 생각할 수 있기에 독자들의 판단에 맡기겠다.
4. TPU는 GPU를 완전히 대체할 것인가?

앞선 내용을 기반으로 결론은 내리자면, 아니다에 가깝다. 개발이 완료된 AI를 대규모로 가동하는데 있어서는 TPU가 중요한 자리에 위치하겠지만, 개발 중인 다양한 AI를 테스트하는데 있어서 GPU는 여전히 굳건한 자리를 잡고 있다.
GPU와 TPU의 목적이 다르기에 서로 공존하며 시장을 확대할 것이다.
GPU와 TPU 특징 요약
GPU (Graphics Processing Unit)
- 범용성: 그래픽 처리뿐만 아니라 다양한 연산을 병렬적으로 빠르게 처리할 수 있는 가속기. 다양한 구조의 AI를 실험하고 설계하는데 최적화.
- 접근성 및 생태계: CUDA와 같은 강력하고 친숙한 개발 도구가 보편화되어 있어, 연구자와 개발자가 따로 공부할 필요가 없음. 모델을 연구할 때 진입 장벽이 낮음.
- 최적 활용 단계: 다양하고 빠르게 변화하는 새로운 AI 모델을 테스트하는 연구 및 초기 개발(R&D) 단계에 필수적.
- 한계점: 칩 자체의 가격이 매우 비싸 막대한 초기 투자 비용이 발생. 특정 연산에서는 TPU 대비 전력 효율이 떨어질 수 있음.
TPU (Tensor Processing Unit)
- 특수성: 행렬(텐서) 연산에 특화된 ASIC으로, AI 연산의 90% 이상을 차지하는 행렬 연산을 빠르고 효율적으로 처리함.
- 경제적 강점: 전력 대비 성능(전성비)이 뛰어나 대규모 AI 서비스 가동 시 운영 비용 절감에 유리하며, 주로 클라우드 임대 방식이라 초기 설비 투자 비용이 낮음. 다만, 자체 TPU를 설계하는 경우 초기에는 전력 외에 대부분의 장점은 사라질 것으로 생각됨.
- 최적 활용 단계: 개발이 완료된 안정적 단일 모델(특히 LLM 등)을 대규모로 배포하고 서비스하는 단계에 적합.
- 한계점: 범용성이 낮아 개발 단계에서 상대적으로 효율을 내기 어려울 것으로 예쌍되며, 구글 클라우드 인프라에 종속될 가능성이 존재. TPU 자체를 설계할 경우, 초기에 막대한 비용과 시간 투자가 필요하며 실패에 대한 위험을 감수해야 함. 또한 CUDA 생태계에 친숙한 기존 개발자에게 추가적인 교육 비용이 발생할 수 있음.
'인공지능 이야기' 카테고리의 다른 글
| [리뷰] 생각하는 기계: Continuous Thought Machines (0) | 2026.01.25 |
|---|---|
| [Google DeepMind] 뇌과학에서 영감을 받은 구글 딥마인드의 Perceiver (0) | 2025.12.13 |
| 피지컬 AI: 육체적 노동도 이젠 인공지능의 영역으로. (0) | 2025.12.11 |
| 에이전틱 AI 시대, 당신의 생상성은 10배가 될 수 있을까? (0) | 2025.12.10 |
| Auto Capture based on VLM의 원리를 추측해 보자 (0) | 2025.07.09 |