트랜스포머라는 인공지능 모듈의 등장 이후로 Gemini, ChatGPT 등의 초거대 모델들이 우리 시대를 집어삼키고 있다. 이 모델들은 발전에 발전을 거듭하여 단순히 글자를 받는 단계를 넘어 이미지, 비디오 파일까지 모든 것을 처리할 수 있다. 하지만 여기에는 치명적인 문제가 있다. 이러한 이미지나 비디오는 고용량 데이터고 방대하다는 것이다.
고해상도 이미지 한 장은 족히 10MB는 넘어가고, 1분짜리 비디오는 이보다 훨씬 더 용량이 크다. 기존 트랜스포머는 이 모든 입력 데이터을 N개의 여러 조각으로 분해하여 분석하는데, 문제는 N개의 조각과 N개의 조각 모두를 비교하기에 계산량을 감당할 수 없게 된다. 흔히 Self-Attention이라는 모듈의 한계가 여기서 들어가는 것이다.
어떻게 엄청난 데이터를 효율적으로 처리할 수 있을까?
현대의 모델들은 당연히 이런 고용량 데이터를 효율적으로 처리하도록 설계돼 있다. 그 중에서 구글 딥마인드는 이 난제를 해결하기 위해 인간의 뇌, 그중에서도 의식이 어떻게 작동하는지 주목했다. Perceiver 모델은 뇌와 유사한, 일종의 생물 모방형 모델인 것이다.
뇌 과학 이론이 어떻게 최첨단 AI로 구현되었는지, 그리고 Perceiver가 현재 핫한 멀티모달 AI의 핵심 부품으로 진화했는지 알아볼 예정이다. 단순히 뇌의 신경망을 컴퓨터로 구현한 것이 Neural Network이다 이런 소리를 하는 글은 아니다.
뇌의 중앙 통제실 (Global Workspace Theory)

Perceiver 모델을 이해하기 위해선 이론적 배경인 GWT(Global Workspace Theory)를 먼저 알아보고자 한다. 이 복잡한 이론을 쉽게 이해해 보기 위해 다음과 같은 비유를 생각해 보자.
- 수많은 일반 부서원들 (감각 신경 정보): 우리의 감각 기관은 여러 신경으로 이뤄져 있다. 이를 회사로 치면 수많은 일반 부서원들이 상주하는 것과 같다. 예를 들어, 우리 눈에는 약 100만 개의 시신경이 존재한다. 즉, 눈으로 무언가를 본다는 건 100만 명의 지원이 각자 보고서를 들고 있는 것과 같다.
- 소수 정예 회의실 (Global Workspace): 이 거대한 부서 옆에는 소수 정예 요원들만 출입할 수 있는 별도의 회의실이 있다.
GWT의 핵심은 의도적으로 만든 효율적인 병목이다. 100만 명 개개인의 의견을 다 듣고 회사를 운영하는 것이 아니라, 소수 정예 요원들이 100만 명의 의견 중 지금 중요한 것만 압축 요약하여 보고를 받고, 그 요원들의 논의를 통해 운영된다. 즉, 수많은 정보에서 핵심 정보만을 추출해 처리하는 방식이다.
Perceiver: 코드로 구현

구글 딥마인드는 이 소수 정예 회의실 아이디어를 Perceiver라는 AI 모델로 구현한다.
기존 트랜스포머의 문제: 수많은 부서원들 사이에 정보 처리
기존 방식(self-attention)은 100만 명의 부서원들 사이에서 일일이 의견을 주고 받는다. 즉, 100만 명이 100만 명과 의견을 주고 받는 것과 동일하다. 의견이 많아지면 쓸데없는 잡담이 오고가거나 오류가 생기기 마련이다. (100만 x 100만 연산 필요)
Perceiver 방법: 소수 정예 주도로 진행
Perceiver는 100만 명의 의견을 그대로 쓰지 않는다. 대신 100만 명의 의견을 소수 정예 요원들에게 압축 요약하여 전달한다. 그 다음 소수 정예 요원들끼리 의견을 주고 받는다.
- 요원 배치 (Latent Arrary 초기화): N명의 정예 요원을 회의실에 배치시킨다.
- 정보 수집 (Cross-Attention): 요원들은 100만 명이 위치한 부서로 가서 중요한 정보가 무엇인지 질문(Query)한다. 이 과정에서 100만 명의 의견이 N개의 의견으로 압축된다. (100만 x N 연산)
- 정보 분석 (Self-Attention): 회의실에 모인 N명의 요원들끼리만 심도 깊은 토론을 하고 정보를 조합한다. (N x N 연산)
Perceiver는 데이터 처리를 정보 수집과 분석 단계로 나눔으로써 입력 데이터 처리와 모델의 사고 과정을 명시적으로 분리했다. 이로 인해 이미지나 오디오 같이 가공되지 않은 거대한 데이터에서 중요한 정보만을 추출하여 사고할 수 있는 모델이 되었다.
Percever Resampler: 하나의 부서를 넘어 다른 부서 간으로

앞서 Perceiver는 하나의 부서 내에서 동작하는 방법이었다. 하지만, 시대가 변함에 따라 하나의 부서뿐만 아니라 여러 다른 부서(이미지, 오디오, 텍스트 등) 간의 정보를 주고 받는 것또한 중요해졌다. 흔히 멀티모달이라고 불리는 모델이다.
최신 AI는 [눈 + 뇌] 구조로 돼 있다. 여기서 눈은 Vision Encoder, 뇌는 LLM을 의미한다. 하지만, 눈이 보는 정보가 너무 많아 뇌에 과부하가 걸리는 문제가 발생한다. 즉, Vision Encoder의 데이터가 너무 많아 LLM의 토큰을 다 잡아먹는다는 의미다. 이때 Perceiver의 핵심만 떼어낸 Perceiver Resampler가 등장한다.
Perceiver가 소수 정예 요원이라면, Perceiver Resampler는 소수 정예 통역사에 가깝다. 이 방식은 입력 이미지가 아무리 커도, LLM에게는 항상 일정하게 압축된 고품질의 정보만을 전달한다.
- 통역사: 뇌와 눈 사이에 N명의 소수 정예 통역사를 배치시킨다. 이 요원들이 눈(Vision Encoder)에서 얻은 100만 개의 정보를 N개로 요약하여 뇌(LLM)으로 넘겨준다.
구글의 수많은 최신 모델들이 이 기법을 사용하고 있으며, Resampler인 이유는 가변적인 입력 개수를 고정된 개수로 다시 샘플링해주기 때문이다.
중요한 이유
- 효율적인 자원 사용: 현대의 컴퓨터는 속도의 한계가 있으며, 데이터를 효율적으로 처리해야 한다. 고해상도 이미지나 긴 비디오를 처리할 때, 병목 구조는 필수적이다. 전체를 다 보지 않고 핵심만 선별하여 연산량을 조절할 수 있기 때문이다.
- 멀티모달의 가능성: 어떤 형태의 데이터든 Raw 데이터를 서로 통합하는 것이 아닌, 통역사가 중계하는 정보를 분석하는 방법이다.
'인공지능 이야기' 카테고리의 다른 글
| [리뷰] 생각하는 기계: Continuous Thought Machines (0) | 2026.01.25 |
|---|---|
| TPU vs. GPU: GPU는 끝인가? (0) | 2025.12.12 |
| 피지컬 AI: 육체적 노동도 이젠 인공지능의 영역으로. (0) | 2025.12.11 |
| 에이전틱 AI 시대, 당신의 생상성은 10배가 될 수 있을까? (0) | 2025.12.10 |
| Auto Capture based on VLM의 원리를 추측해 보자 (0) | 2025.07.09 |