본문 바로가기

LLM2

[Google DeepMind] 뇌과학에서 영감을 받은 구글 딥마인드의 Perceiver 트랜스포머라는 인공지능 모듈의 등장 이후로 Gemini, ChatGPT 등의 초거대 모델들이 우리 시대를 집어삼키고 있다. 이 모델들은 발전에 발전을 거듭하여 단순히 글자를 받는 단계를 넘어 이미지, 비디오 파일까지 모든 것을 처리할 수 있다. 하지만 여기에는 치명적인 문제가 있다. 이러한 이미지나 비디오는 고용량 데이터고 방대하다는 것이다. 고해상도 이미지 한 장은 족히 10MB는 넘어가고, 1분짜리 비디오는 이보다 훨씬 더 용량이 크다. 기존 트랜스포머는 이 모든 입력 데이터을 N개의 여러 조각으로 분해하여 분석하는데, 문제는 N개의 조각과 N개의 조각 모두를 비교하기에 계산량을 감당할 수 없게 된다. 흔히 Self-Attention이라는 모듈의 한계가 여기서 들어가는 것이다. 어떻게 엄청난 데이터.. 2025. 12. 13.
[논문 리뷰 | 정리] Titans: Learning to Memorize at Test Time Google에서 Transformers라는 구조를 발표한 이후로 약 8년간 인공지능 분야는 Transformers가 지배하고 있었습니다. 잘 알려진 ChatGPT 혹은 Gemini부터, 최근에 갑자기 화두에 오른 DeepSeek-R1까지 Transformers가 사용 안 된 모델을 찾기란 쉽지 않습니다. 이 Transformers는 Attention이라는 기술을 이용해서 입력으로 들어오는 모든 글자 사이의 관계를 파악하여 결론을 도출하는 모델입니다. Transformers는 모든 글자 사이의 관계를 파악하기 때문에, 성능이 올라갔습니다.최근 들어 사람들은 엄청나게 긴 문장을 처리하는 인공지능을 원하게 됐습니다. 즉, 많은 토큰 (token)을 처리할 수 있는 인공지능을 선호하게 되었다는 거죠. 여기서 기.. 2025. 2. 18.