본문 바로가기

언어모델3

[논문 리뷰 | 정리] Large Language Diffusion Models Large Language Models, 줄여서 LLMs는 마치 사람이 생각하는 것처럼, 우리의 질문에 대해 다양한 답변을 내놓습니다. 이런 LLMs는 대체로 대량의 텍스트 데이터로 학습이 됩니다. 이 LLMs를 학습하는 방법에는 다양한 방법들이 존재하지만, 공통적으로는 질문을 입력으로 넣고, 출력으로 답변을 도출하도록 학습이 됩니다.  BERT이나 Gemini 같은 모델의 경우, Mask And Reconstruction이라고 하여 일부러 입력 텍스트 일부를 지우고, 그 지워진 텍스트를 복원하는 방식으로 학습이 진행됩니다. 인간처럼 빈 칸을 뚫어 놓고, 그 빈 칸에 들어갈 단어를 찾는 방식으로 학습시키는 방법입니다. 또 다른 방법으로는 Next Token Prediction 방식이 있습니다. 단어 그대.. 2025. 2. 23.
[논문 리뷰 | 정리] Titans: Learning to Memorize at Test Time Google에서 Transformers라는 구조를 발표한 이후로 약 8년간 인공지능 분야는 Transformers가 지배하고 있었습니다. 잘 알려진 ChatGPT 혹은 Gemini부터, 최근에 갑자기 화두에 오른 DeepSeek-R1까지 Transformers가 사용 안 된 모델을 찾기란 쉽지 않습니다. 이 Transformers는 Attention이라는 기술을 이용해서 입력으로 들어오는 모든 글자 사이의 관계를 파악하여 결론을 도출하는 모델입니다. Transformers는 모든 글자 사이의 관계를 파악하기 때문에, 성능이 올라갔습니다.최근 들어 사람들은 엄청나게 긴 문장을 처리하는 인공지능을 원하게 됐습니다. 즉, 많은 토큰 (token)을 처리할 수 있는 인공지능을 선호하게 되었다는 거죠. 여기서 기.. 2025. 2. 18.
DeepSeek-R1 논문 및 원리 파해치기 최근 중국의 DeepSeek-R1이라고 불리우는 LLM이 OpenAI의 o1 모델의 성능을 뛰어 넘었다는 이야기를 들었습니다. 성능 뿐만 아니라 리소스 측면에서도 더 나은 면을 보였죠. 이제 일반인도 DeepSeek-R1에 대해선 다들 알 것이라 생각하여, 이번 포스트에서는 일반인의 접근이 쉽지 않은 DeepSeek-R1의 기술 보고서를 한 번 정리해 보려고 합니다.  이 포스트는 인공지능 대학원생 관점에서 작성됐으며, 기술 보고서의 순서를 최대한 따르도록 작성됐습니다.  들어가며..https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf DeepSeek-R1/DeepSeek_R1.pdf at main · deepseek-ai/DeepSe.. 2025. 1. 28.