LLM(2)
-
[논문리뷰] FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
FlashAttention: 빠르고 메모리 효율적인 정확한 Attention 연산제목에서 알 수 있듯이, FlashAttention은 GPU 계층에서 IO를 줄여 빠르고 메모리 효율적인 정확한 Attention 연산을 가능하게 하는 방법을 제시한 논문입니다.Transformer 모델은 자연어 처리, 이미지 분류 등 다양한 응용 분야에서 가장 널리 사용되는 아키텍처로 자리 잡았고, 점점 더 크고 깊어졌습니다. 그러나 여전히 긴 컨텍스트를 처리하는 데 어려움이 있습니다. 이는 Transformer의 self-attention 모듈이 시퀀스 길이에 따라 시간 및 메모리 복잡도가 제곱으로 증가하기 때문에 긴 시퀀스에서 처리 속도가 느리고 메모리 소모가 많기 때문입니다.기존의 Attention 방법들은 계산 복잡..
2026.01.07 -
[논문리뷰] CogVLM: Visual Expert for Pretrained Language Models
이번에는 칭화대(Tsinghua University)에서 공개한 CogVLM에 대해 리뷰를 시작하겠습니다.마찬가지로 사진으로 올린 피피티는 제가 직접 작성한 피피입니다. CogVLM은 오픈 소스 Visual Language 모델로, 기존의 shallow alignment 방식에는 한계가 있었습니다. 이 방식에서는 이미지 특징을 텍스트 모델의 입력 공간으로 매핑하는데, 시각적 특징과 언어 모델 간의 직접적인 대응 관계가 부족하여 성능에 한계를 보였습니다.CogVLM은 이를 해결하기 위해 학습 가능한 visual expert 모듈을 도입하였습니다. 이 모듈을 통해 이미지 인코더와 고정된 사전 훈련된 언어 모델 간의 격차를 줄여, 성능 저하 없이 비전-텍스트 특징의 깊은 융합(Deep Fusion)을 가능하게..
2026.01.07