[논문리뷰] FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
FlashAttention: 빠르고 메모리 효율적인 정확한 Attention 연산제목에서 알 수 있듯이, FlashAttention은 GPU 계층에서 IO를 줄여 빠르고 메모리 효율적인 정확한 Attention 연산을 가능하게 하는 방법을 제시한 논문입니다.Transformer 모델은 자연어 처리, 이미지 분류 등 다양한 응용 분야에서 가장 널리 사용되는 아키텍처로 자리 잡았고, 점점 더 크고 깊어졌습니다. 그러나 여전히 긴 컨텍스트를 처리하는 데 어려움이 있습니다. 이는 Transformer의 self-attention 모듈이 시퀀스 길이에 따라 시간 및 메모리 복잡도가 제곱으로 증가하기 때문에 긴 시퀀스에서 처리 속도가 느리고 메모리 소모가 많기 때문입니다.기존의 Attention 방법들은 계산 복잡..
2026.01.07