[논문리뷰] CogVLM: Visual Expert for Pretrained Language Models
이번에는 칭화대(Tsinghua University)에서 공개한 CogVLM에 대해 리뷰를 시작하겠습니다.마찬가지로 사진으로 올린 피피티는 제가 직접 작성한 피피입니다. CogVLM은 오픈 소스 Visual Language 모델로, 기존의 shallow alignment 방식에는 한계가 있었습니다. 이 방식에서는 이미지 특징을 텍스트 모델의 입력 공간으로 매핑하는데, 시각적 특징과 언어 모델 간의 직접적인 대응 관계가 부족하여 성능에 한계를 보였습니다.CogVLM은 이를 해결하기 위해 학습 가능한 visual expert 모듈을 도입하였습니다. 이 모듈을 통해 이미지 인코더와 고정된 사전 훈련된 언어 모델 간의 격차를 줄여, 성능 저하 없이 비전-텍스트 특징의 깊은 융합(Deep Fusion)을 가능하게..
2026.01.07