SimVLM: Simple Visual Language Model Pretraining with Weak Supervision
With recent progress in joint modeling of visual and textual representations, Vision-Language Pretraining (VLP) has achieved impressive performance on many multimodal downstream tasks. However, the requirement for expensive annotations including clean imag
arxiv.org
0. Abstract
Vision-Language Pretraning(VLP) 방법론들은 많은 multimodal downstream task에서 우수한 성능을 보여왔지만, clean 이미지 caption과 regional label이 기존 방법론들의 확장성을 제한하며, 여러 dataset-specific 목적의 도입으로 pretraining을 복잡하게 한다.
본 논문에서는, 이러한 제약을 완화하고 최소한의 pretraining 프레임워크인 Simple Visual Language Model(SimVLM) 모델을 제안한다.
SimVLM은 대규모 weak supervision을 활용함으로써 학습 복잡성을 줄이고, 하나의 language modeling 목적을 end-to-end로 학습된다.
1. Introduction
텍스트 representation pretraining의 영감을 받아, multi-modal 모델을 구축하기 위한 많은 노력들이 있었다.
이미지와 텍스트의 alignment를 포착하기 위해, 이전 방법들은 다양한 출처로부터 두 가지 유형의 human-labeled 데이터셋을 활용하였으며, 일반적으로 다음과 같은 단계로 이루어진다.
1. object detection 데이터셋이 supervised object detector를 학습하기 위해 사용되며, 이는 이미지로부터 ROI를 추출한다.
2. 정렬된 이미지-텍스트 쌍 데이터셋은 융합 모델의 MLM pretraining에 사용되며, 이 모델은 추출된 ROI feature와 텍스트 쌍을 연결하여 입력으로 받는다.
이러한 구조는 pretraining을 복잡하게 하고, language 모델에 비해 zero-shot 능력이 부족하다.
또 다른 방법론은 웹으로부터 수집된 weakly labeled/aligned 데이터를 pretraining에 사용하고, 이미지 classification과 이미지-텍스트 retrieval에서 우수한 성능을 달성과 특정 zero-shot 학습 능력을 달성한다.
그럼에도 불구하고, 이러한 방법론들은 주로 특정 task에 집중하기 때문에, VL 벤치마크를 위한 일반적인 pretraining-finetuning representation으로는 적합하지 않을 수 있다.
기존 기술들의 단점을 고려하여, 본 연구에서는 다음과 같은 VLP 모델을 구축하는 데 관심이 있다.
① pretraining-finetuning 패러다임에 원활하게 적용될 수 있으며 표준 VL 벤치마크에서 경쟁력 있는 성능을 달성할 수 있는 모델
② 복잡한 pretraining 프로토콜을 요구하지 않는 모델
③ cross-modal 설정에서 텍스트 기반 zero-shot 일반화 가능성을 가진 모델
weakly aligned 이미지-텍스트 쌍에서 언어 모델링 목표만을 활용하여 VLP를 단순화한 SimVLM 모델을 제안한다.
SimVLM은 다음과 같은 요소들로 이루어져 있다.
- Objective
Prefix Language Modeling(PrefixLM)이라는 단일 목표로 처음부터 end-to-end로 학습되며, 이는 GPT-3처럼 자연스럽게 텍스트 생성을 할 뿐 아니라 BERT처럼 양방향 문맥 정보를 처리할 수 있다.
- Architecture
프레임워크는 ViT/CoAtNet을 사용하며 raw 이미지를 input으로 받는다. 이러한 모델은 대규모 데이터를 처리할 수 있으며 PrefixLM 목표와 쉽게 호환된다.
- Data
이러한 설정은 object detection에 대한 요구를 줄이고 모델이 대규모 weakly labeled 데이터셋을 활용할 수 있도록 하여 zero-shot 일반화 잠재력을 높인다.
SimVLM은 object detector pretrinnig이나 보조 손실을 필요로 하지 않을 뿐 아니라, 이전 연구보다 더 나은 성능을 얻는다.
본 연구는 generative VLP가 VLP task에서 MLM-based 방법론들과 맞먹을 뿐만 아니라 유망한 zero-shot 잠재력을 입증할 수 있음을 시사한다.
2. Related Work
VLP의 많은 접근법이 object detection을 pretraining 목표의 일부로 요구하는데, 이는 강력한 object detection 모델에 의존하며, human annotated 데이터에서 훈련된다. 이러한 labeled 훈련 데이터를 전제조건으로 사용하는 것은 훈련 파이프라인 구축 비용을 증가시키고, 접근 방식을 덜 확장 가능하게 만든다. 최근 object detectoion 모듈 없이 VLP를 탐구하기도 했으나 소규모의 깨끗한 pretrianing 데이터만을 사용하므로 zero-shot 능력이 제한적이다.
반면, 이미지-텍스트 매칭과 같은 여러 cross-modality 손실 함수가 훈련 목표의 일부로 제안되었다. 이들은 이미지 caption 생성과 maksed language modeling을 포함한 다른 목표와 혼합되어 복합적인 pretraining loss를 형성하는데, 이는 다양한 loss와 데이터셋 간의 균형을 맞추는 어려움을 초래하며, 따라서 최적화 절차를 복잡하게 만든다.
본 연구에서는 raw 이미지 입력만을 사용하고 language modeling loss만을 활용하는 최소한의 접근 방식을 따른다.
대규모 weakly labeled 데이터만을 사용하여 모델을 훈련하고, 생성적 VLP의 한계를 탐구하기 위해 처음부터 pre-trianing을 수행한다.
3. SimVLM
3.1. Background
양방향 Masked Language Modeling(MLM)은 모델이 document에서 손상된 토큰을 복원하도록 훈련된다.
텍스트 시퀀스 $x$에서 토큰 집합 $x_m$이 랜덤으로 샘플링되고, $x_m$ 토큰을 [MASK] 토큰으로 대체함으로써 손상된 시퀀스 $x_{\backslash m}$이 구성된다.
훈련 목표는 문맥 $x_{\backslash m}$으로부터 $x_m$을 재구성하는 것으로, negative log-likelihood를 최소화한다.
이 접근법은 문맥화된 representation을 학습하여 downstream task에서 fine-tuning 될 수 있다.
MLM-style pretraining은 이전 VLP 모델에서 널리 채택되어 왔으며, 입력은 이미지-텍스트 쌍이고 모델은 이미지 ROI feature를 활용하여 마스킹된 토큰을 예측해야 한다.
또한, 단방향 LM은 모델을 훈련시켜 forward autoregressive factorization 아래에서 시퀀스 x의 likelihood를 최대화한다.
LM이 강력한 생성 능력을 제공하여 fine-tuning 없이도 텍스트 기반 zero-shot 일반화를 가능하게 한다.
위에서 언급한 VLP 모델에서 MLM이 표준 접근 방식이 되었으나, 생성적 LM은 충분히 연구되지 않았다.
3.2. Proposed Objective: Prefix Language Modeling
LM loss로 pre-trianing하여 zero-shot 능력을 얻은 것을 바탕으로, 본 연구에서는 Prefix Language Modeling(PrefixLM)을 사용하여 vision-language representation을 pretrain할 것을 제안한다.
PrefixLM은 표준 LM과 달리 predix(접두사) 시퀀스($x_{<T_p}$)에서 양방향 attention을 가능하게 하고, 나머지 토큰($x_{\geq T_p}$)에서만 autoregressive factorization을 수행한다.
pretraining동안, $T_p$길이의 랜덤으로 선택된 접두사 시퀀스가 잘려나가며, 학습 목표는 다음과 같다.
웹 문서에서 이미지는 보통 텍스트보다 앞에 나타나기 때문에, 텍스트 설명의 접두사로 간주될 수 있다.
따라서, 주어진 이미지-텍스트 쌍에서, $T_i$ 길이의 이미지 feature 시퀀스를 텍스트 시퀀스에 추가하고, 길이 $T_p \geq T_i$의 접두사를 샘플링하도록 하여 텍스트 데이터에 대해 LM loss를 계산할 수 있도록 한다.
PrefixLM 모델은 sequence-to-sequence 프레임워크 하에서 MLM처럼 양방향 문맥화 representation을 활용할 뿐만 아니라, LM처럼 텍스트 생성을 수행할 수 있다.
3.3. Architecture
Transformer를 backbone으로 채택한다. 표준 LM과 달리, Prefix LM은 접두사 시퀀스 내에서 양방향 attention을 가능하게 하며, decoder-only 및 encoder-decoder sequence-to-sequence 모델 모두에 적용할 수 있다.
visual modality의 경우, 모델은 원본 이미지 $x \in R^{H \times W \times C}$를 받아 flattened 1D 패치 시퀀스 $x_p \in R^{T_i \times D}$로 변환하여 transformer의 입력으로 사용한다.
$T_i = HW / P^2$는 주어진 패치 크기 P에 대한 이미지 토큰 길이
ResNet의 첫 세 블록으로 구성된 convolution stage를 사용하여 문맥화된 패치를 추출한다.
textual modality의 경우, 입력 문장을 sub-word 토큰으로 토큰화하는 표준 광행을 따르고, 고정된 어휘에 대해 embedding을 학습한다.
위치 정보를 유지하기 위해, 이미지와 텍스트 입력 각각에 1D positional embedding을 추가하며, transformer layer 안에서 이미지 패치에 대해 2D relative attention을 추가한다.
3.4. Datasets
모든 모델 파라미터를 처음부터 대규모의 노이즈가 있는 이미지-텍스트 데이터로 pretrain한다. 이는 zero-shot 일반화에 더 나은 잠재력을 가지고 있다.
이전 VLP 방법들은 두 가지 pretraining 단계와 보조 목표를 포함하지만, 본 모델은 end-to-end로 단일 언어 모델링 loss를 사용하여 pretraining을 사용하므로, Simple Visual Language Model이라는 이름이 붙었다.