Notice
Recent Posts
Recent Comments
Link
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
Tags
more
Archives
Today
Total
관리 메뉴

Trikang

[Large Language Model 논문 정리] MINIGPT-4: ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE LANGUAGE MODELS 본문

공부/ML

[Large Language Model 논문 정리] MINIGPT-4: ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE LANGUAGE MODELS

Trikang 2024. 4. 4. 02:47

MiniGPT-4는 처음에 4개의 A100 GPU에서 256 배치 크기를 사용하여 20,000 번의 학습을 진행하며, LAION, Conceptual Captions, SBU의 이미지를 포함하는 combined image captioning dataset을 활용하여 visual features를 Vicuna language model과 align한다.

 

그럼에도 불구하고, 단지 LLM과 visual features를 align하는 것으로는 챗봇처럼 강력한 visual conversation(시각적 대화) 기능을 보장하기에는 불충분하다. raw 이미지-텍스트 쌍에 기본 노이즈가 있으면 언어 출력이 수준 이하로 떨어질 수 있다. 따라서 생성된 언어의 자연스러움과 사용성을 개선하기 위해 3,500개의 상세한 image-text pairs을 추가로 수집하여 designed conversational template으로 모델을 더 fine-tune한다.

 

MiniGPT-4는 GPT-4에서 보여준 능력(generate intricate image descriptions, create websites based on handwritten text instructions, and explain unusual visual phenomena 등)과 함께 GPT-4 데모에서 보여주지 않았던 아주 흥미로운 능력들(directly generate detailed cooking recipes from food photos, write stories or poems inspired by images, write advertisements for products in images, identify problems shown in photos and provide corresponding solutions, and retrieve rich facts about people, movies, or art directly from images 등)을 보여줬다.

 

1. Introduction

최근 몇 년 동안 대규모 언어 모델(LLM)은 급속도로 발전해 왔다. 뛰어난 언어 이해 능력을 갖춘 이 모델들은 다양하고 복잡한 언어 작업을 제로 샷 방식으로 수행할 수 있다. 특히 대규모 멀티모달 모델인 GPT-4는 최근 도입되어 시각 언어 이해 및 생성에 대한 몇 가지 인상적인 기능을 시연했다. 예를 들어, GPT-4는 상세하고 정확한 이미지 설명을 생성하고, 특이한 시각 현상을 설명하며, 심지어 손으로 쓴 텍스트 지침을 기반으로 웹사이트를 구성할 수 있다. GPT-4는 놀라운 시각 언어 능력을 보여줬지만, 그 뛰어난 능력의 비결은 아직 미스터리로 남아있다. 이러한 놀라운 능력은 보다 발전된 대규모 언어 모델(LLM)의 활용에서 비롯된 것으로 추정된다. LLM은 GPT-3의 few-shot prompt setup과 Wei et al. (2022)의 연구 결과에서 입증된 것처럼 다양한 신흥 능력을 보여줬다. 이러한 신생의(창발적인?) 특성은 소규모 모델에서는 찾아보기 어렵다. 이러한 신흥 능력은 multi-modal 모델에도 적용 가능하며, 이는 GPT-4의 인상적인 시각적 설명 기능의 기반이 될 수 있다고 추측된다.

 

가설을 입증하기 위해 MiniGPT-4라는 새로운 시각 언어 모델을 제시한다. 이 모델은 고급 대규모 언어 모델(LLM)인 Vicuna를 활용하는데, 이는 LLaMA를 기반으로 구축되었으며 GPT-4의 평가에 따르면 ChatGPT의 90%의 품질을 달성한다고 보고된 언어 디코더로 사용된다. 시각적 인식 측면에서는 EVA-CLIP의 ViT-G/14와 Q-Former 네트워크로 구성된 BLIP-2의 사전 학습된 비전 구성 요소와 동일한 것을 사용한다. MiniGPT-4는 인코딩된 시각적 특징을 비쿠나 언어 모델에 align하기 위해 single projection layer를 추가하고 다른 모든 비전 및 언어 구성 요소를 freeze한다.

 

MiniGPT-4는 처음에 4개의 A100 GPU에서 256개의 배치 크기를 사용하여 2만 단계로 훈련되며, LAION, Conceptual Captions, SBU의 이미지를 포함하는 통합 이미지 캡션 데이터 세트를 활용하여 visual features을를Vicuna 언어 모델과 align한다. 하지만 단순히 시각적 특징을 언어 모델(LLM)에 맞추는 것만으로는 챗봇과 유사한 강력한 시각적 대화 기능을 보장하기에 충분하지 않다. raw 이미지-텍스트 쌍에 기본 노이즈가 존재하면 언어 출력의 수준이 떨어질 수 있다. 따라서 생성된 언어의 자연스러움과 사용성을 개선하기 위해 3,500개의 상세한 이미지 설명 쌍을 추가로 수집하여 설계된 대화 템플릿으로 모델을 더욱 세밀하게 finetune한다.

 

실험을 통해 MiniGPT-4는 GPT-4가 보여준 것과 유사한 수많은 기능을 가지고 있음을 발견했다. 예를 들어, MiniGPT-4는 복잡한 이미지 설명을 생성하고, 손으로 쓴 텍스트 지침을 기반으로 웹사이트를 만들고, 특이한 시각적 현상을 설명할 수 있다. 또한, 연구 결과 MiniGPT-4에는 GPT-4 데모에서 보여주지 않은 다양하고 흥미로운 능력도 있다는 사실이 밝혀졌다. 예를 들어, MiniGPT-4는 음식 사진에서 상세한 요리 레시피를 직접 생성하고, 이미지에서 영감을 받아 이야기나 시를 쓰고, 이미지에서 제품 광고를 작성하고, 사진에 나타난 문제를 파악하고 그에 맞는 해결책을 제시하고, 이미지에서 인물, 영화 또는 예술에 대한 풍부한 정보를 직접 검색하는 등의 기능을 제공한다. 이러한 능력은 덜 강력한 언어 모델을 사용하는 이전의 비전 언어 모델인 Kosmos-1)과 BLIP-2에는 없는 기능이다. 이는 시각적 기능을 고급 언어 모델과 통합하는 것이 비전 언어 모델을 향상시키는 핵심 요소 중 하나임을 입증한다.

 

주요 연구 결과를 요약해보자면

  • 해당 연구는 visual features와 Vicuna 같은 advanced large language models와 aligning 함으로써 MiniGPT-4가 GPT-4 데모에서 보여준 것과 비슷한 advanced vision-language 능력을 달성할 수 있음을 설득력 있는 증거를 통해 보여준다.
  • 연구 결과에 따르면 단 하나의 projection layer만 학습해도 pretrained vision encoder를 large language model에 효과적으로 align 할 수 있다. MiniGPT-4는 4개의 A100 GPU에서 약 10시간만 훈련하면 된다.
  • 짧은 이미지 캡션 쌍을 사용하여 visual features를 large language models에 align하는 것만으로는 성능이 우수한 모델을 개발하는 데 충분하지 않으며, 자연스러운 언어 생성을 이끌어낼 수 없다는 사실을 발견했다. 작지만 상세한 image 설명 pair로 추가적인 finetuning을 하면 이러한 한계를 해결하고 사용성을 크게 향상시킬 수 있다.

2. Related Works

Large language models

대규모 언어 모델은 최근 몇 년 동안 학습 데이터의 규모와 매개변수 수의 증가로 인해 엄청난 성공을 거두었다. BERT, GPT-2, T5와 같은 초기 모델이 이러한 발전의 토대를 마련했다. 그 후 1,750억 개에 달하는 방대한 규모의 파라미터를 갖춘 GPT-3가 도입되어 수많은 언어 벤치마크에서 획기적인 발전을 이루었다. 이러한 발전은 MegatronTuring NLG, Chinchilla, PaLM, OPT, BLOOM, LLaMA 등 다양한 다른 대규모 언어 모델의 탄생에 영감을 주었다. Wei et al 은 대형 모델에서만 나타나는 몇 가지 새로운 능력을 추가로 발견했다. 이러한 능력의 출현은 대규모 언어 모델 개발에서 스케일업의 중요성을 강조한다. 또한, 사전 학습된 대규모 언어 모델 GPT-3을 인간의 의도, 지시 및 인간의 피드백과 연계하여 사람과 대화형 상호작용을 가능하게 하고 다양하고 복잡한 질문에 답할 수 있는 InstructGPT와 ChatGPT가 등장했다. 최근에는 Alpaca, Vicuna 등 여러 오픈소스 모델도 LLaMA를 기반으로 개발되었으며 유사한 성능을 보여준다.

 

Leveraging Pre-trained LLMs in Vision-Language Tasks

최근에는 vision-language tasks 에서 autoregressive language model을 디코더로 사용하는 경향이 크게 주목받고 있다. 이 접근 방식은 모달 간 전달(cross-modal transfer)을 활용하여 언어와 multimodal domains 간에 지식을 공유할 수 있도록 한다. 시각 언어 모델 디코더로 사전 학습된 언어 모델을 사용하는 것의 이점을 입증한 선구적인 연구로는 VisualGPT와 Frozen이 있다. 그 후 Flamingo는 gated cross-attentio을 사용하여 사전 훈련된 비전 인코더와 언어 모델을 정렬하도록 개발되었으며, 수십억 개의 이미지-텍스트 쌍을 학습하여 인상적인 상황 내 소수 샷 학습 기능을 보여주었다. 그 후, 시각적 특징을 언어 모델에 효율적으로 정렬하기 위해 Flan-T5와 Q-Former를 사용하는 BLIP-2가 도입되었다. 가장 최근에는 5,620억 개의 파라미터를 갖춘 PaLM-E가 개발되어 real-world continuous sensor modalities를 LLM에 통합함으로써 실제 인식과 인간 언어 간의 연결을 구축할 수 있게 되었습니다. 방대한 양의 이미지-텍스트 데이터를 사전 학습한 후 더욱 강력한 시각적 이해와 추론 능력을 보여주는 GPT-4도 최근 출시되었다. 

ChatGPT와 같은 LLM은 다른 전문 모델(specialized models)과의 협업을 통해 시각 언어 작업의 성능을 향상시키는 강력한 도구임이 입증되었다. 예를 들어 Visual ChatGPT와 MM-REACT는 ChatGPT가 다양한 시각 기반 모델과 통합하고 협업을 촉진하여 더 복잡한 문제를 해결하는 코디네이터 역할을 할 수 있는 방법을 보여준다. ChatCaptioner는 ChatGPT를 질문자로 취급하여 BLIP-2가 답변할 다양한 질문을 유도한다. ChatGPT는 여러 차례의 대화를 통해 BLIP-2에서 시각 정보를 추출하고 이미지 콘텐츠를 효과적으로 요약한다. Video ChatCaptione는 이 접근 방식을 확장하여 비디오 시공간 이해에 적용한다. ViperGPT는 복잡한 시각 쿼리를 프로그래밍 방식으로 처리하기 위해 LLM을 다양한 비전 모델과 결합할 수 있는 가능성을 보여준다. 이와 대조적으로 MiniGPT-4는 시각 정보를 언어 모델에 직접 정렬하여 외부 비전 모델을 사용하지 않고도 다양한 비전-언어 작업을 수행할 수 있다.


3. Method

 

MiniGPT-4는 사전 학습된 vision encoder의 시각 정보(visual information)를 advanced LLM과 align하는 것을 목표로 한다. 특히, 해당 모델은 언어 디코더로 Vicuna(Chiang et al., 2023)를 활용하고 있으며, 이는 LLaMA(Touvron et al., 2023)를 기반으로 구축되어 광범위하고 복잡한 언어 작업을 수행할 수 있다. 시각 인식(visual perception)을 위해 사전 학습된 Q-Former와 결합된 ViT 백본인 BLIP-2(Li et al., 2023)에 사용된 것과 동일한 Visual encoder를 사용한다. language와 vision model 모두 오픈 소스이다. 해당 모델은 linear projection layer를 사용하여 visual encoder와 LLM 사이의 간극을 메우는 것을 목표로 하며, Fig. 1에 모델 개요가 소개되어 있다.

 

논문에서는 효과적인 MiniGPT-4를 구현하기 위해 2단계 훈련 접근법을 제안한다. 첫 번째 단계에서는 vision-language 지식을 습득하기 위해 aligned image-text pairs의 대규모 컬렉션으로 모델을 pretraining 한다. 두 번째 단계에서는 생성에 관한 신뢰성과 유용성을 높이기 위해 설계된 대화 템플릿(designed conversational template)을 사용하여 더 작지만 고품질의 image-text dataset으로 사전 훈련된 모델을 finetune한다.

 

3.1 First pretraining stage

첫 번째 단계에서 해당 모델은 aligned image-text pairs의 대규모 컬렉션에서 vision-language knowledge를 습득하도록 설계되었다. 주입된(injected) projection layer의 출력을 LLM에 대한 soft prompt로 간주하여 해당 ground-truth text를 생성하도록 유도한다. 전체 pretraining process를 통틀어서 vision encoder, LLM은 frozen 상태이며, 오직 linear projection layer만 사전 학습된다.

 

Issues of the first pretraining stage

첫 번째 사전 학습 단계를 거친 후, MiniGPT-4는 풍부한 지식을 보유하고 사람의 질문에 합리적인 답변을 제공할 수 있는 능력을 보여주었다. 하지만 반복되는 단어나 문장, 단편적인 문장, 관련 없는 내용 등 일관성 없는 언어적 결과물을 생성하는 경우가 관찰되었다. 이러한 문제는 MiniGPT-4가 사람과 유창한 시각적 대화(visual conversation)를 나누는 데 방해가 된다.

 

GPT-3에서도 비슷한 문제가 발생했다. 방대한 언어 데이터 세트에 대한 사전 학습에도 불구하고 GPT-3는 사용자의 의도와 정확하게 일치하는 언어 출력을 생성하는 데 어려움을 겪고 있다. 인간의 피드백을 통한 인스트럭션 fine-tuning 및 강화 학습 과정을 통해 GPT-3는 GPT-3.5로 진화하여 보다 인간 친화적인 결과물을 생성할 수 있게 되었다. 이러한 현상은 initial pretraining stage를 거친 MiniGPT-4의 현재 상태와 유사하다. 따라서 이 단계에서 모델이 유창하고 자연스러운 인간 언어 결과물을 생성하는 데 어려움을 겪는 것은 놀라운 일이 아니다.

 

3.2 Curating a high-quality alignment dataset for vision-language domain

생성된 언어의 자연스러움을 높이고 모델의 사용성을 향상시키기 위해서는 2단계 정렬 프로세스가 필수적이다. NLP 영역에서는 instruction fine-tuning datasets(Taori et al., 2023)와 conversations(sha, 2023)에 쉽게 접근할 수 있지만, 시각 언어 영역(vision-language domain)에는 이와 유사한 dataset이 존재하지 않는다. 이러한 부족함을 해결하기 위해 저자들은 vision-language alignment를 위해 특별히 맞춤화된 detailed image description dataset을 신중하게 큐레이션했다. 이 dataset은 이후 2단계 alignment 과정에서 MiniGPT-4를 fine-tune 하는데 활용된다.

 

Initial aligned image-text generation

초기 단계에서는 첫 번째 사전 학습 단계에서 도출된 모델을 사용하여 입력 이미지에 대한 포괄적인 설명을 생성한다. 모델이 보다 상세한 이미지 설명을 생성할 수 있도록 하기 위해 아래와 같이 Vicuna(Chiang et al., 2023) 언어 모델의 대화 형식을 따르는 프롬프트를 설계했다. 이 프롬프트에서 <ImageFeature>는 linear projectrion layer에서 생성된 visual features를 나타낸다.

###Human: <Img><ImageFeature></Img>Describe this image in detail. Give as many details as possible. Say everything you see. ###Assistant:

 

불완전한 문장을 식별하기 위해 생성된 문장이 80토큰을 초과하는지 여부를 검사한다. 그렇지 않은 경우, 추가 프롬프트인 ###Human: Continue ###Assistant:를 통합하여 MiniGPT-4가 생성 프로세스를 확장하도록 유도한다. 두 단계의 출력을 연결하여 보다 포괄적인 이미지 설명을 만들 수 있다. 이 접근 방식을 통해 상세하고 유익한 이미지 설명이 포함된 image-text 쌍을 생성할 수 있다. Conceptual Caption dataset에서 5,000개의 이미지를 무작위로 선택하고(Changpinyo et al., 2021; Sharma et al., 2018) 사전 학습된 모델을 사용하여 각 이미지에 해당하는 언어 설명을 생성한다.

 

Data post-processing

위의 자동 생성된 이미지 설명에는 단어나 문장의 반복, 단편적인 문장 또는 관련 없는 내용 등 시끄럽거나 일관성 없는 설명이 포함되어 있다. 이러한 문제를 해결하기 위해 다음 프롬프트를 활용하여 설명을 수정하는 ChatGPT를 사용하고 있다:

 

Fix the error in the given paragraph. Remove any repeating sentences, meaningless characters, not English sentences, and so on. Remove unnecessary repetition. Rewrite any incomplete sentences. Return directly the results without explanation. Return directly the input paragraph if it is already correct without explanation.

 

후처리 단계가 완료되면 고품질을 보장하기 위해 각 이미지 설명의 정확성을 수동으로 확인한다. 특히 자주 나타나는 몇 가지 오류("I’m sorry I made a mistake..." 또는 "I apologize for that ...")를 먼저 식별한 다음, 이를 자동으로 걸러내는 규칙을 하드코딩했다. 또한 ChatGPT가 감지하지 못하는 중복된 단어나 문장을 제거하여 생성된 캡션을 수동으로 다듬는다. 최종적으로 5,000개의 image-text pairs 중 약 3,500개만이 요구 사항을 충족하며, 이러한 쌍은 이후 2단계 정렬 프로세스에 활용된다.

 

3.3 Second-stage finetuning

두 번째 단계에서는 선별된 고품질 image-text pairs를 사용하여 사전 학습된 모델을 finetune한다. finetune 중에는 다음 템플릿으로 미리 정의된 프롬프트를 사용합니다:

 

###Human: <Img><ImageFeature></Img><Instruction>###Assistant:

 

이 프롬프트에서 <Instruction>는 "Describe this image in detail" 또는 "Could you describe the contents of this image for me" 와 같은 다양한 형태의 instruction이 포함된 사전 정의된 instruction set에서 무작위로 샘플링된 instruction을 나타낸다. 이 특정 text-image prompt에 대한 regression loss는 계산하지 않는다는 점에 유의하자.

 

그 결과 MiniGPT-4는 이제 더욱 자연스럽고 안정적인 언어 출력을 생성할 수 있게 되었다. 또한 이러한 fine-tuning 프로세스는 매우 효율적이어서 배치 크기가 12일 때 단 400개의 training steps만 필요하며, 이는 single A100 GPU로 약 7분이 소요되는 것으로 나타났다.


4. Experiments

4.1 Uncovering emergent abilities with MiniGPT-4 through qualitative examples

MiniGPT-4는 기존의 시각 언어 모델에 비해 많은 고급 기능을 제공한다. 예를 들어, 이미지를 자세히 묘사하고 주어진 밈의 유머러스한 측면을 해석할 수 있다. 여기에서는 대표적인 vision-language 모델 중 하나인 BLIP-2와 정성적으로 비교했으며, 각각 다른 능력을 강조하는 8가지 예시를 사용했다.

 

Figure 2의 예는 MiniGPT-4가 바쁜 도시의 거리, 시계탑, 상점, 레스토랑, 오토바이, 사람, 가로등, 구름 등 이미지 내의 다양한 요소를 효과적으로 식별하는 것을 보여준다. 반면, BLIP-2는 이미지 캡션 생성 시 도시의 거리, 사람, 오토바이만 인식했다.

Fig.4a에서 제시된 또다른 예는 MiniGPT-4가 밈이 유머러스한 이유를 성공적으로 설명하는 것을 보여준다. 반면 BLIP-2는 이미지 내용을 간략하게 설명할 뿐 이미지의 재미있는 측면을 이해하지 못했다.

 

또한 다른 독특한 능력을 시연함으로써 MiniGPT-4의 다른 능력도 선보인다. 주어진 이미지를 기반으로 광고 프로모션 제작(Fig.3)하고, 영화 사진에서 사실 정보 검색(Fig.8)을 하며, 음식 이미지에서 음식 레시피 생성(Fig.11), 식물 질병 진단 및 치료 계획 제안(Fig.12), 손으로 쓴 초안에서 웹사이트 생성(Fig.4b), 이미지에서 영감을 받아 시 쓰기(Fig.10) 등을 한다.

 

 이러한 능력은 덜 강력한 언어 모델(LLM)을 사용하는 BLIP-2와 같은 전통적인 시각 언어 모델에는 없다. 이러한 대조는 이러한 고급 시각-언어 능력은 시각적 특징이 Vicuna와 같은 고급 LLM과 적절히 일치(aligned)할 때만 나타난다는 것을 나타낸다.

 

4.2 Quantative analysis

Advanced Abilities

Advanced vision-language tasks에 대한 성과를 정량화하기 위해 아래의 4가지 task로 구성된 소규모의 evaluation dataset을 만들었다. 각 과제에 25개의 이미지가 할당되어 총 100개의 다양한 이미지가 수집되었다.

  • Explain why this meme is funny.
  • How should I make something like this?
  • Help me draft a professional advertisement for this.
  • Can you craft a beautiful poem about this image?

그리고 사람 평가자에게 모델 생성이 요청을 만족하는지 여부를 판단해달라고 했고, 그 결과를 Tab.1에 제시하였다.

MiniGPT-4는 Recipies, Ads, Poem에서 거의 80%에 가까운 만족률을 보였고, Meme도 BLIP-2에 비해 우수하다.

 

Image Captioning

COCO caption benchmark에서 MiniGPT-4의 성능을 평가하고 BLIP-2와 비교한다. 제안된 모델에서 생성된 캡션은 일반적으로 풍부한 시각적 디테일을 포함한다. 이는 기존의 캡션 평가 메트릭으로 정확하게 평가하기 어려우며, 따라서 ChatGPT의 도움을 받는다.

 

baseline 모델이 ground-truth captions에 제시된 objects와 visual relations를 포함하는지 여부를 판단하기 위해 ChatGPT를 사용한다. COCO evaluation dataset의 경우, 하나의 ground-truch captions를 무작위로 선택하여 이를 reference 캡션으로 처리한다.

 

평가를 수행하기 위해 다음 프롬프트를 적용한다.

There is one image caption1 ‘{ground-truth caption}’, and there is another image caption2 ‘{comparison caption}’. Does image caption2 cover all the objects and visual relations shown in image caption1? Only answer yes or no without any explanation.

 

Tab.2의 결과는 MiniGPT-4가 ground-truch visual objects와 더욱 밀접하게 align되는 캡션을 생성하는 데 있어 BLIP-2보다 더 우수한 성능을 보임을 보여준다. 기존 VQA 작업에 대한 자세한 내용은 Appendix A.2를 참고.

 

4.3 Analysis on the second-stage finetuning

Effectiveness of the second-stage finetuning

첫 번째 사전 학습 단계 이후 사전 학습된 모델만 사용하면 반복되는 단어나 문장, 단편적인 문장 또는 관련 없는 내용이 발생하는 등의 오류가 발생할 수 있다. 그러나 이러한 문제는 2단계 finetuning 과정을 통해 대부분 완화되었. 이는 Fig.5에서 확인할 수 있다.

 

2단계 finetuning의 영향을 정량화하기 위해 COCO test set에서 100개의 이미지를 무작위로 샘플하여 "Describe the image in detail.” and “Can you write a beautiful poem about this image?”의 2가지 과제에 대한 모델 성능을 조사했다. 

 

아래 표는 각 단계에서 모델의 실패 발생 횟수를 수동으로 세어본 결과이다. 실패 발생은 모델의 출력과 ground truch captions나 poems와 일치하지 않는 것으로 정의하는 것 같다. 실패율이 35% -> 2%, 32% -> 1%로 감소하는 것을 볼 수 있다.

 

Can the original BLIP-2 benefit from the second-stage data?

본 연구에서는 MiniGPT-4와 동일한 방식으로 2단계 데이터로 BLIP-2를 finetune하고 MiniGPT-4와 유사한 고급 능력을 얻을 수 있는지 확인한다.

 

여기서 BLIP-2 FT가 finetuned BLIP을 의미한다. MiniGPT-4와 BLIP-2는 동일한 visual module을 사용하지만, 언어 모델은 다르다. MiniGPT-4는 Vicuna를 사용하지만, BLIP-2는 그만큼 강력하지는 않은 FlanT5 XXL을 사용한다는 점에 유의하자.

 

동일한 프롬프트를 사용했을 때의 결과이다.

 

BLIP-2 FT는 여전히 짧은 응담을 생성하고, 밈 설명과 웹 사이트 코딩 등의 고급 작업으로 일반화하지 못한다는 사실을 발견했다. 이는 BLIP-2의 상대적으로 약한 언어 모델인 FlanT5 XXL이 이같은 작은 dataset의 이점을 잘 활용하지 못한다는 것을 시사하며, VLM 시스템에서 더욱 발전된 LLM의 효과를 강조한다.

 

Second stage with Localized Narratives

Localized Narratives dataset은 annotator가 이미지를 describe함과 동시에 대응되는 해당 region을 localize하는 detailed image description dataset이다. 여기서는 2단계에서 자체 수집한 데이터 세트를 localized narratives dataset 로 대체하여 모델의 성능을 테스트한다.

 

Fig4, 13, 14에서 MiniGPT-4 LocNa로 표시된 부분인데, MiniGPT-4 LocNa가 긴 이미지 설명을 생성할 수 있음을 보여준다. 그러나 생성된 출력은 단조로운 표현으로 품질이 낮다. 또한, 밈이 재미있는 이유를 설명하는 것과 같은 다른 복잡한 작업에서는 기존 MiniGPT-4만큼 일반화하지 못한다(그림 4a). 이러한 성능 차이는 localized narratives의 단조롭고 반복적인 이미지 설명 때문일 수 있다.

4.4  Ablation on the architecture designs

하나의 single linear layer를 사용하여 visual features를 LLM에 align하는 것의 효과를 더욱 입증하기 위해 (a) Q포머를 제거하고 VIT의 출력을 Vicuna의 임베딩 공간에 직접 매핑하는 경우(즉, Q포머 없이), (b) 하나의 레이어 대신 3개의 선형 레이어를 사용하는 경우, (c) 비전 모듈에서 Q포머를 추가로 finetuning하는 등 다양한 아키텍처 디자인으로 실험을 진행했다.

표 4를 보면, AOK-VQA 및 GQA 데이터 셋에 대해서는 (a)와 MiniGPT-4 원형의 성능이 비슷함을 보여줌. Fig.4의 정성적 결과(MiniGPT-4 No Q-Former)도 비슷한 결과로 나온다. 이는 BLIP-2의 Q-Former가 advanced skill에서 중요한 역할을 하지 않는다는 것을 보여준다.

 

(b), (c) 모두 원형보다 성능이 떨어진다. 이는 제한된 훈련 데이터 설정에서 vision encoder와 large language model을 정렬하는 데 single projection layer면 충분하다는 것을 나타낸다.

 

4.5 Limitation analysis

Hallucination

MiniGPT-4는 LLM을 기반으로 구축되었기 때문에 존재하지 않는 지식을 환각하는 것과 같은 LLM의 한계를 그대로 계승한다. 

Fig.6의 예에서 보면, 이미지에 흰색 식탁보가 존재하지 않음에도 불구하고 MiniGPT-4가 이를 잘못 식별하는 것을 보여준다.

 

여기서는 모델 생성 길이를 제어하는 두 가지 프롬프트와 함께 CHAIRi(Rohrbach et al., 2018) 메트릭을 사용하여 생성의 환각률을 측정한다:

MiniGPT-4 (long): Please describe this image as detailed as possible.

MiniGPT-4 (short): Please describe the image shortly and precisely, in less than 20 words.

 

표 5의 결과에 따르면 캡션이 길수록 환각률이 높은 경향이 있다. 예를 들어, MiniGPT-4(long)는 평균 175단어의 캡션을 생성하여 환각률이 높은 반면, MiniGPT-4(short)는 평균 28.8단어로 환각률이 낮다. 평균 6.5 단어인 BLIP-2는 환각률은 낮지만, MiniGPT-4에 비해 많은 물체를 감지하지 못한다. 세부 이미지 설명의 환각은 아직 해결되지 않은 문제이다. AI 피드백과 함께 강화 학습을 hallucination detection module과 함께 사용하는 것이 잠재적인 해결책이 될 수 있다.

 

Spatial Information Understanding

MiniGPT-4의 시각적 인식은 여전히 제한적이다. 공간적 위치를 구분하는 데 어려움을 겪을 수 있다. 예를 들어, Fig.6의 MiniGPT-4는 창문의 위치를 식별하지 못한다. 이러한 한계는 공간 정보 이해를 위해 설계된 정렬된 image-text 데이터의 부족에서 비롯될 수 있다. RefCOCO (Kazemzadeh et al., 2014) 혹은 Visual Genome (Krishna et al., 2017) dataset에 대한 훈련을 통해 해당 문제를 잠재적으로 완화할 수 있다.


5. Discussion

MiniGPT-4는 이러한 advanced abilities를 어떻게 얻을까? GPT-4가 보여주는 advanced vision-language 능력의 대부분은 이미지 이해(image understanding)와 언어 생성(language generation)이라는 두 가지 기본 기술(foundational)에 뿌리를 둔 구성 능력으로 이해할 수 있다.

 

이미지 기반 시 쓰기(image-based poem writing) task를 예시로 들어보자. ChatGPT나 Vicuna와 같은 고급 LLM은 이미 사용자의 지시에 따라 시를 작성할 수 있다. 여기에 이미지를 이해하는 능력을 습득하면 학습 데이터에 image-poem pairs가 없어도 이미지 기반 시 쓰기 과제를 구조적으로 일반화할 수 있다.

 

첫 번째 사전 학습 단계에서 MiniGPT-4는 image caption datasets에서 이미지와 짧은 이미지 설명(short image descriptions) 사이의 상관관계를 모델링하여 이미지를 이해하는 방법을 학습한다. 그러나 이러한 image caption datasets 의 언어 스타일(language style)은 최신 LLM이 생성하는 언어 스타일과 다르기 때문에 왜곡된 언어 생성을 초래하고 성공적인 구성 일반화를 방해한다.

 

따라서 언어 생성 능력을 복원하기 위해 2단계 finetuning을 도입했다. 2단계 훈련 후 MiniGPT-4는 웹 사이트 코딩이나 밈 해석과 같은 다양한 고급 시각 언어 능력을 성공적으로 일반화하여 우리의 가정을 검증했다. 향후 연구에서는 구성 일반화(compositional generalization)의 메커니즘을 더 깊이 파헤치고 이를 향상시킬 수 있는 방법을 모색할 수 있다. 이러한 비전 기반 LLM 기능에 대한 초기 탐색으로서의 이번 연구가 이 분야에 대한 추가 연구에 박차를 가할 수 있기를 바란다.

Comments