GPT계열 LLM 모델의 zero-shot 성능을 높인 방법인 instruction-tuning에 대한 논문 내용을 정리하고자 한다(논문링크).
1. Introduction
GPT3와 같은 모델들은 few-shot 성능이 (기대보다)뛰어나다는 특징이 있는 반면, zero-shot에 대해서는 성능이 낮다. FLAN은 자연어 instruction과 one-shot example을 데이터셋으로 구성하여 fine-tuning 시켜(Instruction Tuning) unseen task에 대한 zero-sho 성능을 높인 연구이다.
FLAN 연구의 intuition은 다음과 같다.
- LM(Language Model)에 주어지는 입력인 zero-shot prompt(no few-shot example)은 실제 모델이 학습한 자연어 형태와 다름
- NLP task는 "Is the sentiment of this movie review positive or negative?", "Translate ‘how are you’ into Chinese."와 같이 자연어 형태로 쓸 수 있음
2. FLAN: Instruction Tuning Improves Zero-Shot Learning
1) Tasks & Templates
먼저 instruction + example 데이터셋을 마련하기 위해서 저자들은 60여개의 NLP dataset을 다시 군집화하여 12개의 클러스터를 구성하였다(multiple tasks $\rightarrow$ task cluster).
이후 각 dataset(task)별로 10개의 template을 만들고, 원래의 dataset을 template에 채워넣는 방식으로 자연어 instruction으로 구성된 fine-tuning 데이터셋을 만들었다.
2) Evaluation Splits
FLAN의 연구 목표는 자연어 insruction을 입력으로 했을 때 unseen task에 대한 성능을 높이는 것이다. 때문에 저자들은 12개의 task cluster를 hold out하여 train(fine-tuning)/test(validate) 셋으로 구분하여 실험을 진행하였다. 예를 들어 SNLI task에 대한 zero-shot 성능을 확인하기 위해 Natural Language Inference cluster를 빼고 학습하였다.
3) Model
LLM으로는 LaMDA-PT(decoder-only transformer language model, 137B)를 사용하였다.
4) BERT, T5, GPT, FLAN의 차이
FLAN과 BERT, T5, GPT와의 차이점은 다음과 같다.
i. Pretrain-finetune and prompting
- BERT, T5는 각 task별로 fine-tuning 함
- GPT는 fine-tuning을 안하고 prompting만 함
- FLAN은 자연어 instruction을 가지고 fine-tuning함
ii. Inference prompt 비교
- T5 prompt
cb hypothesis: At my age you will probably have learnt one lesson.
premise: It’s not certain how many lessons you’ll learn by your
thirties.
- GPT prompt
At my age you will probably have learnt one lesson.
question: It’s not certain how many lessons you’ll learn by your
thirties. true, false, or neither? answer:
- Instruction Tuning(FLAN)
Premise: At my age you will probably have learnt one lesson.
Hypothesis: It’s not certain how many lessons you’ll learn by your
thirties.
Does the premise entail the hypothesis?
3. Results
1) Zero-shot 성능
Instruction-Tuning된 모델의 zero-shot 성능이 GPT3 175B보다 성능이 비슷하거나 더 좋음을 확인할 수 있다.
2) Number of Instruction Tuning Clusters
Instruction Tuning에 사용된 task cluster의 수가 많아질 수록 성능이 좋아지는 것을 확인할 수 있다.
3) Scaling Law
FLAN에서도 scaling이 증가하면 성능이 확연히 좋아지는 것을 확인할 수 있다.
4) Role of Instruction
Instruction이 존재하는 것이 없는 것보다 더 성능이 좋다.
- Instruction $\rightarrow$Please translate this sentence to French: ‘The dog runs.’
- no instruction $\rightarrow$ input: "the dog runs" / output: "Le chien court"
- dataset name $\rightarrow$ "[Translation: WMT’14 to French] The dog runs."
'논문 및 개념 정리' 카테고리의 다른 글
Hold-out vs Cross-validation 차이 (0) | 2023.07.16 |
---|---|
Propensity Score (0) | 2023.06.28 |
[2015] Deep Residual Learning for Image Recognition (ResNet 논문) (0) | 2023.01.14 |
[2021] Learning Transferable Visual Models From Natural Language Supervision(CLIP 논문) (0) | 2023.01.10 |
[2022] Controlling the Focus of Pretrained Language Generation Models (0) | 2022.11.03 |