논문 및 개념 정리

[2021] (FLAN)FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS (Instruction-Tuning 논문)

2023. 3. 13. 21:39
목차
  1. 1. Introduction
  2. 2. FLAN: Instruction Tuning Improves Zero-Shot Learning
  3. 1) Tasks & Templates
  4. 2) Evaluation Splits
  5. 3) Model
  6. 4) BERT, T5, GPT, FLAN의 차이
  7. 3. Results
  8. 1) Zero-shot 성능
  9. 2) Number of Instruction Tuning Clusters
  10. 3) Scaling Law
  11. 4) Role of Instruction

GPT계열 LLM 모델의 zero-shot 성능을 높인 방법인 instruction-tuning에 대한 논문 내용을 정리하고자 한다(논문링크).

 

1. Introduction

GPT3와 같은 모델들은 few-shot 성능이 (기대보다)뛰어나다는 특징이 있는 반면, zero-shot에 대해서는 성능이 낮다. FLAN은 자연어 instruction과 one-shot example을 데이터셋으로 구성하여 fine-tuning 시켜(Instruction Tuning) unseen task에 대한 zero-sho 성능을 높인 연구이다.

 

그림. FLAN으로 학습한 모델의 inference 결과

 

FLAN 연구의 intuition은 다음과 같다.

  • LM(Language Model)에 주어지는 입력인 zero-shot prompt(no few-shot example)은 실제 모델이 학습한 자연어 형태와 다름
  • NLP task는 "Is the sentiment of this movie review positive or negative?", "Translate ‘how are you’ into Chinese."와 같이 자연어 형태로 쓸 수 있음

 

2. FLAN: Instruction Tuning Improves Zero-Shot Learning

1) Tasks & Templates

먼저 instruction + example 데이터셋을 마련하기 위해서 저자들은 60여개의 NLP dataset을 다시 군집화하여 12개의 클러스터를 구성하였다(multiple tasks → task cluster).

그림. Datasets and task clusters used in this paper (NLU tasks in blue; NLG tasks in teal)

이후 각 dataset(task)별로 10개의 template을 만들고, 원래의 dataset을 template에 채워넣는 방식으로 자연어 instruction으로 구성된 fine-tuning 데이터셋을 만들었다.

그림. Multiple instruction templates describing a natural language inference task

 

2) Evaluation Splits

FLAN의 연구 목표는 자연어 insruction을 입력으로 했을 때 unseen task에 대한 성능을 높이는 것이다. 때문에 저자들은 12개의 task cluster를 hold out하여 train(fine-tuning)/test(validate) 셋으로 구분하여 실험을 진행하였다. 예를 들어 SNLI task에 대한 zero-shot 성능을 확인하기 위해 Natural Language Inference cluster를 빼고 학습하였다.

 

3) Model

LLM으로는 LaMDA-PT(decoder-only transformer language model, 137B)를 사용하였다.

 

4) BERT, T5, GPT, FLAN의 차이

FLAN과 BERT, T5, GPT와의 차이점은 다음과 같다.

 

i. Pretrain-finetune and prompting

  • BERT, T5는 각 task별로 fine-tuning 함
  • GPT는 fine-tuning을 안하고 prompting만 함
  • FLAN은 자연어 instruction을 가지고 fine-tuning함

 

ii. Inference prompt 비교

  • T5 prompt
cb hypothesis:  At my age you will probably have learnt one lesson.
premise:  It’s not certain how many lessons you’ll learn by your
thirties.
  • GPT prompt
At my age you will probably have learnt one lesson.
question:  It’s not certain how many lessons you’ll learn by your
thirties.  true, false, or neither?  answer:
  • Instruction Tuning(FLAN)
Premise:  At my age you will probably have learnt one lesson.
Hypothesis:  It’s not certain how many lessons you’ll learn by your
thirties.
Does the premise entail the hypothesis?

 

3. Results

1) Zero-shot 성능

Instruction-Tuning된 모델의 zero-shot 성능이 GPT3 175B보다 성능이 비슷하거나 더 좋음을 확인할 수 있다.

 

 

2) Number of Instruction Tuning Clusters

Instruction Tuning에 사용된 task cluster의 수가 많아질 수록 성능이 좋아지는 것을 확인할 수 있다.

 

3) Scaling Law

FLAN에서도 scaling이 증가하면 성능이 확연히 좋아지는 것을 확인할 수 있다.

 

4) Role of Instruction

Instruction이 존재하는 것이 없는 것보다 더 성능이 좋다.

  • Instruction →Please translate this sentence to French: ‘The dog runs.’
  • no instruction → input: "the dog runs" / output: "Le chien court"
  • dataset name → "[Translation: WMT’14 to French] The dog runs."

 

 

 

 

728x90
저작자표시 비영리 변경금지 (새창열림)

'논문 및 개념 정리' 카테고리의 다른 글

Hold-out vs Cross-validation 차이  (0) 2023.07.16
Propensity Score  (0) 2023.06.28
[2015] Deep Residual Learning for Image Recognition (ResNet 논문)  (0) 2023.01.14
[2021] Learning Transferable Visual Models From Natural Language Supervision(CLIP 논문)  (0) 2023.01.10
[2022] Controlling the Focus of Pretrained Language Generation Models  (0) 2022.11.03
  1. 1. Introduction
  2. 2. FLAN: Instruction Tuning Improves Zero-Shot Learning
  3. 1) Tasks & Templates
  4. 2) Evaluation Splits
  5. 3) Model
  6. 4) BERT, T5, GPT, FLAN의 차이
  7. 3. Results
  8. 1) Zero-shot 성능
  9. 2) Number of Instruction Tuning Clusters
  10. 3) Scaling Law
  11. 4) Role of Instruction
'논문 및 개념 정리' 카테고리의 다른 글
  • Hold-out vs Cross-validation 차이
  • Propensity Score
  • [2015] Deep Residual Learning for Image Recognition (ResNet 논문)
  • [2021] Learning Transferable Visual Models From Natural Language Supervision(CLIP 논문)
Fine애플
Fine애플
이것저것
끄적끄적이것저것
Fine애플
끄적끄적
Fine애플
전체
오늘
어제
  • 분류 전체보기 (167)
    • 논문 및 개념 정리 (27)
    • Pattern Recognition (8)
    • 개발 (57)
    • python 메모 (45)
    • pytorch, tensorflow (5)
    • 알고리즘 (9)
    • Toy Projects (4)
    • 통계이론 (2)
    • Reinforcement Learning (10)

블로그 메뉴

  • 홈

공지사항

인기 글

태그

  • reinforcement learning
  • Bert
  • miniconda
  • BigBird
  • transformer
  • Docker
  • GPU
  • container
  • Probability
  • 딥러닝
  • pandas
  • ubuntu
  • nlp
  • 자연어
  • 개발환경
  • 언어모델
  • PyTorch
  • tensorflow
  • 알고리즘
  • python

최근 댓글

최근 글

hELLO · Designed By 정상우.
Fine애플
[2021] (FLAN)FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS (Instruction-Tuning 논문)
상단으로

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.