RNN 계열의 sequence model에 attention을 적용하여 비약적인 성능향상을 확인한 이후, attention만을 사용하면 과연 어떤 성능을 보여줄지에 대한 연구가 Attention is All you need 논문이다. 1. Introduction RNN, LSTM, GRU 등의 sequence modelling approach들은 long sequence에 취약하다는 한계점이 있다. 하지만 attention mechanism이 적용되면서 sequence에서의 위치와 관계없이 dependency를 반영할 수 있게 되었다. Transformer 모델은 recurrence라는 특성(과거의 output의 현재의 input으로 사용되는 점)을 없애고 attention mechanism만을 적용하여..
Big Bird(내용은 여기 참고)의 핵심인 sparse attention은 GPU, TPU에서는 바로 적용하기 어렵습니다. Sliding window나 random element query 등으로 인해 때문에 parallel하게 attention을 적용하기 어렵기 때문인데, 본 연구에서는 'blockifying the lookups'이라는 방법으로 parallel attention을 구현했습니다. Blockifying attention 핵심 아이디어는 block 단위의 attention입니다. query vector, key vector가 각각 12개씩 있다고 해보겠습니다. Block size가 2일때 query matrix를 12/2=6개의 block으로, key matrix도 12/2=6개의 blo..
기존 Transformer 기반 모델(BERT, GPT 등..) 보다 훨씬 더 긴 sequence 데이터를 입력으로 받을 수 있는 연구가 공개되어 정리하고자 합니다. 논문은 글의 제목이며 여기서 확인할 수 있습니다. 0. 핵심 아이디어: Graph Sparcification 본 연구의 핵심 아이디어 sparse random graph이며, 다음과 같은 흐름으로 연구되었습니다. self-attention → fully-connected graph: self-attention을 각 token들의 linking으로 본다면 fully-connected graph로 표현할 수 있음 fully-connected graph → sparse random graph: self-attention graph를 훨씬 더 크게..
NLP 분야에서 BERT는 거의 모든 task들에 대한 성능 향상을 보여주었고, 몇몇 task에 대해서는 Human Performance를 뛰어넘기도 하였다. 또한 Pre-training Large Model + Transfer Learning이 NLP 연구에서 제일 효과적임을 보여주었고, 대부분의 자연어 처리 관련 연구들이 BERT로 인해 딥러닝 쪽으로 방향을 잡아나가고 있다. BERT가 정말 대단하다고 생각이 들었고 과연 이러한 성능 향상을 보여줄 수 있는 연구가 또 나올까 싶은 찰나, 구글은 BERT를 발표한지 단 1년 만에 후속 연구인 T5 모델을 발표하였다. 이후 2019년 말~2020년 초중반에 발표되는 NLP 논문들 중 T5를 benchmark로 사용한 논문들이 계속 등장하였고, 논문을 읽어..