2018년도에 자연어 처리와 관련해서 중요한 개념을 소개한 논문이 여러개 발표되었다. 그 중 하나인 ULMfiT에 대해 간단히 정리하고자 한다. 논문은 여기서 확인할 수 있다. 핵심 정리: general transfer learning을 위한 pre-training + fine-tuning 방법론 제안 1. Introduction NLP에서도 transfer learning이 연구되고 있다. 이 중 inductive transfer의 경우 pre-trained된 word ebmedding을 모델의 첫 layer에 고정시켜두는 경우가 많다(e.g. Word2Vec). 하지만 대부분의 Language Model은 작은 데이터셋에 overfit하며, classifer를 붙여서 fine-tuning이 일어나는 ..
2018년도에 자연어 처리와 관련해서 중요한 개념을 소개한 논문이 여러개 발표되었다. 그 중 하나인 ELMo에 대해 간단히 정리하고자 한다. 논문은 여기서 확인할 수 있다. 핵심 개념: contextualized word representaion 0. Abstract 자연어를 token 단위로 임베딩하는 많은 방법들 중 Word2Vec, BoW 등이 유행하였다. 이중 Word2Vec은 단어들 간의 co-occurence 정보를 반영하는 방법을 통해 '주변 단어의 정보'를 활용하는 개념을 적용하였다. 하지만 어떤 token의 임베딩이 문맥과 의미와 관계 없이 동일하다는 단점이 있었다. 때문에 동음이의어를 처리할 때 문제가 발생한다. ELMo 논문에서는 이러한 한계점을 탈피하는 '문맥 정보를 반영한 임베딩'..
RNN 계열의 sequence model에 attention을 적용하여 비약적인 성능향상을 확인한 이후, attention만을 사용하면 과연 어떤 성능을 보여줄지에 대한 연구가 Attention is All you need 논문이다. 1. Introduction RNN, LSTM, GRU 등의 sequence modelling approach들은 long sequence에 취약하다는 한계점이 있다. 하지만 attention mechanism이 적용되면서 sequence에서의 위치와 관계없이 dependency를 반영할 수 있게 되었다. Transformer 모델은 recurrence라는 특성(과거의 output의 현재의 input으로 사용되는 점)을 없애고 attention mechanism만을 적용하여..
NLP 분야에서 BERT는 거의 모든 task들에 대한 성능 향상을 보여주었고, 몇몇 task에 대해서는 Human Performance를 뛰어넘기도 하였다. 또한 Pre-training Large Model + Transfer Learning이 NLP 연구에서 제일 효과적임을 보여주었고, 대부분의 자연어 처리 관련 연구들이 BERT로 인해 딥러닝 쪽으로 방향을 잡아나가고 있다. BERT가 정말 대단하다고 생각이 들었고 과연 이러한 성능 향상을 보여줄 수 있는 연구가 또 나올까 싶은 찰나, 구글은 BERT를 발표한지 단 1년 만에 후속 연구인 T5 모델을 발표하였다. 이후 2019년 말~2020년 초중반에 발표되는 NLP 논문들 중 T5를 benchmark로 사용한 논문들이 계속 등장하였고, 논문을 읽어..