LoRa 논문은 큰 언어모델을 fine-tuning하기 위한 여러가지 방법 중 효과가 꽤 괜찮은 방법을 제시했는데 그 내용을 정리하고자 한다. 1. Introduction 매우 큰 언어모델을 만들고 이를 도메인에 맞게 fine-tuning하는 일은 매우 빈번하다. GPT3 계열의 모델은 크기가 매우 크기 때문에 원래의 모델은 freeze 해두고 태스크별로 별도 layer를 두는 방식을 사용한다. 하지만 모델 크기가 매우 크기 때문에 제대로 학습이 안될 수도 있고 inference 속도가 충분하지 않을 수 있다. 논문에서 제시하는 아이디어는 간단하다. 딥러닝 layer에서 hidden dimension의 차원이 아무리 커도 그 공간의 rank는 낮을 수 있다고 생각하는데, 이를 활용하는 것이다. We ta..
기존에 존재하는 GPT 언어모델을 추가로 학습할 때 달라지는 양상을 확인한 내용을 정리하고자 한다. 0. Language Model Skt GPT2 모델을 사용하였다. 모델크기는 125M로 상당히 작으며 40GB 한국어 데이터셋으로 학습되었다고 한다. 모델의 추가 pre-train 및 테스트를 위해 AI Hub의 감성 대화 말뭉치를 사용하였다. 1. 추가 pre-train 전 모델 성능 1) Perplexity 테스트셋 중 200여개 문장으로 측정하였으며, 기존 모델의 경우 40.1396으로 측정되었다. # PPL encodings = tokenizer("\n\n".join(test_ppl), return_tensors="pt") max_length = model.config.n_positions str..
RNN 계열의 sequence model에 attention을 적용하여 비약적인 성능향상을 확인한 이후, attention만을 사용하면 과연 어떤 성능을 보여줄지에 대한 연구가 Attention is All you need 논문이다. 1. Introduction RNN, LSTM, GRU 등의 sequence modelling approach들은 long sequence에 취약하다는 한계점이 있다. 하지만 attention mechanism이 적용되면서 sequence에서의 위치와 관계없이 dependency를 반영할 수 있게 되었다. Transformer 모델은 recurrence라는 특성(과거의 output의 현재의 input으로 사용되는 점)을 없애고 attention mechanism만을 적용하여..