기존에 존재하는 GPT 언어모델을 추가로 학습할 때 달라지는 양상을 확인한 내용을 정리하고자 한다. 0. Language Model Skt GPT2 모델을 사용하였다. 모델크기는 125M로 상당히 작으며 40GB 한국어 데이터셋으로 학습되었다고 한다. 모델의 추가 pre-train 및 테스트를 위해 AI Hub의 감성 대화 말뭉치를 사용하였다. 1. 추가 pre-train 전 모델 성능 1) Perplexity 테스트셋 중 200여개 문장으로 측정하였으며, 기존 모델의 경우 40.1396으로 측정되었다. # PPL encodings = tokenizer("\n\n".join(test_ppl), return_tensors="pt") max_length = model.config.n_positions str..
언어모델을 평가하기 위한 하나의 척도인 Perplexity에 대해 정리하고자 한다. 원문 내용을 많이 참고하였다. 1. 언어모델이란? 언어모델(Language Model)은 가능한 단어 시퀀스에 대한 확률을 계산하는 모델이다. 어떤 문장이 주어질 때, 언어모델이 보유한 모든 토큰들에 대해 그 다음에 올 확률을 계산하면 엔지니어가 태스크에 맞게 최대 확률값을 가진 토큰을 1개 이상 사용하여 문장을 완성할 수 있다. 좋은 언어모델은 real 또는 syntactically correct한 문장에 더 높은 화률을 부여하는 모델이다. $n$개의 단어 $(w_{1}, w_{2}, \cdots, w_{n})$로 이루어진 문장 $W$에 대한 확률은 다음과 같이 표현할 수 있다(문장에 대한 확률이라는 말이 조금 어색할 ..
RNN 계열의 sequence model에 attention을 적용하여 비약적인 성능향상을 확인한 이후, attention만을 사용하면 과연 어떤 성능을 보여줄지에 대한 연구가 Attention is All you need 논문이다. 1. Introduction RNN, LSTM, GRU 등의 sequence modelling approach들은 long sequence에 취약하다는 한계점이 있다. 하지만 attention mechanism이 적용되면서 sequence에서의 위치와 관계없이 dependency를 반영할 수 있게 되었다. Transformer 모델은 recurrence라는 특성(과거의 output의 현재의 input으로 사용되는 점)을 없애고 attention mechanism만을 적용하여..