논문 및 개념 정리

논문 및 개념 정리

[2020] Poly-encoders: architectures and pre-training strategies for fast and accurate multi-sentence scoring

Information retrieval이나 question answering 모델을 구성할 때 매우 큰 search space에서 속도와 성능이 둘다 중요한데 이를 위해 Retrieval & Rerank 구조가 많이 쓰인다(SBERT 설명글). Retireval 엔진으로는 Bi-encoder, Reranker 엔진으로는 Cross-encoder가 많이 쓰인다. Microsoft에서 발표한 Poly-encoder는 Bi-encoder, Cross-encoder의 장점을 취해 Bi-encoder의 성능을 향상시킨 모델이며 효과가 좋은 것으로 알려져있다(원문). 참고로 이 Github에 깔끔하게 구현되어 있다. 1. Introduction 두 입력 sequence에 대한 비교나, 입력 sequence에 대한 ..

논문 및 개념 정리

[LM] Perplexity 개념

언어모델을 평가하기 위한 하나의 척도인 Perplexity에 대해 정리하고자 한다. 원문 내용을 많이 참고하였다. 1. 언어모델이란? 언어모델(Language Model)은 가능한 단어 시퀀스에 대한 확률을 계산하는 모델이다. 어떤 문장이 주어질 때, 언어모델이 보유한 모든 토큰들에 대해 그 다음에 올 확률을 계산하면 엔지니어가 태스크에 맞게 최대 확률값을 가진 토큰을 1개 이상 사용하여 문장을 완성할 수 있다. 좋은 언어모델은 real 또는 syntactically correct한 문장에 더 높은 화률을 부여하는 모델이다. $n$개의 단어 $(w_{1}, w_{2}, \cdots, w_{n})$로 이루어진 문장 $W$에 대한 확률은 다음과 같이 표현할 수 있다(문장에 대한 확률이라는 말이 조금 어색할 ..

논문 및 개념 정리

[GPT3] 주요 내용 정리

GPT 모델은 auto-regressive 모델 계열 중 하나이며 특히 GPT3는 transformer 계열 언어모델의 크기에 따른 성능을 매우 잘 보여주었다. 본 글에서는 GPT3 논문의 주요 내용 및 궁금했던 점들을 정리하고자 한다. 궁금한 점들 in-context learning이란? & few(one, zero)-shot learning이란? prompt 및 GPT3 입력 더 좋은 contextualized embedding을 얻기 위한 많은 노력들 끝에 transformer 계열 모델들이 등장했다. 이후 사전학습(pre-training)된 언어모델을 사용하기 위해서 fine-tuning을 거치면 task 데이터셋에 대해서 높은 성능을 보이는 것이 확인되었으나 이는 다음과 같은 한계점들이 있다. ..

논문 및 개념 정리

[2020] Spot The Bot: A Robust and Efficient Framework for the Evaluation of Conversational Dialogue Systems

핵심포인트 scored-based 평가 방법론이 아닌 ranking-based 평가 방법론 제시 bot-bot conversation을 활용 0. Abstract 대화시스템(챗봇)의 기술은 계속 발전해나가고 있으나, 효율적이고 안정적인 평가 방법이 부재하다. Accuracy 기반의 측도들이 존재하나, 이러한 값들은 인간의 평가와 연관도가 낮다고 알려져 있다. 또한 기존의 평가 방법론은 인간-챗봇 대화를 통해 챗봇을 평가했었으며, 이는 비용이 클 뿐만 아니라 매우 비효율적이다. 본 연구에서는 Spot The Bot이라는 평가 방법론을 제시한다. Spot The Bot은 기존의 인간-챗봇 대화평가에서 챗봇-챗봇 대화 내역을 사용한다. 평가자는 대화 내역을 보고 해당 발화자가 챗봇인지 아닌지만을 평가하며, 최..

논문 및 개념 정리

[2017] On Calibration of Modern Neural Networks

본 연구는 수 많은 딥러닝 모델들이 결과로 주는 confidence score를 조정하는 연구이다. Confidence score는 모델의 최종 layer에서의 sigmoid 또는 softmax 값을 의미하며, $[0,1]$ 값을 가진다. 논문의 주요 contribution은 다음과 같다. 딥러닝 모델이 커지면서 over-confident하게 되는 현상을 발견 perfect calibration을 정의하고, 이를 근사하기 위한 metric 정의 calibration 방법 비교 실험 논문의 주요 내용은 다음과 같다. 1. Introduction 모델의 예측값에 대한 confidence를 같이 제공하는 것은 모델의 성능 뿐만 아니라 신뢰도에 많은 영향을 준다. 현대의 neural network는 과거에 비해..

논문 및 개념 정리

[2018] Universal Language Model Fine-tuning for Text Classification(ULMfiT)

2018년도에 자연어 처리와 관련해서 중요한 개념을 소개한 논문이 여러개 발표되었다. 그 중 하나인 ULMfiT에 대해 간단히 정리하고자 한다. 논문은 여기서 확인할 수 있다. 핵심 정리: general transfer learning을 위한 pre-training + fine-tuning 방법론 제안 1. Introduction NLP에서도 transfer learning이 연구되고 있다. 이 중 inductive transfer의 경우 pre-trained된 word ebmedding을 모델의 첫 layer에 고정시켜두는 경우가 많다(e.g. Word2Vec). 하지만 대부분의 Language Model은 작은 데이터셋에 overfit하며, classifer를 붙여서 fine-tuning이 일어나는 ..

논문 및 개념 정리

[2018] Deep contextualized word representations(ELMo)

2018년도에 자연어 처리와 관련해서 중요한 개념을 소개한 논문이 여러개 발표되었다. 그 중 하나인 ELMo에 대해 간단히 정리하고자 한다. 논문은 여기서 확인할 수 있다. 핵심 개념: contextualized word representaion 0. Abstract 자연어를 token 단위로 임베딩하는 많은 방법들 중 Word2Vec, BoW 등이 유행하였다. 이중 Word2Vec은 단어들 간의 co-occurence 정보를 반영하는 방법을 통해 '주변 단어의 정보'를 활용하는 개념을 적용하였다. 하지만 어떤 token의 임베딩이 문맥과 의미와 관계 없이 동일하다는 단점이 있었다. 때문에 동음이의어를 처리할 때 문제가 발생한다. ELMo 논문에서는 이러한 한계점을 탈피하는 '문맥 정보를 반영한 임베딩'..

논문 및 개념 정리

[2017] Attention is All you Need

RNN 계열의 sequence model에 attention을 적용하여 비약적인 성능향상을 확인한 이후, attention만을 사용하면 과연 어떤 성능을 보여줄지에 대한 연구가 Attention is All you need 논문이다. 1. Introduction RNN, LSTM, GRU 등의 sequence modelling approach들은 long sequence에 취약하다는 한계점이 있다. 하지만 attention mechanism이 적용되면서 sequence에서의 위치와 관계없이 dependency를 반영할 수 있게 되었다. Transformer 모델은 recurrence라는 특성(과거의 output의 현재의 input으로 사용되는 점)을 없애고 attention mechanism만을 적용하여..

논문 및 개념 정리

Big Bird Implementation details

Big Bird(내용은 여기 참고)의 핵심인 sparse attention은 GPU, TPU에서는 바로 적용하기 어렵습니다. Sliding window나 random element query 등으로 인해 때문에 parallel하게 attention을 적용하기 어렵기 때문인데, 본 연구에서는 'blockifying the lookups'이라는 방법으로 parallel attention을 구현했습니다. Blockifying attention 핵심 아이디어는 block 단위의 attention입니다. query vector, key vector가 각각 12개씩 있다고 해보겠습니다. Block size가 2일때 query matrix를 12/2=6개의 block으로, key matrix도 12/2=6개의 blo..

논문 및 개념 정리

[2019] Big Bird: Transformers for Longer Sequences

기존 Transformer 기반 모델(BERT, GPT 등..) 보다 훨씬 더 긴 sequence 데이터를 입력으로 받을 수 있는 연구가 공개되어 정리하고자 합니다. 논문은 글의 제목이며 여기서 확인할 수 있습니다. 0. 핵심 아이디어: Graph Sparcification 본 연구의 핵심 아이디어 sparse random graph이며, 다음과 같은 흐름으로 연구되었습니다. self-attention → fully-connected graph: self-attention을 각 token들의 linking으로 본다면 fully-connected graph로 표현할 수 있음 fully-connected graph → sparse random graph: self-attention graph를 훨씬 더 크게..

논문 및 개념 정리

Exploring Transfer Learning with T5 : the Text-To-Text Transfer Transformer (2)

이전 글에서 BERT 후속 연구를 소개하였습니다. T5는 모든(!) NLP task에 대해서 실험을 진행하였고 준수한 성능을 보이고 있으나, T5가 등장한 leaderboard는 몇개 안되는거 같습니다. 그래도 T5 연구가 효과적임을 보여주는 leaderboard가 하나 있으니.. 바로 여러 NLP task를 묶어 모델을 평가하는 SuperGLUE 데이터셋에서 당당히 1위를 찍었습니다. 글의 순서는 다음과 같습니다. Intro Basic Setup: 모델과 사용 데이터 설명 Experiments: 모델 크기 변경, Unsupervised Training Variations, Pre-training에 사용된 데이터셋 등을 설명 Reflection: 고찰 본 포스팅에서는 Intro와 Basic Setup을 ..

논문 및 개념 정리

Exploring Transfer Learning with T5 : the Text-To-Text Transfer Transformer (1)

NLP 분야에서 BERT는 거의 모든 task들에 대한 성능 향상을 보여주었고, 몇몇 task에 대해서는 Human Performance를 뛰어넘기도 하였다. 또한 Pre-training Large Model + Transfer Learning이 NLP 연구에서 제일 효과적임을 보여주었고, 대부분의 자연어 처리 관련 연구들이 BERT로 인해 딥러닝 쪽으로 방향을 잡아나가고 있다. BERT가 정말 대단하다고 생각이 들었고 과연 이러한 성능 향상을 보여줄 수 있는 연구가 또 나올까 싶은 찰나, 구글은 BERT를 발표한지 단 1년 만에 후속 연구인 T5 모델을 발표하였다. 이후 2019년 말~2020년 초중반에 발표되는 NLP 논문들 중 T5를 benchmark로 사용한 논문들이 계속 등장하였고, 논문을 읽어..