Document 랭킹을 성능 및 서비스 측면에서 고민한 ColBERT 논문에 대해 정리하고자 한다. 1. Introduction BERT 등의 큰 언어모델(LM)은 성능이 우수하나 계산량이 많아 latency가 생긴다. 때문에 query-document pair를 입력을 받아 수십만개의 문서 중 정답이 있을만한 문서를 찾는 문서탐색의 경우 시간이 매우 오래걸린다. ColBERT는 이를 해결하기 위한 방법으로 1) 미리 계산한 문서 임베딩을 저장해두고(pre-computation) 2) query를 입력으로 받아 계산량이 낮은 연산(late interaction)으로 문서탐색을 수행하는 모델이다. 2. ColBERT 모델 1) Architecture ColBERT는 두 개의 encoder와 late in..
문서분류 task와 관련해서 진행한 내용을 정리하고자 한다. 0. Task 정의 Task는 다음과 같았다. Long Document: 길이가 긴 문서 상황에서 효과적인 모델 찾기 Class Imbalance: class 분포가 극도로 불균형한 상황에서의 성능향상 기법 1) Long Document PoC에서 다루었던 문서의 길이는 매우 긴편이었다. mecab 기준 평균 2,500 token이 넘었으며 길면 20,000 token도 넘는 문서가 있었다. 2) Class Imbalance 다루었던 문서는 총 4개의 label이 있었으며 label별 class들의 분포가 매우 불균형한 데이터였다. 1. Long Document에 대한 효과적인 모델 찾기 첫번째 task를 위해서 총 3가지 모델을 비교하였다. ..
기존 Transformer 기반 모델(BERT, GPT 등..) 보다 훨씬 더 긴 sequence 데이터를 입력으로 받을 수 있는 연구가 공개되어 정리하고자 합니다. 논문은 글의 제목이며 여기서 확인할 수 있습니다. 0. 핵심 아이디어: Graph Sparcification 본 연구의 핵심 아이디어 sparse random graph이며, 다음과 같은 흐름으로 연구되었습니다. self-attention → fully-connected graph: self-attention을 각 token들의 linking으로 본다면 fully-connected graph로 표현할 수 있음 fully-connected graph → sparse random graph: self-attention graph를 훨씬 더 크게..
이전 글에서 BERT 후속 연구를 소개하였습니다. T5는 모든(!) NLP task에 대해서 실험을 진행하였고 준수한 성능을 보이고 있으나, T5가 등장한 leaderboard는 몇개 안되는거 같습니다. 그래도 T5 연구가 효과적임을 보여주는 leaderboard가 하나 있으니.. 바로 여러 NLP task를 묶어 모델을 평가하는 SuperGLUE 데이터셋에서 당당히 1위를 찍었습니다. 글의 순서는 다음과 같습니다. Intro Basic Setup: 모델과 사용 데이터 설명 Experiments: 모델 크기 변경, Unsupervised Training Variations, Pre-training에 사용된 데이터셋 등을 설명 Reflection: 고찰 본 포스팅에서는 Intro와 Basic Setup을 ..
NLP 분야에서 BERT는 거의 모든 task들에 대한 성능 향상을 보여주었고, 몇몇 task에 대해서는 Human Performance를 뛰어넘기도 하였다. 또한 Pre-training Large Model + Transfer Learning이 NLP 연구에서 제일 효과적임을 보여주었고, 대부분의 자연어 처리 관련 연구들이 BERT로 인해 딥러닝 쪽으로 방향을 잡아나가고 있다. BERT가 정말 대단하다고 생각이 들었고 과연 이러한 성능 향상을 보여줄 수 있는 연구가 또 나올까 싶은 찰나, 구글은 BERT를 발표한지 단 1년 만에 후속 연구인 T5 모델을 발표하였다. 이후 2019년 말~2020년 초중반에 발표되는 NLP 논문들 중 T5를 benchmark로 사용한 논문들이 계속 등장하였고, 논문을 읽어..