Google

논문 및 개념 정리

Big Bird Implementation details

Big Bird(내용은 여기 참고)의 핵심인 sparse attention은 GPU, TPU에서는 바로 적용하기 어렵습니다. Sliding window나 random element query 등으로 인해 때문에 parallel하게 attention을 적용하기 어렵기 때문인데, 본 연구에서는 'blockifying the lookups'이라는 방법으로 parallel attention을 구현했습니다. Blockifying attention 핵심 아이디어는 block 단위의 attention입니다. query vector, key vector가 각각 12개씩 있다고 해보겠습니다. Block size가 2일때 query matrix를 12/2=6개의 block으로, key matrix도 12/2=6개의 blo..

논문 및 개념 정리

Exploring Transfer Learning with T5 : the Text-To-Text Transfer Transformer (2)

이전 글에서 BERT 후속 연구를 소개하였습니다. T5는 모든(!) NLP task에 대해서 실험을 진행하였고 준수한 성능을 보이고 있으나, T5가 등장한 leaderboard는 몇개 안되는거 같습니다. 그래도 T5 연구가 효과적임을 보여주는 leaderboard가 하나 있으니.. 바로 여러 NLP task를 묶어 모델을 평가하는 SuperGLUE 데이터셋에서 당당히 1위를 찍었습니다. 글의 순서는 다음과 같습니다. Intro Basic Setup: 모델과 사용 데이터 설명 Experiments: 모델 크기 변경, Unsupervised Training Variations, Pre-training에 사용된 데이터셋 등을 설명 Reflection: 고찰 본 포스팅에서는 Intro와 Basic Setup을 ..

Fine애플
'Google' 태그의 글 목록