BigBird

개발

[Tensorflow] tfds를 활용한 custom dataset 생성

tensorflow_datasets(tfds)을 사용하여 custom dataset 생성하고자 한다. 구글에서 공개한 tensorflow 모델을 custom dataset으로 학습하는 세팅이다.(개발환경 세팅은 여기와 여기 참고) 작업환경 ubuntu18.04 + Docker Container *tensorflow_datasets와 tf.data 1) tensorflow_datasets(공식문서) 목적: 공개되어 있는 많은 데이터셋들의 원본을 tfds 모듈로 불러들일 수 있음 주요 특징: 연구에서 사용되고 있는 많은 데이터셋 원본 파일들(전처리 X)을 공개해둠(데이터셋 목록) tfds.features으로 데이터셋 정의(Audio, ClassLabel, Image, Sequence, Tensor, Text..

논문 및 개념 정리

Big Bird Implementation details

Big Bird(내용은 여기 참고)의 핵심인 sparse attention은 GPU, TPU에서는 바로 적용하기 어렵습니다. Sliding window나 random element query 등으로 인해 때문에 parallel하게 attention을 적용하기 어렵기 때문인데, 본 연구에서는 'blockifying the lookups'이라는 방법으로 parallel attention을 구현했습니다. Blockifying attention 핵심 아이디어는 block 단위의 attention입니다. query vector, key vector가 각각 12개씩 있다고 해보겠습니다. Block size가 2일때 query matrix를 12/2=6개의 block으로, key matrix도 12/2=6개의 blo..

논문 및 개념 정리

[2019] Big Bird: Transformers for Longer Sequences

기존 Transformer 기반 모델(BERT, GPT 등..) 보다 훨씬 더 긴 sequence 데이터를 입력으로 받을 수 있는 연구가 공개되어 정리하고자 합니다. 논문은 글의 제목이며 여기서 확인할 수 있습니다. 0. 핵심 아이디어: Graph Sparcification 본 연구의 핵심 아이디어 sparse random graph이며, 다음과 같은 흐름으로 연구되었습니다. self-attention → fully-connected graph: self-attention을 각 token들의 linking으로 본다면 fully-connected graph로 표현할 수 있음 fully-connected graph → sparse random graph: self-attention graph를 훨씬 더 크게..

Fine애플
'BigBird' 태그의 글 목록