tensorflow_datasets(tfds)을 사용하여 custom dataset 생성하고자 한다. 구글에서 공개한 tensorflow 모델을 custom dataset으로 학습하는 세팅이다.(개발환경 세팅은 여기와 여기 참고) 작업환경 ubuntu18.04 + Docker Container *tensorflow_datasets와 tf.data 1) tensorflow_datasets(공식문서) 목적: 공개되어 있는 많은 데이터셋들의 원본을 tfds 모듈로 불러들일 수 있음 주요 특징: 연구에서 사용되고 있는 많은 데이터셋 원본 파일들(전처리 X)을 공개해둠(데이터셋 목록) tfds.features으로 데이터셋 정의(Audio, ClassLabel, Image, Sequence, Tensor, Text..
Big Bird(내용은 여기 참고)의 핵심인 sparse attention은 GPU, TPU에서는 바로 적용하기 어렵습니다. Sliding window나 random element query 등으로 인해 때문에 parallel하게 attention을 적용하기 어렵기 때문인데, 본 연구에서는 'blockifying the lookups'이라는 방법으로 parallel attention을 구현했습니다. Blockifying attention 핵심 아이디어는 block 단위의 attention입니다. query vector, key vector가 각각 12개씩 있다고 해보겠습니다. Block size가 2일때 query matrix를 12/2=6개의 block으로, key matrix도 12/2=6개의 blo..
기존 Transformer 기반 모델(BERT, GPT 등..) 보다 훨씬 더 긴 sequence 데이터를 입력으로 받을 수 있는 연구가 공개되어 정리하고자 합니다. 논문은 글의 제목이며 여기서 확인할 수 있습니다. 0. 핵심 아이디어: Graph Sparcification 본 연구의 핵심 아이디어 sparse random graph이며, 다음과 같은 흐름으로 연구되었습니다. self-attention → fully-connected graph: self-attention을 각 token들의 linking으로 본다면 fully-connected graph로 표현할 수 있음 fully-connected graph → sparse random graph: self-attention graph를 훨씬 더 크게..