David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 0. Introduction RL은 아래와 같이 굉장히 큰 크기의 문제들을 풀 수 있다. Backgammon: $10^{20}$ states Computer Go: $10^{170}$ states Helicopter: continuous state space 5장에서 배웠던 model-free 환경에서의 prediction, control 문제들에 대해 scale up 할 수 있는 방법을 이번 장에서 배울 것이다. *So far we, we have represented valu function by a lookup table. Every state $s$ has an entry $V(s)$ Or every state-action pa..
David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 현재 배우고 있는 내용의 흐름은 다음과 같다. 4장 Model-Free prediction: Estimate the value of an unknown MDP(Policy Evaluation) 5장 Model-Free control: Optimize the value function of an unkown MDP(환경이 주어지지 않았을 때 어떻게 reward를 최대로 하는 방향으로 모델을 학습시킬 것인가) MDP로 모델링 될 수 있는 문제들은 Elevator, Robocup Soccer, Ship Steering, Helicoper, Game of Go, Robot walking, Protein Folding등으로 다양하다. 이 문제들..
David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 현재 배우고 있는 내용의 흐름은 다음과 같다. 3장 Planning by DP: known MDP를 푸는 방법(find optimal behavior of MDP that maximizes the amount of rewards agent can expect to get from any state of environment) 4장 Model-Free prediction: Estimate the value of an unknown MDP(Policy Evaluation) 5장 Model-Free control: Optimize the value function of an unkown MDP 1. Monte-Carlo Reinforceme..
sysstat을 사용해서 cpu, ram 사용량 변화를 기록해둘 수 있는 방법을 정리하고자 한다. 1. sysstat 설치 apt-get install sysstat 이후 /etc/default/sysstat 파일을 열어 ENABLED="true"로 설정하고 ctrl+X → y → Enter를 눌러 파일을 저장하고 sysstat을 재시작해준다. nano /etc/default/sysstat service sysstat restart 2. sysstat으로 사용량 기록하기 sar 공식문서를 참고하면 다양한 방식으로 시스템 사용량을 확인할 수 있다. (1) CPU 사용량 # cpu 사용량을 2초마다 사람이 읽기 편한 형태로 5번 기록 sar -p 2 5 --human (2) RAM 사용량 # ram 사용량을..
GPT계열 LLM 모델의 zero-shot 성능을 높인 방법인 instruction-tuning에 대한 논문 내용을 정리하고자 한다(논문링크). 1. Introduction GPT3와 같은 모델들은 few-shot 성능이 (기대보다)뛰어나다는 특징이 있는 반면, zero-shot에 대해서는 성능이 낮다. FLAN은 자연어 instruction과 one-shot example을 데이터셋으로 구성하여 fine-tuning 시켜(Instruction Tuning) unseen task에 대한 zero-sho 성능을 높인 연구이다. FLAN 연구의 intuition은 다음과 같다. LM(Language Model)에 주어지는 입력인 zero-shot prompt(no few-shot example)은 실제 모델..
David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 3강은 MDP 문제를 푸는 방법에 대한 내용이다. 1. Dynamic Programming MDP 문제는 대부분 Dynamic Programming을 통해 풀 수 있다. DP는 복잡한 문제를 subproblem으로 나눠서 푸는 방식이다. DP는 다음과 같은 두 특성을 가지고 있다. Optimal substructure: Optimal solution can be decomposed into subproblems(Principle of optimality가 적용됨) Overlapping subproblems: Subproblems recur many time and solutions can be cached and reused MDP는 ..
David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 1. Introduction Morkov Decision Process는 environment가 fully observable한 세팅을 의미한다. In mathematics, a Markov decision process (MDP) is a discrete-time stochastic control process. It provides a mathematical framework for modeling decision making in situations where outcomes are partly random and partly under the control of a decision maker. MDPs are useful for..
David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 1. Introduction 강화학습은 다음과 같은 특징이 있다. Supervisor가 없고 오직 reward signal만 있음 Feedback은 즉시 올 수도 있지만 지연될 수도 있음 시간을 고려해야 함(sequential, non i.i.d data) Agent의 action이 이후 데이터들에 영향을 줌 2. RL 문제 정의 1) Reward Reward($R_{t}$)는 $t$ 시점에서 agent가 얼마나 잘하고 있는지에 대한 scalar feedback signal이며, 강화학습은 아래와 같은 reward hypothesis를 기반으로 한다. Reward Hypothesis All goals can be described by..
Bishop의 PRML 책에서 Bayesian probability에 관한 내용이다. 1. Bayesian Probabilities 확률에는 두 가지 관점이 있다. frequentist view: frequencies of random, repeatable events Bayesian view: quantification of uncertainty 예를 들어 북극의 얼음이 녹아 없어지는 사건이 있다고 하자. 이런 사건은 반복적으로 일어나는 사건이 아니기 때문에 frequentist view로 확률을 계산할 수는 없다. 하지만 얼음이 얼마나 빨리 녹고 있는지를 관찰(e.g. 인공위성 촬영 사진)할 수 있다면 녹아서 없어지는 사건의 가능성을 측정해볼 수는 있을 것이다. In such circumstances..
확률 기초 이론을 정리해두고자 한다. 머피 책 Machine Learning - A Probabilistic Perspective, 위키피디아를 참고하였다. 1. 확률이란? Probability theory is nothing but common sense reduced to calculation. — Pierre Laplace, 1812 확률(probability)에는 두 가지 관점이 있다. frequentist interpretation: it defines an event's probability as the limit of its relative frequency in many trials (the long-run probability) Bayesian interpretation: probabil..
여러 이미지 관련 논문에서 baseline 모델로 사용되고 있는 ResNet 논문에 대해 정리하고자 한다(논문링크). 핵심 내용은 다음과 같다. Layer를 매우 많이 쌓을 때 특정 block 마다 입력을 layer 출력에 더해서 학습하면 더 잘된다 1. Introduction CNN의 layer 수를 증가시켜 deep하게 쌓으면 성능이 좋아질 것이라 예상됐지만 실제로는 위 그림처럼 train, test error 모두 증가하고 vanishing/exploding gradient 문제가 발생한다. 또한 deep 해지면 모델이 수렴은 했지만 성능이 나빠지는 degradation 문제가 발생한다. 본 연구에서는 이러한 문제들을 해결하는 deep residual learning에 대해 소개한다. Residua..
이미지, 텍스트(title or description) 쌍을 활용하여 효과적인 이미지 representaion을 학습한 방법인 CLIP(Contrastive Language-Image Pre-training) 논문을 정리하고자 한다.(논문링크, openAI 블로그 글) 1. Introduction 최근의 딥러닝 모델들은 auto-regressive, MLM과 같이 task-agnostic objective를 사용하되 모델사이즈를 키워 성능을 매우 올려왔으며, 기존의 crowd-labeled 데이터셋 보다 웹상에서 모은 데이터셋을 활용하는게 더 효과적이었다. Computer vision의 경우 여전히 label set이 고정된 형태의 데이터가 많이 사용되고 있었으며 때문에 확장성이 있는 모델을 만드는데 한..
wikepedia 내용을 정리하고자 한다. 일반적으로 loss 관점에서만 설명되는 글들이 많은데 확률분포 추정에서의 접근이 더 근본적인 방식이다. 1. KL Divergence(Kullback-Leibler Divergence) KL Divergence는 두 확률분포가 $P,Q$가 있을 때 두 분포가 얼마나 다른지를 측정하는 계산식이다. 정의와 예시는 이 wiki에 있다. $$D_{KL}(P \ || \ Q) = \sum_{x \in X}P(x) \text{log} (\frac{P(x)}{Q(x)})$$ 2. Cross Entropy (1) 정의 정보이론에서 cross-entropy는 두 확률 분포 p 와 q를 구분하기 위해 필요한 평균 비트 수를 의미한다. In information theory, th..
언어모델로 generation 시 특정 입력에 더 집중된 문장이 생성될 수 있도록 한 모델에 대해 정리하고자 한다(논문링크). 1. Introduction 현재 대부분의 언어모델은 transformer의 attention 메커니즘을 기반으로 하며 corpus만 주어지면 언어적인 특성과 주어진 입력을 잘 반영한 contextualized embedding을 생성할 수 있다. 하지만 입력 컨텍스트의 특정 부분에 집중하고 싶어도 기존의 attention 메커니즘 만으로는 이를 구현하기가 어렵다. 본 연구는 focus vector를 학습하여 이를 해결하고자 하였으며 주요 포인트는 다음과 같다. trainable focus vector의 효과를 탐색함. 이때 기존의 언어모델의 파라미터는 고정시켜 활용할 수 있다...
Transformer 계열의 언어모델에서의 contextualized embedding에 대해 분석한 논문을 정리하고자 한다(논문, 저자 블로그). 1. Introduction 기존의 static word embedding(ex. Word2Vec)은 문맥과 상관없이 단어에 대해 하나의 embedding만을 부여했다. 하지만 transformer 계열 모델들은 문맥을 반영한 embedding을 계산하게 되는데 저자는 문맥에 따라 embedding이 얼마나 차이나는지를 보고자 하였다. 'mouse'라고 하는 단어는 쥐, 컴퓨터기기 두 가지 의미가 있는데 1) 두 의미 각각에 대한 representation이 계산되거나(왼쪽 그림) 2) 아니면 문맥에 따라 매우 다른 representation이 계산(오른쪽 ..