David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 3강은 MDP 문제를 푸는 방법에 대한 내용이다. 1. Dynamic Programming MDP 문제는 대부분 Dynamic Programming을 통해 풀 수 있다. DP는 복잡한 문제를 subproblem으로 나눠서 푸는 방식이다. DP는 다음과 같은 두 특성을 가지고 있다. Optimal substructure: Optimal solution can be decomposed into subproblems(Principle of optimality가 적용됨) Overlapping subproblems: Subproblems recur many time and solutions can be cached and reused MDP는 ..
David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 1. Introduction Morkov Decision Process는 environment가 fully observable한 세팅을 의미한다. In mathematics, a Markov decision process (MDP) is a discrete-time stochastic control process. It provides a mathematical framework for modeling decision making in situations where outcomes are partly random and partly under the control of a decision maker. MDPs are useful for..
David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 1. Introduction 강화학습은 다음과 같은 특징이 있다. Supervisor가 없고 오직 reward signal만 있음 Feedback은 즉시 올 수도 있지만 지연될 수도 있음 시간을 고려해야 함(sequential, non i.i.d data) Agent의 action이 이후 데이터들에 영향을 줌 2. RL 문제 정의 1) Reward Reward($R_{t}$)는 $t$ 시점에서 agent가 얼마나 잘하고 있는지에 대한 scalar feedback signal이며, 강화학습은 아래와 같은 reward hypothesis를 기반으로 한다. Reward Hypothesis All goals can be described by..
Bishop의 PRML 책에서 Bayesian probability에 관한 내용이다. 1. Bayesian Probabilities 확률에는 두 가지 관점이 있다. frequentist view: frequencies of random, repeatable events Bayesian view: quantification of uncertainty 예를 들어 북극의 얼음이 녹아 없어지는 사건이 있다고 하자. 이런 사건은 반복적으로 일어나는 사건이 아니기 때문에 frequentist view로 확률을 계산할 수는 없다. 하지만 얼음이 얼마나 빨리 녹고 있는지를 관찰(e.g. 인공위성 촬영 사진)할 수 있다면 녹아서 없어지는 사건의 가능성을 측정해볼 수는 있을 것이다. In such circumstances..
확률 기초 이론을 정리해두고자 한다. 머피 책 Machine Learning - A Probabilistic Perspective, 위키피디아를 참고하였다. 1. 확률이란? Probability theory is nothing but common sense reduced to calculation. — Pierre Laplace, 1812 확률(probability)에는 두 가지 관점이 있다. frequentist interpretation: it defines an event's probability as the limit of its relative frequency in many trials (the long-run probability) Bayesian interpretation: probabil..
여러 이미지 관련 논문에서 baseline 모델로 사용되고 있는 ResNet 논문에 대해 정리하고자 한다(논문링크). 핵심 내용은 다음과 같다. Layer를 매우 많이 쌓을 때 특정 block 마다 입력을 layer 출력에 더해서 학습하면 더 잘된다 1. Introduction CNN의 layer 수를 증가시켜 deep하게 쌓으면 성능이 좋아질 것이라 예상됐지만 실제로는 위 그림처럼 train, test error 모두 증가하고 vanishing/exploding gradient 문제가 발생한다. 또한 deep 해지면 모델이 수렴은 했지만 성능이 나빠지는 degradation 문제가 발생한다. 본 연구에서는 이러한 문제들을 해결하는 deep residual learning에 대해 소개한다. Residua..
이미지, 텍스트(title or description) 쌍을 활용하여 효과적인 이미지 representaion을 학습한 방법인 CLIP(Contrastive Language-Image Pre-training) 논문을 정리하고자 한다.(논문링크, openAI 블로그 글) 1. Introduction 최근의 딥러닝 모델들은 auto-regressive, MLM과 같이 task-agnostic objective를 사용하되 모델사이즈를 키워 성능을 매우 올려왔으며, 기존의 crowd-labeled 데이터셋 보다 웹상에서 모은 데이터셋을 활용하는게 더 효과적이었다. Computer vision의 경우 여전히 label set이 고정된 형태의 데이터가 많이 사용되고 있었으며 때문에 확장성이 있는 모델을 만드는데 한..
wikepedia 내용을 정리하고자 한다. 일반적으로 loss 관점에서만 설명되는 글들이 많은데 확률분포 추정에서의 접근이 더 근본적인 방식이다. 1. KL Divergence(Kullback-Leibler Divergence) KL Divergence는 두 확률분포가 $P,Q$가 있을 때 두 분포가 얼마나 다른지를 측정하는 계산식이다. 정의와 예시는 이 wiki에 있다. $$D_{KL}(P \ || \ Q) = \sum_{x \in X}P(x) \text{log} (\frac{P(x)}{Q(x)})$$ 2. Cross Entropy (1) 정의 정보이론에서 cross-entropy는 두 확률 분포 p 와 q를 구분하기 위해 필요한 평균 비트 수를 의미한다. In information theory, th..
언어모델로 generation 시 특정 입력에 더 집중된 문장이 생성될 수 있도록 한 모델에 대해 정리하고자 한다(논문링크). 1. Introduction 현재 대부분의 언어모델은 transformer의 attention 메커니즘을 기반으로 하며 corpus만 주어지면 언어적인 특성과 주어진 입력을 잘 반영한 contextualized embedding을 생성할 수 있다. 하지만 입력 컨텍스트의 특정 부분에 집중하고 싶어도 기존의 attention 메커니즘 만으로는 이를 구현하기가 어렵다. 본 연구는 focus vector를 학습하여 이를 해결하고자 하였으며 주요 포인트는 다음과 같다. trainable focus vector의 효과를 탐색함. 이때 기존의 언어모델의 파라미터는 고정시켜 활용할 수 있다...
Transformer 계열의 언어모델에서의 contextualized embedding에 대해 분석한 논문을 정리하고자 한다(논문, 저자 블로그). 1. Introduction 기존의 static word embedding(ex. Word2Vec)은 문맥과 상관없이 단어에 대해 하나의 embedding만을 부여했다. 하지만 transformer 계열 모델들은 문맥을 반영한 embedding을 계산하게 되는데 저자는 문맥에 따라 embedding이 얼마나 차이나는지를 보고자 하였다. 'mouse'라고 하는 단어는 쥐, 컴퓨터기기 두 가지 의미가 있는데 1) 두 의미 각각에 대한 representation이 계산되거나(왼쪽 그림) 2) 아니면 문맥에 따라 매우 다른 representation이 계산(오른쪽 ..