RNN 첫걸음
시퀀스 데이터
- 소리, 문자열, 주가 등처럼 순차적으로 나타나는 데이터를 시퀀스 데이터로 분류한다.
- 독립동등분포(i.i.d.) 가정을 잘 위배하기 때문에 순서를 바꾸거나 과거 정보에 손실이 발생하면 데이터의 확률분포도 바뀌게 된다.
이전 시퀀스의 정보를 가지고 앞으로 발생할 데이터의 확률분포를 다루기 위해 조건부확률을 이용할 수 있다.
시퀀스 데이터를 다루기 위해선 길이가 가변적인 데이터를 다룰 수 있는 모델이 필요하다.
H_T = Net_\Theta(H_{t-1}, X_{t-1})
시퀀스 길이가 길어지면 BPTT를 통한 역전파 알고리즘의 계산이 불안정해지므로 길이를 끊는 것이 필요하다. (truncated BPTT)
이러한 문제들 때문에 Vanila RNN은 길이가 긴 시퀀스를 처리하는데 문제가 있다.
- 이를 해결하기 위해 등장한 것이 LSTM과 GRU이다.