확률론 맛보기
딥러닝에서 확률론이 필요한 이유
- 딥러닝은 확률론 기반의 기계학습 이론에 바탕을 둔다.
- 손실함수 등의 작동원리가 데이터 공간을 통계적으로 해석해서 유도하기 때문.
- 회귀분석에서 손실함수로 사용되는 L2-노름은 예측오차의 분산을 가장 최소화하는 방향으로 학습
- 분류문제에서 사용되는 교차엔트로피(cross-entropy)는 모델 예측의 불확실성을 최소화하는 방향으로 학습
- 분산 및 불확실성을 최소화하기 위해서는 측정 방법을 알아야한다.
확률분포
- 확률분포란 데이터 공간에서 데이터를 추출하는 분포이다.
- 데이터는 확률변수로 (x, y) ~ D 라고 표기한다.
- 결합분포 P(x, y)는 D를 모델링한다.
- D는 이론적으로 존재하는 확률분포이기 때문에 사전에 알 수 없다.
확률변수
이산확률변수
- 이산형 확률변수는 확률변수가 가질 수 있는 경우의 수를 모두 고려하여 확률을 더해서 모델링한다.
연속확률변수
- 연속형 확률변수는 데이터 공간에 정의된 확률변수의 밀도 위에서의 적분을 통해 모델링한다.
- 밀도함수는 누적확률분포의 변화율을 모델링한 것으로 확률로 해석해서는 안된다.
조건부확률과 기계학습
- 조건부확률 P(y|x)는 입력변수 x에 대해 정답이 y일 확률을 의미한다.
- 로지스틱 회귀에서 사용했던 선형모델과 소프트맥스 함수의 결합은 데이터에서 추출된 패턴을 기반으로 확률을 해석하는데 사용된다.
- 회귀문제의 경우 조건부기대값을 추정한다.
- 기대값은 데이터를 대표하는 통계량이면서 동시에 확률분포를 통해 다른 통계적 범함수를 계산하는데 사용된다.
- 딥러닝은 다층신경망(MLP)를 사용하여 데이터로부터 특징패턴을 추출한다.
- 특징패턴을 위해 어떤 손실함수를 사용할지는 기계학습 문제와 모델에 의해 결정된다.
몬테카를로 샘플링
- 대부분 기계학습의 문제들은 확률분포를 명시적으로 모른다.
- 확률분포를 모를 때 데이터를 이용하여 기대값을 계산하려면 몬테카를로(Monte Carlo) 샘플링 방법을 사용해야 한다.
- 몬테카를로 샘플링은 독립추출만 보장된다면 대수의 법칙에 의해 수렴성을 보장한다.