통계학 맛보기

모수란?

  • 통계적 모델링은 적절한 가정 위에서 확률분포를 추정(inference)하는 것이 목표이며, 기계학습과 통계학이 공통적으로 추구하는 목표이다.
  • 유한한 개수의 데이터만 관찰해서 모집단의 분포를 정확하게 알아낸다는 것은 불가능하다. 때문에 근사적으로 확률분포를 추정할 수밖에 없다.
  • 데이터가 특정 확률분포를 따른다고 선험적(a priori)으로 가정한 후 그 분포를 결정하는 모수(parameter)를 추정하는 방법을 모수적 방법론이라고 한다.
  • 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌면, 그것을 비모수(nonparametric) 방법론이라 부른다.
    • 기계학습의 많은 방법론은 비모수 방법론에 속한다.
    • 모수가 무한히 많거나 모수가 데이터에 따라 바뀌는 것이지, 비모수방법론에는 모수가 없다는 것이 아니다.

확률분포 가정하기(예제)

  • 우선 히스토그램을 통해 모양을 관찰한다.
    1. 데이터가 2개의 값(0 또는 1)만 가지는 경우 -> 베르누이분포
    2. 데이터가 n개의 이산적인 값을 가지는 경우 -> 카테고리분포
    3. 데이터가 [0, 1]사이에서 값을 가지는 경우 -> 베타분포
    4. 데이터가 0 이상의 값을 가지는 경우 -> 감마분포, 로그정규분포 등
    5. 데이터가 R 전체에서 값을 가지는 경우 -> 정규분포, 라플라스분포 등

데이터로 모수 추정

  • 데이터의 확률분포를 가정했다면, 모수를 추정해볼 수 있다.
  • 정규분포의 모수는 평균과 분산으로, 이를 추정하는 통계량은 아래 식과 같다.
    • 표본분산을 구할 때 N이 아니라 N - 1 로 나누는 이유는 불편(unbiased) 추정량을 구하기 위해서다.
  • 통계량의 확률분포를 표집분포(sampling distribution)라 부르며, 특히 표본평균의 표집분포는 N이 커질수록 (데이터가 많아질수록) 정규분포를 따르게 된다.
    • 이것을 중심극한정리라고 부르며, 모집단의 분포가 정규분포를 따르지 않아도 성립한다.

최대가능도 추정법

  • 표본평균이나 표본분산은 중요한 통계량이지만 확률분포마다 사용하는 모수가 다르므로 적절한 통계량이 달라지게 된다.
  • 이론적으로 가장 가능성이 높은 모수를 추정하는 방법 중 하나는 최대가능도 추정법(maximum likelihood estimation, MLE)이다.
  • 데이터집합 X가 독립적으로 추출되었을 경우엔 로그가능도를 최적화한다.
    • 로그가능도를 사용하는 이유
      1. 로그가능도를 최적화하는 모수는 가능도를 최적화하는 MLE가 된다.
      2. 데이터의 숫자가 수억 단위가 된다면 컴퓨터의 정확도로는 가능도를 계산하는 것이 불가능해진다.
      3. 데이터가 독립일 경우, 로그를 사용하면 가능도의 곱셈을 로그가능도의 덧셈으로 바꿀 수 있기 때문에 컴퓨터로 연산이 가능해진다.
      4. 경사하강법으로 가능도를 최적화할 때 미분 연산을 사용하게 되는데, 로그가능도를 사용하면 연산량을 O(N^2)에서 선형시간으로 줄일 수 있다.
      5. 대개 손실함수의 경우 경사하강법을 사용하므로 음의 로그가능도(negative log-likelihood)를 최적화하게 된다.
Author

Yohan Lee

Posted on

2021-08-05

Updated on

2021-08-22

Licensed under

댓글