1 Introduction

공부/PRML 2019. 5. 15. 20:22

패턴인식 분야는 컴퓨터 알고리즘을 통해서 데이터의 규칙성을 자동적으로 발견하는 것을 생각하고 이 규칙성을 다른 카테고리를 갖는 데이터를 분류하는데 사용

training set: 머신러닝의 적응가능한 모델(Adaptive model)의 파라미터를 튜닝하는데 사용

target vector: 머신러닝으로 분류하려는 카테고리를 나타내는 벡터

머신러닝의 결과는 y(x)와 같은 함수형태로 나타낼 수 있음

training phase, learning phase: 정확한 함수를 결정짓는 단계

test set: 학습된 모델에 적용되는 새로운 데이터

generalization: training에 사용되지 않은 데이터를 정확하게 categorize 하는 능력, 패턴인식의 목표

대부분의 경우, original input variable은 패턴인식 문제를 잘 풀기 위해 새로운 variable space로 변환되는 전처리(preprocessing)를 거침

전처리는 feature extraction이라고도 불림

새로운 test data도 training data와 마찬가지의 전처리 과정을 거쳐야 함

전처리는 계산을 빠르게 하기 위해서도 사용됨

전처리에서 버리는 데이터가 실제로 정확도에 영향을 끼칠 수 있기 때문에 전처리를 조심히 수행해야 함

supervised learning: training data가 연관된 target vector와 같이 있는 경우

classification: 각각의 input vector를 하나 이상의 discrete category로 assign 하는 문제

regression: output이 하나 또는 이상의 continuous variable인 경우

unsupervised learning: training dat가 연관된 target vector가 없는 경우

clustering: 비슷한 데이터끼리 group짓는 것

density estimation: input space에서 데이터의 distribution을 결정

visualization: 고차원에서 2차원 또는 3차원으로 prject하는 것

reinforcement learning: reward를 최대로 하기 위해 주어진 상황에서 적절한 action을 찾는 것, supervised learning과 반대로 optimal output의 예제가 없으며, trial and error 과정을 거침. 환경 내에서 학습 알고리즘이 state와 action의 sequence를 가짐. 현재의 action이 현재의 reward 뿐만 아니라 미래의 reward에도 영향을 줌.

credit assign 문제: exploration-exploitation 문제를 말함. 어느 하나에 집중하면 안 좋은 결과를 얻음

 

1.1 polynomial curve fitting 예제

linear model: 모르는 파라미터에 대해 linear한 모델, coefficient는 training을 통해 결정됨.

error function: coefficient를 구하기 위한 함수

  여러 방법이 있으며, 책에서는 예측값과 실제값이 차이의 제곱의 합으로 표시

  coefficient에 대해 미분하여 최소값을 찾아서 최적 모델을 정함

linear model에서 차수를 정하여 모델을 선택할 수 있음

over fitting: training data에 과도하게 맞추나, generalization이 안되는 경우

Root mean square error : 에러를 평균으로 하여 나타냄. 에러의 표준편차로 볼 수도 있음

데이터가 많으면 over fitting문제를 해결할 수도 있음

least square error를 찾는건 maximum likelihood의 한 특정 케이스로 볼 수 있으며, 오버 피팅 문제는 maximum likelihood의 일반적인 특성임. Bayesian 방법을 사용해서 오버 피팅 문제를 피할 수 있음. 베이시안 방법에서는 모델 파라미터의 수를 데이터 수에 자동적으로 맞출 수 있음.

데이터가 고정되어 있는 경우, 에러 함수에 regularization을 위한 별도의 term을 추가하여 오버 피팅 문제를 방지할 수 있음.

적절한 모델을 찾기 위해 training set를 나눠서 validation set(또는 hold-out set)을 만들 수 있으나, 가치 있는 training data를 버리는 꼴이 될 수도 있음.

 

1.2 Probability Theory

패턴 인식에서 주요 개념은 불확실성이다. 이는 측정의 노이즈나 한정된 data set 때문이다.

확률 이론은 불확실성을 다룰 수 있으며, decision theory와 결합하여 주어진 정보로부터 최적의 예측을 하게 해줌.

sum rule, product rule, joint probability, marginal probability, conditional probability, bayes theorem

prior probability P(A) : 관찰 이전의 A의 확률

posterior proability P(A|B) : B 관찰 이후 A의 확률

independent : 변수 x, y의 joint distribution p(x,y) = p(x)p(y)일 경우 x, y는 independent 함. p(x|y) = p(x)도 마찬가지

 

1.2.1 probability densities

실수에 대한 확률분포, 0보다 크거나 같으며 적분하면 1이 됨

한 변수에서 다른 변수로 nonlinear 변환을 할 경우, 확률 분포가 달라짐(형태가)

한 변수에서 다른 변수로 linear 변환을 할 경우, 확률 분포는 안 달라짐

  ※ 이는 확률 분포에서 확률은 밑 면적인데 이 때 p(x)dx = d(y)dy 와 같이 미분 텀인 dx, dy가 나오고, 이 것들에 대해 미분을 또 할 경우 별도의 추가 항이 나와서 확률 분포가 달라짐. 책에서 Jacobian factor라는 것은 dx/dy를 의미함. Jacobian은 R^m -> R^n인 함수에 대해 1차 편미분임(책에서는 x, y가 모두 다변수인 경우까지 고려해서 말한듯). 관련해서는 Excercise 1.4 답안 확인

https://en.wikipedia.org/wiki/Probability_density_function 의 dependent variables and change of variables 도 참고

 

Cumulative distribution function : -무한대부터의 누적

probability mass function : 이산값에 대한 확률분포

 

1.2.2 Expectation and covariances

average : 각 값에 각 값의 확률을 weight로 하여 weighted sum

conditional expectation: 조건확률에 대한 평균

variance: 값에서 평균을 뺀 것에 제곱. 얼마나 평균하고 값들이 벌어져 있나를 보임

covariance: 두 변수에 대한 상관성, 두 변수가 독립적이면 0

 

1.2.3 Bayesian probabilities

 

 

 

 

Posted by GOnNO
,