기계학습 이론 3 주차

나이브 베이즈 : classifier는 확률적 분류기 계열에 속함

모든 클래스에 대한 확률분포를 예측하기 위해, 각 클래스에 속하는 데이터의 예측 특징

속성이 각각 독립적이다 라고 전제하에

Bayers: bayes' theorem 조건부 확률을 관찬할 특징이 어떤 클래스에 속할지에 대한 조건부 확률에 매핑함

Support Vector Machine

Separating hyperplane (분리초평면)
- 초평면상의 모든 데이터 포인트 x는
- 궁국적인 모적은 w와 b를 찾는 것!
- 하지만 w와 b에 대해서 가능한 솔루션은 무수히 많음
여러가지 가능한 분리 초평면 중에서 가장 적합한 초평면은 어떻게 판별할까?
- 마진을 최대화 -> 에러를 최소화
- Margin은 w
- 초평면과 평행한 것중
  - 양수쪽에 있는 평면은 Positive hyperplane
  - 음수쪽에 있는 평면은 Negative hyperplane
- y가 -1, 1에 해당하는

Vector norm || W ||p for p = 1,2,3,...

|| W ||p = (시그마 |Wi|p) ^1/p

L2 norm 은 각 요소들을 제곱해서 다 합해준 다음 제곱근을 쓰워준거

L1 norm 은 각 요소들의 절대값의 합의 제곱근

Margin의 거리 = +plane와 -plane의 평행이동한 거리 결국 평면이니까 어쩌구 저쩌구

Margin = 2/L2 norm 을 최대화 하는 것이 목적 -> L2 norm 을 최소화 하는것

Objective : minimize 1/2 * (L2 norm)^2

Subject to 𝑦𝑖 𝑤𝑇 𝑥𝑖 + 𝑏 ≥ 1, 𝑖 = 1,2, … , 𝑛 , 제약식 : Margin >= 1

선형 분류 : Linear SVM ( Hard Margin SVM ) 마진안에는 데이터가 없음

∥ 𝑤𝑥′ + 𝑏 ∥는 데이터 포인트 x와 decision hyperplane 간의 거리로 볼 수 있는데. 이는 예측의 신뢰도라고 해석할 수 있음

이 값이 클수록 데이터 포인트가 결정 경계에서 더 멀리 떨어져 있으므로 예측 확실성이 높아짐

선형으로 는 분류 할 수 없는 경우

C는 margin과 training error에 대한 trade-off를 결정하는 tuning parameter

C값이 큰 경우 : 오분류에 대한 penalty가 상대적으로 높아짐 -> 오분류를 허락X

C값이 작은 경우 : 오분류에 대한 penalty가 상대적으로 적음 -> 오분류 허락

커널 함수(kernel function)

차원이 높아지면 상대적으로 분류가 쉬워질 수도 있음 (아닐수도 있음)
SVM을 original space가 아닌 feature space에서 학습
Original space에서 nonlinear decision boundary는 feature space에서 linear decision boundary
고차원 feature space 에서는 관측치 분류가 더 쉬울 수 있음
어떠한 커널 함수가 좋은지는 노가다(이게 맞음?)
종류

Gaussian kernel (Radial basis function (RBF) kernel) 이게 사용 많이 됨 : 사전 정보가 없는 경우에

SVM은 결과에 대한 해석이 어려움 : 근거가 뭐인지 알 수 없음

Forest3910