1 minute read

title: 기계학습의 분류, 회귀, 군집화 date: 2021-05-03 01:09:00 -0400 categories: 머신러닝


3. 분류, 회귀 군집화 image

너무 특정한 case에 대한 데이터만 많아 특정한 case만 학습이 잘되는 경우 -> 데이터가 불균형하다!

불균형 데이터를 해결하는 방법

3. 분류, 회귀 군집화 image

분류기 성능평가

3. 분류, 회귀 군집화 image

3. 분류, 회귀 군집화 image

재현율과 정밀도가 중요하다!

정확도는 전체 데이터에서 얼마나 정확하게 측정했냐

조화평균 : 정밀도가 높지만 재현율 개판인걸 걸러낼 수 있다. 얼마나 조화롭게 이우러져있나? 하나만 치우쳐지지 않는가? -> 곱샘은 서로 수가 비슷할때 가장 크기때문에 조화를 이룰때가 조화평균 값이 가장 크다

3. 분류, 회귀 군집화 image

민감도와 재현율로 그래프를 그려보왔을때

위로갈수록 더 좋다, 1곡선이 2곡선보다 훨씬 좋고 정확한 곡선이다.

곡선을 그려 이진분류기의 성능을 측정한다

3. 분류, 회귀 군집화 image

y는 정답, f(x)는 모델에서 만들어낸 값

회귀는 정답과 모델값의 차이를 이용해 구한다.

3. 분류, 회귀 군집화 image

함수에 따라서 평평히 될수도있고 굴곡이 질 수도 있다.

성능으로 따져보면 오른쪽이 더 성능이 좋다고 판단한다. -> 점들과 평면의 차이가 오른쪽이 더 작기때문에(회귀가 더 작기 때문에) ->복잡한 모델이 더 좋다 -> 근데 항상 더 복잡한 모델이 더 좋은걸까?

3. 분류, 회귀 군집화 image

3. 분류, 회귀 군집화 image

첫번째가 부적합, 새번째가 과적합

과적합이 안좋은 이유는 미래의 새로운 데이터가 들어올때 좋은 퍼포먼스를 기대하기 힘들끼 때문이다

목적함수를 통해 부적합인지 과적합인지 정적합인지 확인한다

3. 분류, 회귀 군집화 image

원하는 값이 0,1 두가지 경우라면 로지스틱 회귀를 이용해서 모델의 적합도를 판단한다.

확률을 표현할때 로지스틱 회귀를 많이 쓴다, -> x1의 확률은 0.8, x2는 0.6 …..

크로스 엔트로피는 퀴즈에 나올 수 있다!!!! 크로스 엔트로피에 목적함수가 어떤식으로 적용되는가

3. 분류, 회귀 군집화 image

정규분포의 형태를 나타낼 수록 더 좋은 함수이다.

3. 분류, 회귀 군집화 image

앞에 분류와 회귀는 답이 있었지만 비지도 학습은 답이 없다!

3. 분류, 회귀 군집화 image

군집화는 보는사람에 따라 달려있다!!(주관적이다) 왼쪽을 오른쪽으로 군집화 할 수는 있지만 다른사람이 군집화를 하면 다른식으로 군집화가 될 수 있다.