[인공지능] 10장 선형 회귀

2022. 6. 9. 02:592022-1/인공지능

1) 선형 회귀 (Regression)

지도 학습

  • 회귀(regression): 입력에 대해 연속적인 결과값을 예측
  • 분류(classification): 입력에 대해 어떤 카테고리 중의 하나로 예측

=> 학습 데이터 (x,y)에 대하여 (x:d차원 벡터, y:실수)

   => y~f(x)인 함수 f를 추정해내는 것

 

회귀: 데이터들을 가장 잘 설명하는 직선이나 곡선을 찾는 문제 => 패턴을 찾는 것

 

선형 회귀

학습 데이터 (x,y) - x:1차원 벡터, y: 실수

  • 함수 f를 직선의 방정식으로 가정   즉, y=f(x)=mx+b
  • 그리하여, 선형 회귀는 입력 데이터를 가장 잘 설명하는 기울기(m)와 절편값(b)을 찾는 문제

손실 함수 (Loss Function)

직선 상의 값(즉, f(x))과 학습데이터의 결과값(y) 간의 차이를 제곱하여 합한 값을 손실 함수(loss function=error function=risk=cost) 또는 비용 함수(cost function)라고 함

=> 즉, 학습이란 위의 손실 함수값 Loss(W,b)를 최소로 하는 W, b를 찾는 것을 의미

 

학습과 손실

기계학습에서 "모델을 학습시킨다"는 것의 의미

  • 레이블이 있는 데이터로부터 올바른 가중치 w와 b를 학습(결정)하는 것

모델 학습의 목표

  • 모든 샘플에서 평균적으로 작은 손실(loss)을 갖는 W, b를 찾는 것

 

2) 선형 회귀에서 손실 함수 최소화 방법

경사하강법

3) 선형 회귀

Scikit-Learn 사용!

학습 데이터는 반드시 2차원 배열이어야 함

4) 과잉 적합 vs 과소 적합

과잉 적합(overfitting)이란

  • 학습하는 데이터에서는 성능이 뛰어나지만 새로운 데이터(일반화)에 대해서는 성능이 잘 나오지 않는 모델을 생성하는 것

과소 적합(underfitting)이란

  • 학습 데이터에서도 성능이 좋지 않은 경우

 

선형회귀 실습 살펴보기!