머신러닝 관련 자료를 보다보면 Regression 이란 단어가 자주나온다.
Linear Regression, Logistic regression, ...
보다보니 통계학에서도 마찬가지다.
회귀라는 말은 알겠는데 뭔말인지 이해가 되지 않는다.
찾다보면 결국 프랜시스 골턴 우생학자의 논문이 기원이었다.
(Francis Galton in his 1886 paper "Regression towards mediocrity in hereditary stature")
평균으로의 회귀(regression to the mean)
조금이해가 되긴하는데 좀 더 따라가볼까.
단순히 한글 뜻은 '회귀'.
- 한 바퀴 돌아서 본디의 자리나 상태로 돌아오는 것. 순화어는 `돌아옴'.
回歸
- 돌아오다 회
- 돌아오다 귀
원래대로 되돌아 온다는 말인데 Regression의 의미를 다 표현하지 못하는 느낌이다.
결국 영어 단어 뜻이 가장 와 닿는다. [1]
Regression: "Relapse to a less perfect or developed state."
"덜 완벽하거나 발전된 상태로 되돌아가는 것."
머신러닝에서 회귀란
하나 이상의 입력 변수를 기반으로 연속적인 수치 출력 변수를 예측하는 작업을 말한다.
- 단순 선형 회귀 [2]
- 선형 함수로 정의
- Y= β0*X + β1 + ε
- β0과 β1은 회귀 기울기, ε(엡실론)은 오차
- 두 변수 간의 관계 모델링
- 강우량과 작물 수확량
- 어린이의 나이와 키
- 온도계에서 금속 수은의 온도와 팽창
- 선형 함수로 정의
- 다중 선형 회귀
- 데이터 세트에는 하나의 종속 변수와 여러 독립 변수가 포함
- Y= β0*X0 + β1X1 + β2X2+…… βnXn+ ε
- 예측 변수의 수가 증가하면 β도 그에 따라 증가
- 여러 변수와 그 변수가 결과에 미치는 영향을 모델링
- 강우량, 온도 및 비료 사용에 작물 수확량에 미치는 영향
- 식이요법과 운동이 심장병에 미치는 영향
- 임금 인상과 인플레이션이 주택 대출 금리에 미치는 영향
- 데이터 세트에는 하나의 종속 변수와 여러 독립 변수가 포함
- 로지스틱 회귀
- 데이터 사이언티스트는 로지스틱 회귀 분석을 사용하여 이벤트 발생 확률을 측정
- 예측은 0과 1 사이의 값
- 0: 발생할 가능성이 낮은 이벤트
- 1: 발생할 가능성이 가장 높은 이벤트
- 로지스틱 방정식은 로그 함수를 사용하여 회귀선을 계산합니다.
- 예시
- 스포츠 경기에서 승리 또는 패배 확률
- 테스트 통과 또는 실패 확률
- 이미지가 과일 또는 동물일 확률
머신러닝에서 "회귀"라는 용어가 사용되는 이유는 입력 변수를 선형 또는 비선형 함수를 통해
"회귀" 또는 출력 변수로 매핑하는 모델을 찾는 것이 목표인데
이 프로세스에는 출력 변수의 예측 값과 실제 값 사이의 오차를 최소화하는
위의 이미지들 같이 최적의 선 또는 곡선을 찾아서 일반화 할 수 있기 때문이다.
참고:
반응형