


선형 회귀 모델의 스크러비 이해
스크러비성은 모델이 데이터에서 노이즈를 얼마나 잘 제거할 수 있는지를 측정한 것입니다. 원본 데이터의 분산에 대한 잔차의 분산(예측값과 실제값의 차이)의 비율로 정의됩니다. 스크러비 값이 높을수록 모델이 노이즈를 더 잘 제거한다는 것을 나타내고 스크러비 값이 낮을수록 모델에 노이즈가 더 많다는 것을 나타냅니다. 모델의 스크러비니스는 다음과 같이 계산할 수 있습니다.
스크러비성 = (잔차 분산) / (원본 데이터 분산)
여기서 잔차 분산은 예측 가격과 실제 가격 간의 차이 제곱의 평균이며, 분산은 원본 데이터의 평균은 각 기능과 해당 평균값 간의 차이 제곱의 평균입니다. 예를 들어 잔차의 분산이 100이고 원본 데이터의 분산이 1000인 경우 모델의 스크러비 정도는 다음과 같습니다. = (100) / (1000) = 0.1
이는 모델이 데이터에서 노이즈의 10%만 제거할 수 있고 예측에는 여전히 많은 노이즈가 존재한다는 것을 의미합니다. 모델의 정확도를 측정하는 것이 아니라 모델이 데이터에서 노이즈를 얼마나 잘 제거할 수 있는지를 측정하는 것입니다. 정확도가 높은 모델이라도 데이터의 노이즈에 매우 민감한 경우 스크러비(scrubby)가 여전히 낮을 수 있습니다.



