Разбиране на скраббиността в моделите на линейна регресия
Изчистването е мярка за това колко добре даден модел може да премахне шума от данните. Дефинира се като съотношението на дисперсията на остатъците (разликата между прогнозираните стойности и действителните стойности) към дисперсията на оригиналните данни. По-високата стойност на измиване показва, че моделът е по-добър в премахването на шума, докато по-ниската стойност на измиване показва, че моделът е по-шумен.
Във вашия случай използвате линеен регресионен модел, за да прогнозирате цената на къща въз основа на нейните характеристики. Изчистването на модела може да се изчисли по следния начин:
Изчистване = (Варианс на остатъците) / (Варианс на оригиналните данни)
където дисперсията на остатъците е средната стойност на квадратните разлики между прогнозираните цени и действителните цени и дисперсията на оригиналните данни е средната стойност на квадратните разлики между всяка характеристика и нейната средна стойност.
Например, ако дисперсията на остатъците е 100, а дисперсията на оригиналните данни е 1000, тогава нетъркаността на модела ще бъде:
нечистота = (100) / (1000) = 0,1
Това означава, че моделът е в състояние да премахне само 10% от шума от данните и все още има много шум в прогнозите.
Важно е да се отбележи, че търкането не е мярка за точността на модела, а по-скоро мярка за това колко добре моделът е в състояние да премахне шума от данните. Модел с висока точност все още може да има ниска степен на изтриване, ако е силно чувствителен към шум в данните.



