Разумевање пражњења у моделима линеарне регресије
Чишћење је мера колико добро је модел у стању да уклони шум из података. Дефинише се као однос варијансе резидуала (разлика између предвиђених вредности и стварних вредности) и варијансе оригиналних података. Већа вредност прочишћавања указује да је модел бољи у уклањању буке, док нижа вредност прочишћавања указује да је модел бучнији.ӕӕУ вашем случају, користите модел линеарне регресије да бисте предвидели цену куће на основу њених карактеристика. Сцруббинесс модела се може израчунати на следећи начин:ӕӕСцрубинесс = (Варијанца остатака) / (Варијанца оригиналних података)ӕӕ где је варијанса резидуала просек квадрата разлике између предвиђених цена и стварних цена, и варијансе оригиналних података је просек квадрата разлика између сваке карактеристике и њене средње вредности.ӕӕНа пример, ако је варијанса резидуала 100, а варијанса оригиналних података 1000, онда би прочишћеност модела била:ӕӕСцрубинесс = (100) / (1000) = 0,1ӕӕОво значи да је модел у стању да уклони само 10% буке из података, и да је још увек много буке присутно у предвиђањима.ӕӕВажно је приметити да рибање није мера тачности модела, већ мера колико добро је модел у стању да уклони шум из података. Модел са високом прецизношћу може и даље имати ниску прочишћавање ако је веома осетљив на шум у подацима.



