Înțelegerea scrubbinessului în modelele de regresie liniară
Scrubbiness este o măsură a cât de bine un model este capabil să elimine zgomotul din date. Este definit ca raportul dintre varianța reziduurilor (diferența dintre valorile prezise și valorile reale) și varianța datelor originale. O valoare mai mare a frecvenței indică faptul că modelul este mai bun la eliminarea zgomotului, în timp ce o valoare mai mică a curățării indică faptul că modelul este mai zgomotos.
În cazul dvs., utilizați un model de regresie liniară pentru a prezice prețul unei case pe baza caracteristicilor sale. Curățarea modelului poate fi calculată după cum urmează:
Scrubbiness = (Varianța reziduurilor) / (Varianța datelor originale)
unde varianța reziduurilor este media diferențelor pătrate dintre prețurile prezise și prețurile reale și varianța a datelor originale este media diferențelor pătrate dintre fiecare caracteristică și valoarea medie a acesteia.
De exemplu, dacă varianța reziduurilor este 100 și varianța datelor inițiale este 1000, atunci epurarea modelului ar fi:
Scrubbiness = (100) / (1000) = 0,1
Aceasta înseamnă că modelul este capabil să elimine doar 10% din zgomot din date și că există încă mult zgomot în predicții.
Este important de remarcat că zgomotul nu este o măsură a acurateței modelului, ci mai degrabă o măsură a cât de bine modelul este capabil să elimine zgomotul din date. Un model cu precizie ridicată poate avea totuși o frecvență scăzută dacă este foarte sensibil la zgomotul din date.



