Puhtauden ymmärtäminen lineaarisissa regressiomalleissa
Puhtaus on mitta siitä, kuinka hyvin malli pystyy poistamaan kohinan tiedoista. Se määritellään jäännösten varianssin (ennustettujen arvojen ja todellisten arvojen eron) suhteena alkuperäisen datan varianssiin. Suurempi hankausarvo osoittaa, että malli poistaa melua paremmin, kun taas pienempi hankaavuusarvo osoittaa, että malli on meluisempi.
Tässä tapauksessa käytät lineaarista regressiomallia talon hinnan ennustamiseen sen ominaisuuksien perusteella. Mallin scrubbiness voidaan laskea seuraavasti:
Hiirto = (jäännösten varianssi) / (alkuperäisten tietojen varianssi)
jossa jäännösten varianssi on ennustettujen hintojen ja todellisten hintojen välisten neliöityjen erojen keskiarvo ja varianssi alkuperäisestä tiedosta on kunkin ominaisuuden ja sen keskiarvon välisten erojen neliöityjen keskiarvo.
Esimerkiksi jos jäännösten varianssi on 100 ja alkuperäisen datan varianssi on 1000, mallin puhtaus olisi:
Scrubbiness = (100) / (1000) = 0,1
Tämä tarkoittaa, että malli pystyy poistamaan datasta vain 10 % melusta, ja ennusteissa on edelleen paljon kohinaa.
On tärkeää huomata, että hankaus ei ole mitta mallin tarkkuudesta, vaan pikemminkin mitta siitä, kuinka hyvin malli pystyy poistamaan kohinaa tiedoista. Suuren tarkkuuden omaavalla mallilla voi silti olla alhainen puhdistuvuus, jos se on erittäin herkkä datan kohinalle.



