


Comprendre le gommage dans les modèles de régression linéaire
L'épuration est une mesure de la capacité d'un modèle à supprimer le bruit des données. Elle est définie comme le rapport entre la variance des résidus (la différence entre les valeurs prédites et les valeurs réelles) et la variance des données originales. Une valeur de lavage plus élevée indique que le modèle élimine mieux le bruit, tandis qu'une valeur de lavage plus faible indique que le modèle est plus bruyant.
Dans votre cas, vous utilisez un modèle de régression linéaire pour prédire le prix d'une maison en fonction de ses caractéristiques. L'imprécision du modèle peut être calculée comme suit :
Épuration = (Variance des résidus) / (Variance des données originales)
où la variance des résidus est la moyenne des carrés des différences entre les prix prévus et les prix réels, et la variance des données d'origine est la moyenne des carrés des différences entre chaque entité et sa valeur moyenne.
Par exemple, si la variance des résidus est de 100 et la variance des données d'origine est de 1 000, alors le degré de propreté du modèle serait :
Moucheté = (100) / (1 000) = 0,1
Cela signifie que le modèle n'est capable de supprimer que 10 % du bruit des données, et qu'il y a encore beaucoup de bruit présent dans les prédictions.
Il est important de noter que le gommage n'est pas une mesure de la précision du modèle, mais plutôt une mesure de la capacité du modèle à éliminer le bruit des données. Un modèle de grande précision peut néanmoins avoir un faible niveau de récurage s'il est très sensible au bruit dans les données.



