


Понимание нечистоты в моделях линейной регрессии
Чистота — это мера того, насколько хорошо модель способна удалять шум из данных. Он определяется как отношение дисперсии остатков (разницы между прогнозируемыми значениями и фактическими значениями) к дисперсии исходных данных. Более высокое значение очистки указывает на то, что модель лучше удаляет шум, а более низкое значение очистки указывает на то, что модель более шумная.
В вашем случае вы используете модель линейной регрессии для прогнозирования цены дома на основе его характеристик. Чистость модели можно рассчитать следующим образом:
Чистость = (Дисперсия остатков) / (Дисперсия исходных данных)
где дисперсия остатков представляет собой среднее значение квадратов разностей между прогнозируемыми ценами и фактическими ценами, а также дисперсию исходных данных представляет собой среднее значение квадратов разностей между каждым признаком и его средним значением.
Например, если дисперсия остатков равна 100, а дисперсия исходных данных равна 1000, то степень очистки модели будет равна:
Неряшливость = (100) / (1000) = 0,1
Это означает, что модель способна удалить только 10% шума из данных, и в прогнозах все еще присутствует много шума.
Важно отметить, что очистка не является это мера точности модели, а скорее мера того, насколько хорошо модель способна удалять шум из данных. Модель с высокой точностью может по-прежнему иметь низкую степень очистки, если она очень чувствительна к шуму в данных.



