


線形回帰モデルの汚れを理解する
スクラビネスは、モデルがデータからノイズをどれだけ除去できるかを示す尺度です。これは、元のデータの分散に対する残差の分散 (予測値と実際の値の差) の比率として定義されます。スクラビネス値が高いほど、モデルがノイズ除去に優れていることを示し、スクラビネス値が低いほど、モデルにノイズが多いことを示します。この場合、線形回帰モデルを使用して、その特徴に基づいて住宅の価格を予測しています。モデルのスクラブ度は次のように計算できます。 スクラッビネス = (残差の分散) / (元のデータの分散) ここで、残差の分散は、予測価格と実際の価格の差の二乗と分散の平均です。元のデータの は、各特徴とその平均値の間の二乗差の平均です。たとえば、残差の分散が 100 で、元のデータの分散が 1000 の場合、モデルのスクラブ度は次のようになります。 = (100) / (1000) = 0.1
これは、モデルがデータからノイズの 10% しか除去できず、予測には依然として大量のノイズが存在することを意味します。これはモデルの精度の尺度ではなく、モデルがデータからノイズをどれだけ除去できるかの尺度です。データ内のノイズの影響を非常に受けやすい場合、高精度のモデルであってもスクラブ性が低い可能性があります。



