데이터 분석의 이상치 이해
이상값은 데이터세트의 다른 데이터 포인트로부터 멀리 떨어져 있는 데이터 포인트입니다. 이는 일반적으로 비정상적이거나 예외적인 사례로 간주되며 데이터 분석에 상당한 영향을 미칠 수 있습니다. 이상값은 긍정적일 수도 있고 부정적일 수도 있으며 통계 기법, 시각화 또는 도메인 지식과 같은 다양한 방법을 사용하여 식별할 수 있습니다.
여기에 몇 가지 일반적인 유형의 이상값이 있습니다.
1. 포인트 이상치: 단일 차원의 다른 데이터 포인트로부터 멀리 떨어져 있는 데이터 포인트입니다. 예를 들어 데이터 세트의 다른 데이터 포인트보다 훨씬 높거나 낮은 데이터 포인트입니다.
2. 상황별 이상치: 그 자체로는 이상하지 않지만 발생하는 상황을 고려할 때 특이한 데이터 포인트입니다. 예를 들어, 데이터세트의 다른 데이터 포인트보다 높거나 낮은 데이터 포인트는 데이터의 특정 그룹이나 하위 집합에만 해당됩니다.
3. 일시적 이상치: 이는 발생 기간에 비해 비정상적인 데이터 포인트입니다. 예를 들어, 특정 기간이나 계절 동안 다른 데이터 포인트보다 훨씬 높거나 낮은 데이터 포인트입니다.
4. 공간적 이상치: 이는 해당 위치에서 비정상적인 데이터 포인트입니다. 예를 들어, 특정 지역의 다른 데이터 포인트보다 훨씬 높거나 낮은 데이터 포인트입니다.
5. 다변량 이상치: 여러 변수 또는 차원이 주어지면 일반적이지 않은 데이터 포인트입니다. 예를 들어 한 변수에서는 높지만 다른 변수에서는 낮은 데이터 포인트입니다. 따라서 데이터를 기반으로 결론이나 결정을 내리기 전에 이상값을 신중하게 평가하고 조사하는 것이 중요합니다.