การทำความเข้าใจค่าผิดปกติในการวิเคราะห์ข้อมูล
ค่าผิดปกติคือจุดข้อมูลที่อยู่ห่างจากจุดข้อมูลอื่นๆ ในชุดข้อมูล โดยทั่วไปจะถือว่าเป็นกรณีพิเศษหรือกรณีพิเศษ และอาจมีผลกระทบอย่างมีนัยสำคัญต่อการวิเคราะห์ข้อมูล ค่าผิดปกติอาจเป็นค่าบวกหรือลบ และสามารถระบุได้โดยใช้วิธีการต่างๆ เช่น เทคนิคทางสถิติ การแสดงภาพ หรือความรู้ในโดเมน
ต่อไปนี้คือค่าผิดปกติบางประเภทที่พบบ่อย:
1 ค่าผิดปกติของจุด: คือจุดข้อมูลที่อยู่ห่างจากจุดข้อมูลอื่นๆ ในมิติเดียว ตัวอย่างเช่น จุดข้อมูลที่สูงกว่าหรือต่ำกว่าจุดข้อมูลอื่นๆ ในชุดข้อมูลมาก
2 ค่าผิดปกติตามบริบท: จุดข้อมูลเหล่านี้ไม่ได้ผิดปกติในตัวมันเอง แต่จะผิดปกติเมื่อพิจารณาจากบริบทที่เกิดขึ้น ตัวอย่างเช่น จุดข้อมูลที่สูงกว่าหรือต่ำกว่าจุดข้อมูลอื่นๆ ในชุดข้อมูล แต่สำหรับกลุ่มหรือชุดย่อยเฉพาะของข้อมูลเท่านั้น 3. ค่าผิดปกติชั่วคราว: จุดข้อมูลเหล่านี้คือจุดข้อมูลที่ผิดปกติตามช่วงเวลาที่จุดข้อมูลดังกล่าวเกิดขึ้น ตัวอย่างเช่น จุดข้อมูลที่สูงกว่าหรือต่ำกว่าจุดข้อมูลอื่นๆ มากในช่วงเวลาเฉพาะของปีหรือฤดูกาล
4 ค่าผิดปกติเชิงพื้นที่: คือจุดข้อมูลที่ผิดปกติเมื่อพิจารณาจากตำแหน่ง ตัวอย่างเช่น จุดข้อมูลที่สูงกว่าหรือต่ำกว่าจุดข้อมูลอื่นๆ ในภูมิภาคทางภูมิศาสตร์ที่เฉพาะเจาะจงมาก
5 ค่าผิดปกติหลายตัวแปร: คือจุดข้อมูลที่ผิดปกติเมื่อมีตัวแปรหรือมิติหลายตัว ตัวอย่างเช่น จุดข้อมูลที่สูงในตัวแปรหนึ่งแต่ต่ำในตัวแปรอีกตัวหนึ่ง สิ่งสำคัญคือต้องทราบว่าค่าผิดปกติทั้งหมดไม่ใช่ข้อผิดพลาดหรือความผิดปกติ บางจุดอาจเป็นจุดข้อมูลที่ถูกต้องที่ให้ข้อมูลเชิงลึกอันมีคุณค่าในข้อมูล ดังนั้นจึงเป็นเรื่องสำคัญที่จะต้องประเมินอย่างรอบคอบและตรวจสอบค่าผิดปกติก่อนที่จะสรุปหรือตัดสินใจตามข้อมูล