Разумевање и руковање изванредним вредностима у анализи података
Оутлиер је тачка података која је далеко другачија од осталих тачака података у скупу података. Оутлиерс се могу идентификовати по њиховим екстремним вредностима, било вишим или нижим од осталих података. У неким случајевима, одступници могу представљати грешке у прикупљању података или необичне догађаје који не одражавају типично понашање.ӕӕОутлиери могу имати значајан утицај на статистичке анализе и могу искривити резултате ако се њима не рукује правилно. На пример, ако је изузетак укључен у регресиону анализу, то може у великој мери утицати на нагиб линије регресије, што потенцијално доводи до нетачних предвиђања. Због тога је важно идентификовати и руковати на одговарајући начин када анализирате податке.ӕӕПостоји неколико метода за идентификацију и руковање одступницима, укључујући:ӕӕ1. Визуелна инспекција: Исцртавање података на дијаграму расејања или хистограму може помоћи да се идентификују одступања визуелизацијом дистрибуције података.ӕ2. Статистичке методе: Коришћење статистичких техника као што су з-сцоре, модификовани З-сцоре или методе засноване на густини за идентификацију оутлиера на основу њиховог одступања од средње вредности или медијане.ӕ3. Оквирни дијаграм: Оквирни дијаграм је графички приказ дистрибуције података који наглашава медијану, квартиле и вањске вредности.ӕ4. Махаланобисово растојање: Овај метод користи метрику удаљености која узима у обзир корелације између варијабли, чинећи је робуснијом него само коришћење стандардне девијације.ӕ5. Робусна регресија: Ова метода користи робусну технику процене за руковање одступницима пондерисањем тачака података на основу њихове поузданости.ӕ6. Виноров метод: Овај метод се користи за идентификацију одступања у скупу података тако што се израчунавају минималне и максималне вредности података и затим идентификују тачке које су ван ових опсега.ӕ7. Шума изолације: Овај метод користи ансамбл стабала одлучивања за идентификацију одступања креирањем процене података засноване на густини.ӕ8. Фактор локалног одступања (ЛОФ): Ова метода се користи за идентификацију одступања тако што се израчунава локална густина сваке тачке, а затим идентификују тачке са малом густином као одступници.ӕӕВажно је напоменути да нису сви одступници грешке или аномалије, неки се могу валидне тачке података које представљају ретке догађаје или необично понашање. Због тога је важно пажљиво проценити податке и утврдити да ли је одступање легитимно или не пре него што предузмете било какву радњу.



