Forstå skjevhet i statistikk og dataanalyse
Skjevhet er et mål på hvor mye et sett med data avviker fra en symmetrisk fordeling. Det er definert som gjennomsnittsavstanden til datapunktene fra sentrum av distribusjonen.
Med andre ord, skjevhet måler hvor "skjev" eller "skjev" en fordeling er. En fordeling med høy skjevhet betyr at datapunktene er mer spredt på den ene siden av midten enn den andre, mens en fordeling med lav skjevhet betyr at datapunktene er jevnere fordelt rundt sentrum.
Skevhet beregnes ved hjelp av følgende formel :
Skevhet = (summen av alle avvik fra gjennomsnittet) / (standardavviket til fordelingen)
hvor summen av alle avvikene fra gjennomsnittet beregnes ved å trekke gjennomsnittet fra hvert datapunkt og deretter legge sammen alle disse forskjellene, og standarden avvik i fordelingen er kvadratroten av variansen til fordelingen.
Skevhet kan brukes på en rekke måter i statistikk og dataanalyse, som:
1. For å finne ut om et datasett er symmetrisk eller ikke. Hvis skjevheten er n
r null, er datasettet omtrent symmetrisk. Hvis skjevheten er stor, er datasettet sv
rt skjevt.
2. For å sammenligne formen til forskjellige datasett. Ulike typer data har ofte ulike nivåer av skjevhet. For eksempel kan økonomiske data v
re mer skjeve enn vitenskapelige data.
3. For å identifisere uteliggere i et datasett. Datapunkter som er langt unna sentrum av distribusjonen vil sannsynligvis ha stor innflytelse på skjevhetsmålet.
4. For å sjekke forutsetningene for statistiske tester. Mange statistiske tester antar at dataene er omtrent symmetriske og normalfordelte. Hvis skjevheten til dataene er høy, kan det hende at disse forutsetningene ikke er gyldige.



