


Inzicht in scheefheid in statistieken en gegevensanalyse
Scheefheid is een maatstaf voor de mate waarin een set gegevens afwijkt van een symmetrische verdeling. Het wordt gedefinieerd als de gemiddelde afstand van de gegevenspunten tot het midden van de verdeling. Met andere woorden, scheefheid meet hoe "scheef" of "scheef" een verdeling is. Een verdeling met een hoge scheefheid betekent dat de gegevenspunten aan de ene kant van het centrum meer verspreid zijn dan aan de andere kant, terwijl een verdeling met een lage scheefheid betekent dat de gegevenspunten gelijkmatiger over het midden verdeeld zijn. De scheefheid wordt berekend met behulp van de volgende formule :
Schefheid = (som van alle afwijkingen van het gemiddelde) / (standaardafwijking van de verdeling)
waarbij de som van alle afwijkingen van het gemiddelde wordt berekend door het gemiddelde van elk gegevenspunt af te trekken en vervolgens al deze verschillen bij elkaar op te tellen, en de standaard afwijking van de verdeling is de vierkantswortel van de variantie van de verdeling. Scheefheid kan op verschillende manieren worden gebruikt in statistieken en data-analyse, zoals:
1. Om te bepalen of een dataset symmetrisch is of niet. Als de scheefheid bijna nul is, is de dataset ruwweg symmetrisch. Als de scheefheid groot is, dan is de dataset zeer scheef.
2. Om de vorm van verschillende datasets te vergelijken. Verschillende soorten gegevens hebben vaak verschillende niveaus van scheefheid. Financiële gegevens kunnen bijvoorbeeld meer vertekend zijn dan wetenschappelijke gegevens. Om uitbijters in een dataset te identificeren. Gegevenspunten die ver verwijderd zijn van het centrum van de verdeling hebben waarschijnlijk een grote invloed op de mate van scheefheid.
4. Om de aannames van statistische tests te controleren. Veel statistische tests gaan ervan uit dat de gegevens grofweg symmetrisch en normaal verdeeld zijn. Als de scheefheid van de gegevens hoog is, zijn deze aannames mogelijk niet geldig.



