Personen (of beter gezegd: cases/metingen/data-punten) met een Z-score groter dan 3 of kleiner dan -3 kun je dus vaak beschouwen als outliers. Deze personen zitten dus in de uiterste 5% van de scores.
De outlierformule duidt outliers aan op basis van een boven- en ondergrens (u kunt deze zien als cutoff-punten). Elke waarde die 1,5 x IQR groter is dan het derde kwartiel, wordt aangemerkt als outlier en elke waarde die 1,5 x IQR kleiner is dan het eerste kwartiel, wordt ook aangemerkt als outlier.
Zoek de kritieke waarde van t in de tweezijdige t-tabel. Vermenigvuldig de kritieke waarde van t met. . Tel deze waarde bij het gemiddelde op om de bovengrens van het betrouwbaarheidsinterval te berekenen, en trek deze waarde van het gemiddelde af om de ondergrens van het betrouwbaarheidsinterval te berekenen.
Statistische analyse. Het identificeren van outliers in SPSS is een belangrijke stap in data-analyse, omdat ze een significante impact kunnen hebben op de resultaten van statistische analyses. Outliers zijn datapunten die significant verschillen van de meerderheid van de data . Meetfouten of fouten in de data-invoer kunnen dit veroorzaken.
Dit is een regel die de kwartielen en IQR van een dataset gebruikt om de bovenste en onderste fence van een dataset te bepalen. Elk datapunt dat buiten deze fences ligt, wordt beschouwd als een outlier. De formule voor de bovenste fence is Q3 + 1,5 (IQR) en de formule voor de onderste fence is Q1 - 1,5 (IQR) .
Een uitbijter of uitschieter (outlier) is in de statistiek en gegevensanalyse een waarneming die niet bij de overige lijkt te passen. Meestal betreft het een van de gegevens die relatief ver van de overige data verwijderd ligt.
Om dit hek te bouwen nemen we 1,5 keer de IQR en trekken deze waarde af van Q1 en tellen deze waarde op bij Q3 . Dit geeft ons de minimale en maximale hekpalen waarmee we elke observatie vergelijken. Alle observaties die meer dan 1,5 IQR onder Q1 of meer dan 1,5 IQR boven Q3 liggen, worden beschouwd als outliers.
In sommige boxplots zijn ook uitschieters (of uitbijters) afgebeeld. Dat zijn extreme hoge of lage waarden die eigenlijk niet bij de rest van de getallen passen. Deze uitschieters liggen meestal ver verwijderd van de andere getallen, dus ver onder het minimum of ver boven het maximum.
Waarden worden geclassificeerd als uitschieters als ze meer dan een afstand van 1,5 X(Q3 - Q1) boven Q3 of onder Q1 liggen. Voor onze gegevens is deze afstand 1,5X(2,4 - 1,6) = 1,5X(. 8) = 1,2. Elke waarde onder 0,4 of boven 3,6 wordt geclassificeerd als uitschieter. 4,1 en 4,6 zijn uitschieters.
Je kunt outliers het beste alleen verwijderen als je daar een goede reden voor hebt. Sommige uitschieters vertegenwoordigen natuurlijke variatie in de populatie en deze mogen niet worden verwijderd uit je dataset.
Er is namelijk een vuistregel (de empirische regel) die zegt dat 68% van de personen tussen een Z-score van -1 en 1 zit, dat 95% van de personen een Z-score tussen -2 en 2 heeft, en 99,7% binnen 3 standaarddeviaties ten opzichte van het gemiddelde zit.
Onderzoek de uitschieters
Ze kunnen het gevolg zijn van fouten bij het invoeren van gegevens, meetfouten of het kunnen echte extreme waarden zijn. Als de outliers het gevolg zijn van fouten, moet u ze indien mogelijk corrigeren of uit uw analyse verwijderen.
De standaarddeviatie van de dataset {5, 5, 9, 9, 9, 10, 5, 10, 10} is dus 2,2913 .
Interpreteren van de standaarddeviatie
Als er helemaal geen variatie in de getallenreeks is dan is de uitkomst 0 (nul).Alle getallen komen dan overeen met het gemiddelde. Verder kan de standaarddeviatie in theorie oplopen tot plus oneindig.
Als je bijvoorbeeld een betrouwbaarheidsinterval met een betrouwbaarheidsniveau van 95% kiest, betekent dit dat je ervan overtuigd bent dat de schatting 95 van de 100 keer tussen de bovenste en onderste waarden van het betrouwbaarheidsinterval zal vallen.
Een scatterplot is handig om outliers te vinden in bivariate data (data met twee variabelen). U kunt de outliers gemakkelijk spotten omdat ze ver weg liggen van de meeste punten op de scatterplot.
Waarom we 1,5IQR gebruiken: Per definitie liggen 50% van alle metingen binnen ±0,5IQR van de mediaan . Vergelijk dit - heuristisch - met een normale verdeling waarbij 68% binnen ±σ ligt, dus in dat geval zou IQR iets minder zijn dan σ.
Als we de verticale afstand van een datapunt naar het corresponderende punt op de lijn van de beste fit zouden meten en die afstand is ten minste 2 seconden, dan zouden we het datapunt als te ver van de lijn van de beste fit beschouwen. We noemen dat punt een potentiële outlier.
Trek het gemiddelde af van iedere score om de afstand (afwijking) tot het gemiddelde te berekenen. Bereken voor iedere afwijking het kwadraat. Tel alle gekwadrateerde afwijkingen bij elkaar op. Deel de som van de gekwadrateerde afwijkingen door N – 1.
Klik op Analyseren\Beschrijvende statistieken\Beschrijvend. Verplaats de variabelen die u wilt analyseren naar het vak Variabelen. Klik op de optieknop om ervoor te zorgen dat gemiddelde, standaarddeviatie, minimum, maximum, scheefheid en kurtosis zijn geselecteerd. Klik op OK.
Een passieve onafhankelijke variabele kan niet gemanipuleerd worden. Voorbeelden daarvan zijn lichaamslengte, leeftijd of geslacht.