Bij de normaal verdeling ligt het grootste gedeelte van alle waarden rond het gemiddelde, dit is het hoge deel van de normaal verdeling. Hoe verder je van het gemiddelde verwijdert raakt, hoe minder waarden je zult vinden. Bij de normale verdeling liggen het gemiddelde en de mediaan precies in het midden.
Wat is de normale verdeling? De normale verdeling is een kansverdeling die je herkent aan een curve met de vorm van een kerstklok. Die krijg je als je de waarden van een variabele (aantal haren, lengte, gewicht) in een grafiek op de x-as uitzet en hoe vaak die waarde voorkomt (frequentie) op de y-as.
Om te controleren of de data normaal verdeeld is, kan de normaliteit getoetst worden. Twee veelgebruikte toetsen zijn: de Kolmogorov-Smirnov test en de Shapiro-Wilk test.
Het gemiddelde wordt in een normale verdeling vaak aangegeven met de letter μ (spreek uit als 'mu'). De totale oppervlakte onder de kromme stelt alle getallen voor die in de populatie voorkomen. Dit is dus 100%. Zoals je in het plaatje hieronder ziet, liggen de meeste gevallen in het middelste stuk.
Het begrip standaarddeviatie wordt veel gebruikt in de statitiek. Het is een maat voor de spreiding van de data in je dataset. De standaarddeviatie vertelt je hoever iedere waarde in de dataset gemiddeld van het gemiddelde is verwijderd. Hoe groter de standaarddeviatie, hoe meer variabel je dataset is.
Voorbeelden van normaal verdeelde variabelen zijn lengtes, gewichten, maar ook bijvoorbeeld scores op een test. Een normale verdeling laat zien dat bijvoorbeeld de meeste mensen rond een bepaald gemiddelde scoren. Hoe verder je van het gemiddelde af komt, hoe minder mensen zo'n afwijkende waarde hebben gescoord.
Enkele voorbeelden van variabelen die geneigd zijn de normaalverdeling te volgen, zijn: lengte, gewicht, IQ, examenresultaten, leeftijd, … De normaalverdeling is zonder twijfel een van de werkpaarden van de statistiek, die de basis vormt van veel gevorderde statistiek, zoals hypotheses testen.
Bij een normale verdeling geldt dat 95% van alle waarden ligt tussen 1,96 standaarddeviaties rechts (plus) en links (min) van het gemiddelde, 90% van de waarden ligt tussen 1,65 standaarddeviaties en 99% van de waarden tussen 2,58 standaarddeviaties links en rechts van het gemiddelde.
Als je steekproef minder dan 30 observaties telt, moet de afhankelijke variabele normaal verdeeld zijn. Dit kun je controleren in SPSS met de Shapiro-Wilk- of Kolmogorov-Smirnov-toets. Als de variabele niet normaal verdeeld is, kun je beter de Wilcoxon- of de Mann-Whitney-toets gebruiken.
Wiskundigen hebben aangetoond dat een steekproevenverdeling altijd een normale verdeling is met standaardafwijking σ√n als n de grootte van elke steekproef is en σ de populatiestandaarddeviatie is.
In SPSS: ga naar Analyze > Descriptive Statistics > Explore. Kies je 'dependent' (afhankelijke/uitkomst variabele) en evt je 'independent' (onafhankelijke/predictor) variabele(n) en klik op 'Plots', vink hier (in het midden) de optie 'Normality plots with tests' aan.
Als het gaat om een normale verdeling, zou dat eigenlijk altijd moeten worden vermeld. De waarnemingen zijn in principe continu meetbaar, zoals lengte, gewicht enz. Bij een binomiale verdeling tel je hoe vaak het antwoord op een vraag ja of nee is. De kans op ja is p en de kans op nee is 1-p.
Bij statistiek worden t-scores voornamelijk gebruikt om de volgende waarden te bepalen: De boven- en ondergrenzen van een betrouwbaarheidsinterval als de data ongeveer normaal verdeeld zijn. De p-waarde van de teststatistiek voor t-toetsen en regressieanalyses.
Wat is een normale verdeling? Er zijn twee parameters die bepalen hoe de normale verdeling eruitziet: het gemiddelde en de standaarddeviatie. Binnen één standaarddeviatie ligt 68,2% van de observaties (34,1% + 34,1%), binnen twee standaarddeviaties 95,2% en binnen drie standaarddeviaties 99,6%.
Een 0 Z-score betekent dat de observatie precies gelijk is aan het gemiddelde. Een 1 Z-score betekent dat de waarde 1 standaardafwijking groter is dan het gemiddelde. Andersom betekent een -1 Z-score dat de waarde 1 standaardafwijking kleiner is dan het gemiddelde.
Maak een lijst van alle scores en vind het gemiddelde. Trek het gemiddelde af van iedere score om de afstand (afwijking) tot het gemiddelde te berekenen. Bereken voor iedere afwijking het kwadraat. Tel alle gekwadrateerde afwijkingen bij elkaar op.
Als vuistregel geldt dat waarden tussen -0,5 en +o,5 indicatief zijn voor een goede normale verdeling. Waarden tussen -1 en +1 duiden op een redelijk goede normaal verdeling en waarden kleiner dan -1 of groter dan +1 zijn indicatief voor niet normale verdelingen.
De Pearson correlatie weergeeft de samenhang van twee variabelen, maar duidt niet op een oorzakelijk verband. Met de Pearson correlatie kun je dus niet zeggen of de ene variabele de andere veroorzaakt.
De Normale Verdeling, ook wel de Gausscurve of Bell curve genoemd, is een symmetrische kansverdeling die vaak voorkomt in de natuurlijke wereld. Het wordt gekenmerkt door een centrale piek en afnemende waarschijnlijkheid aan beide zijden.
Met de standaarddeviatie kun je uitbijters opsporen
Als vuistregel geldt dat er in het interval dat bepaald wordt door het gemiddelde plus één maal de standaarddeviatie (de bovengrens) en het gemiddelde min één maal de standaarddeviatie (de ondergrens), ongeveer 69% van alle waarden voor moet komen.
Standaarddeviatie (standard deviation): de gemiddelde afstand tussen iedere waarde in de dataset en het gemiddelde.Variantie (variance): de standaarddeviatie in het kwadraat.