De standaardnormale verdeling, ook wel z-verdeling genoemd, is een speciale normale verdeling waarbij het gemiddelde gelijk is aan 0 en de standaarddeviatie gelijk is aan 1. Elke normale verdeling kan worden omgezet in de standaardnormale verdeling door de individuele waarden om te zetten in z-waarden (z-scores).
De standaarddeviatie (standard deviation of s) is de gemiddelde hoeveelheid variabiliteit in je dataset. Deze maat vertelt je hoe ver iedere score gemiddeld van het gemiddelde verwijderd is. Des te groter de standaarddeviatie, des te meer variabel je dataset is.
Bij een normale verdeling betekent een standaarddeviatie van 1 dat ongeveer 68% van de datapunten binnen één standaarddeviatie van het gemiddelde valt , terwijl ongeveer 95% binnen twee standaarddeviaties valt en ongeveer 99,7% binnen drie standaarddeviaties.
En het gemiddelde – 1 sigma is 1.75 meter.
Alle getallen komen dan overeen met het gemiddelde. Verder kan de standaarddeviatie in theorie oplopen tot plus oneindig. In de praktijk is de grootte van de standaarddeviatie afhankelijk van de range (het laagste minus het hoogste getal). Is de range groot dan heeft men ook een grote standaarddeviatie.
Belangrijk terzijde: in een normale verdeling bestaat er een specifieke relatie tussen het gemiddelde en de SD: gemiddelde ± 1 SD omvat 68,3% van de populatie , gemiddelde ± 2 SD omvat 95,5% van de populatie en gemiddelde ± 3 SD omvat 99,7% van de populatie.
Er zijn twee parameters die bepalen hoe de normale verdeling eruitziet: het gemiddelde en de standaarddeviatie. Binnen één standaarddeviatie ligt 68,2% van de observaties (34,1% + 34,1%), binnen twee standaarddeviaties 95,2% en binnen drie standaarddeviaties 99,6%.
1 sigma = 68% , 2 sigma = 95,4%, 3 sigma = 99,7%, 4 sigma = 99,99% en hoger. Een andere manier om hierover na te denken is door 1-waarschijnlijkheid te nemen. Dus, 1 sigma betekent dat je 32% van de tijd geen 45 +/- 10 km/s meet.
Standaarddeviatie geeft je inzicht in de spreiding van je data. Een lage standaarddeviatie betekent dat de data dicht bij het gemiddelde ligt, terwijl een hoge standaarddeviatie aangeeft dat de data meer verspreid is.
Er is namelijk een vuistregel (de empirische regel) die zegt dat 68% van de personen tussen een Z-score van -1 en 1 zit, dat 95% van de personen een Z-score tussen -2 en 2 heeft, en 99,7% binnen 3 standaarddeviaties ten opzichte van het gemiddelde zit.
Als de data zich gedraagt in een normale curve, dan zal 68% van de datapunten binnen één standaarddeviatie van het gemiddelde datapunt vallen . Grotere varianties zorgen ervoor dat meer datapunten buiten de standaarddeviatie vallen. Kleinere varianties resulteren in meer data die dicht bij het gemiddelde liggen.
De standaarddeviatie van de dataset {5, 5, 9, 9, 9, 10, 5, 10, 10} is dus 2,2913 .
Een standaarddeviatie (of σ) is een maatstaf voor hoe verspreid de data is ten opzichte van het gemiddelde. Een lage of kleine standaarddeviatie geeft aan dat data dicht op elkaar geclusterd zijn rond het gemiddelde, en een hoge of grote standaarddeviatie geeft aan dat data meer verspreid zijn .
3-Sigmaregel
Ongeveer 68% van alle waarden ligt binnen een afstand van 1 standaarddeviatie (σ) of 1 z-score rondom het gemiddelde. Z-scores zijn uitgedrukt op een schaal die aangeeft hoeveel standaardafwijkingen een waarneming verwijderd is van het gemiddelde.
Kort gezegd is de variantie: Het kwadraat van de gemiddelde afstand van het geheel van afzonderlijke waarnemingen ten opzichte van het populatie- of steekproefgemiddelde. Variantie wordt als volgt genoteerd: De variantie voor een populatie wordt genoteerd als sigma kwadraat: σ2.
Met STDEV. S wordt ervan uitgegaan dat de argumenten een steekproef van de populatie vormen. Als uw gegevens de volledige populatie omvatten, moet u de standaarddeviatie berekenen met STDEV. P.
een standaarddeviatie onder de 0,5 geeft aan dat de respondenten redelijk op één lijn zitten, een standaarddeviatie tussen 0,5 en 1 geeft aan dat er verschillende opvattingen zijn, een standaarddeviatie boven de 1 geeft aan dat er extreme verschillen zijn.
Statistici hebben bepaald dat waarden die niet groter zijn dan plus of min 2 SD metingen vertegenwoordigen die dichter bij de werkelijke waarde liggen dan die welke vallen in het gebied groter dan ± 2SD. Daarom vereisen de meeste QC-programma's dat er routinematig corrigerende maatregelen worden genomen voor datapunten die buiten het ±2SD-bereik vallen.
Als je bijvoorbeeld een betrouwbaarheidsinterval met een betrouwbaarheidsniveau van 95% kiest, betekent dit dat je ervan overtuigd bent dat de schatting 95 van de 100 keer tussen de bovenste en onderste waarden van het betrouwbaarheidsinterval zal vallen.
Het heeft te maken met de normale verdelingsfunctie en het vinden van het gebied onder krommen (uit calculus). In principe, als je de functie integreert van 1 standaarddeviatie onder het gemiddelde naar 1 standaarddeviatie erboven, krijg je ongeveer 0,68 (of 68% van het totale gebied onder de kromme, wat 1 is).
Eén standaarddeviatie, of één sigma, uitgezet boven of onder de gemiddelde waarde op die normale verdelingscurve, zou een gebied definiëren dat 68 procent van alle datapunten omvat. Twee sigma's erboven of eronder zouden ongeveer 95 procent van de data omvatten, en drie sigma's zouden 99,7 procent omvatten .
1 Sigma: Een proces met een zeer slechte kwaliteit, met ongeveer 690.000 defecten per miljoen kansen (DPMO). 2 Sigma: Nog steeds van slechte kwaliteit, met ongeveer 308.000 DPMO. 3 Sigma: Matige kwaliteit, ongeveer 66.800 DPMO, wat neerkomt op een opbrengst van 93,32%. 4 Sigma: Goede kwaliteit , ongeveer 6.210 DPMO of 99,38% opbrengst.
De three-sigma-waarde wordt bepaald door de standaarddeviatie te berekenen (een complexe en vervelende berekening op zichzelf) van een serie van vijf breuken. Vermenigvuldig die waarde vervolgens met drie (vandaar three-sigma) en trek dat product ten slotte af van het gemiddelde van de hele serie.
De regel stelt dat (ongeveer): - 68% van de datapunten binnen één standaarddeviatie van het gemiddelde valt. - 95% van de datapunten binnen twee standaarddeviaties van het gemiddelde valt. - 99,7% van de datapunten binnen drie standaarddeviaties van het gemiddelde valt.