Waarom is het belangrijk dat je data normaal verdeeld zijn? Veel statistische toetsen, zoals een t-toets of ANOVA, kunnen alleen geldige resultaten opleveren als sprake is van een normale verdeling. Als je data scheef verdeeld zijn, kan het voorkomen dat je resultaten niet valide zijn.
Als onze gegevens niet normaal verdeeld zijn, is het resulterende gemiddelde geen representatieve waarde van onze gegevens . Een verkeerde selectie van de representatieve waarde van een dataset en een verder berekend significantieniveau met behulp van deze representatieve waarde kan een verkeerde interpretatie opleveren.
Eigenschappen van een ideale normale verdeling
Een normale verdeling is symmetrisch ten opzichte van het gemiddelde. De grafiek loopt van min oneindig naar plus oneindig. Het gemiddelde, de mediaan en de modus van de verdeling zijn gelijk aan elkaar.
De normaalverdeling is een belangrijke kansverdeling in de wiskunde en statistiek, omdat veel continue gegevens in de natuur en psychologie deze klokvormige curve vertonen wanneer ze worden samengesteld en grafisch weergegeven .
Door slechts drie dobbelstenen te gooien, lijkt de som al behoorlijk normaal verdeeld. We kunnen nu beantwoorden waarom klokvormige curven zo alomtegenwoordig zijn: omdat veel variabelen in de echte wereld de som zijn van andere onafhankelijke variabelen . En wanneer onafhankelijke variabelen bij elkaar worden opgeteld, convergeert hun som naar een normale verdeling.
Waarom is het belangrijk dat je data normaal verdeeld zijn? Veel statistische toetsen, zoals een t-toets of ANOVA, kunnen alleen geldige resultaten opleveren als sprake is van een normale verdeling. Als je data scheef verdeeld zijn, kan het voorkomen dat je resultaten niet valide zijn.
De normale verdeling komt in veel verschillende situaties voor, omdat veel processen het resultaat zijn van het optellen van kleine, onafhankelijke factoren . Of het nu gaat om de lengte van mensen, de lengte van amandelen of de variatie in een productieproces, deze worden allemaal beïnvloed door meerdere kleine, willekeurige effecten.
Normale verdelingen zijn belangrijk in de statistiek en worden vaak gebruikt in de natuur- en sociale wetenschappen om reële waarde-stochastische variabelen te representeren waarvan de verdelingen niet bekend zijn . Hun belang is deels te danken aan de centrale limietstelling.
Het eerste voordeel van de normale verdeling is dat deze symmetrisch en klokvormig is. Deze vorm is nuttig omdat deze gebruikt kan worden om veel populaties te beschrijven, van klascijfers tot lengtes en gewichten .
Waarom zijn normaalcurven nuttig? Ze zijn nuttig omdat ze ons in staat stellen statistische conclusies te trekken over het feit dat we op een bepaalde afstand van het gemiddelde van de verdeling zitten .
Gebruik van een normale kwantielplot
Een normale kwantielplot toont een normale verdeling als een rechte lijn in plaats van als een klokvormige curve. Als uw gegevens normaal zijn, vallen de gegevenswaarden dicht bij de rechte lijn . Als uw gegevens niet-normaal zijn, vallen de gegevenswaarden weg van de rechte lijn.
Niet-normale verdeling verwijst naar elke kansverdeling die niet voldoet aan de kenmerken van een normale verdeling. Deze verdelingen kunnen asymmetrisch zijn, meerdere pieken hebben, of variëren in termen van hun kurtosis (mate van piekheid) en scheefheid.
Een QQ-plot (kwantiel-kwantiel plot) is een grafische tool die helpt om te bepalen of een dataset normaal verdeeld is. Het vergelijkt de kwantielen van een dataset met de kwantielen van een standaardnormale verdeling.
De residuen moeten ongeveer normaal verdeeld zijn om geldige statistische gevolgtrekkingen te krijgen, zoals betrouwbaarheidsintervallen, coëfficiëntschattingen en p-waarden . Dit betekent dat de gegevens niet per se normaal verdeeld hoeven te zijn, maar de residuen wel.
Sommige scheikundige problemen met waterige reacties hebben betrekking op normaliteit, wat een maat is voor reactieve capaciteit . De normaliteitsdefinitie is het aantal equivalenten van een opgeloste stof gedeeld door het volume van de oplossing in liters. Normaliteit staat ook bekend als equivalente concentratie.
Een normaliteitstest wordt gebruikt om te bepalen of steekproefgegevens zijn getrokken uit een normaal verdeelde populatie (binnen een bepaalde tolerantie). Een aantal statistische tests, zoals de Student's t-test en de one-way en two-way ANOVA, vereisen een normaal verdeelde steekproefpopulatie.
De normale curve, of klokvormige curve, dient als een fundamenteel concept in data-analyse. Het geeft visueel de distributie van een dataset weer, en illustreert hoe datapunten de neiging hebben om rond het gemiddelde te clusteren. Het begrijpen van deze distributie is cruciaal, omdat het analisten in staat stelt om de spreiding en variabiliteit binnen data te interpreteren .
Een normale verdeling heeft een aantal interessante eigenschappen: de verdeling heeft de vorm van een klok, het gemiddelde en de mediaan zijn gelijk en 68% van de gegevens valt binnen 1 standaarddeviatie .
Normaalverdelingen zijn belangrijk vanwege de stelling van Tsjebysjev, die stelt dat bij een normaalverdeling een gegeven standaarddeviatie boven en/of onder het gemiddelde altijd dezelfde hoeveelheid oppervlakte onder de curve vertegenwoordigt .
Als het gaat om een normale verdeling, zou dat eigenlijk altijd moeten worden vermeld. De waarnemingen zijn in principe continu meetbaar, zoals lengte, gewicht enz. Bij een binomiale verdeling tel je hoe vaak het antwoord op een vraag ja of nee is. De kans op ja is p en de kans op nee is 1-p.
Marktonderzoekers, beurshandelaren en andere financiële professionals gebruiken de normale verdeling om te bepalen hoe eerlijk een bedrijf een activum waardeert op basis van de normale verdeling .
Kwaliteitscontrole: De normale verdeling wordt gebruikt in kwaliteitscontroleprocessen om variaties in productieprocessen te monitoren en analyseren . Voorspellende modellen: Veel machine learning-algoritmen, zoals lineaire regressie en beslissingsbomen, gaan ervan uit dat de residuen of fouten een normale verdeling volgen.
Hiermee kunt u eenvoudig de waarschijnlijkheid berekenen dat bepaalde waarden in uw distributie voorkomen, of datasets met verschillende gemiddelden en standaarddeviaties vergelijken . Terwijl datapunten in een normale distributie worden aangeduid als x, worden ze in de z-distributie z of z-scores genoemd.
Veel alledaagse datasets volgen doorgaans een normale verdeling: bijvoorbeeld de lengtes van volwassen mensen, de scores op een test die aan een grote klas is gegeven, fouten in metingen. De normale verdeling is altijd symmetrisch rond het gemiddelde.
Wat is een normale verdeling? De normale verdeling, ook bekend als de Gaussische verdeling, is een kansverdeling die symmetrisch is rond het gemiddelde, wat aangeeft dat gegevens in de buurt van het gemiddelde vaker voorkomen dan gegevens ver van het gemiddelde . De normale verdeling verschijnt als een "belvormige curve" wanneer deze wordt weergegeven in een grafiek.