Normalfordelte variabler, og hvorfor de oppstår ofte

Normalfordelingen er allestedsnærværende i sosiale og økonomiske fag. Den tillater en meget effektiv og derfor attraktiv for karakterisering av mange empirisk innsamlede data fordi den er fullstendig bestemt av to parametre: middelverdi og varians. Det åpenbare spørsmålet er hvorfor denne delingen skjer om det. Sentralgrensesetningen i statistikken gir et mulig svar.

Tilfeldige variabler

En tilfeldig variabel er en variabel som en tidligere ukjent verdi kan antas. Med en form, for eksempel, kan være en av de verdier fra 1 til 6 blir kastet. Først etter at rullen verdien er kjent og kan være en tilfeldig variabel, som vi kan kalle X, bli tildelt en verdi. Det er derfor ingen tilfeldighet variabel uten et eksperiment eller prosedyre som tildeler en verdi til det.
Eksperimentet hvis prosedyren kan være hva som helst. Kaster en terning er bare ett eksempel. Administrering av en IQ-test er en annen. Varsel vil ikke bli kjent hvor høye noens score; etter testen, er verdien fast. Nok et eksperiment kan omfatte innsamling av data om inntektene til folk fra et bestemt land. Også her representerer tilfeldig variabel inntekt en person kan bare gjennomføres etter at de relevante data er samlet inn.

Den jevne fordeling

Selv om verdien av en stokastisk variabel X i seg selv sjelden kan forutsies på en pålitelig måte, noe som ofte kan sies om sannsynligheten med hvilken en gitt verdi blir målt eller detektert. For terningen er det veldig enkelt. Hver verdi fra 1 til 6 har en mulighet som er nøyaktig lik 1/6. Fordelingen av odds - eller sannsynligheter - teoretisk bestemt og kan deretter sammenlignes med de observerte verdier. Figur 1 viser som et eksempel, er resultatene av tre slike eksperimenter. I førstnevnte er 20 ganger kastet av en terning, i den andre 200 ganger og 2000 ganger i den tredje. Det er tydelig at, som vil bli rullet oftere, tilnærming til den røde linjen - som viser en sannsynlighet på 1/6 for alle verdier - blir stadig bedre.
Figur 1: Dice eksperiment
Figur 2: IQ-målinger
Figur 3: Sammenligning av den normale fordelingen

Normalfordelingen

Lang ikke i alle tilfeller, de forventede sjanser i forkant kan være nøyaktig bestemt, og fant det før etterpå. Som et eksperiment der et stort antall mennesker er bestemt IQ gjort, så resultatene kan se ut som i figur 2. De røde søylene viser andelen av antall personer som har oppnådd en viss IQ. Poengene er herved delt inn i 20 grupper, hver bestående av 10 IQ-poeng.
Denne fordelingen har de noe uregelmessig egenskaper som er typisk for empiriske data samlet. Likevel er det et mønster å observere. Den blå kurven er den normale fordelingen som normalt er best egnet til slike eksperimenter IQ. Et annet navn for normalfordelingen er "Gaussian distribusjon". Fordelingen i figur 2 har et gjennomsnitt på 100 og en varians på 225. Sammenligningen av denne fordelingen er vist i figur 3.
Den normale fordelingen blir således anvendt som en modell her, det vil si som en oppsummering av dataene. Det faktum at bare to parametre er nødvendig for å beskrive denne linjen, er det en svært økonomisk og dermed behagelig modell for teoretikere. Normalfordelingen er svært forskjellig fra den jevn fordeling som best beskriver terningen eksperimentet. Ikke alle IQ etter alle har en lik sannsynlighet for forekomst. Sjansen for at noen får en 0 eller maksimal poengsum er mange ganger mindre enn sannsynligheten for en score på 100. Poengsummen 100 vilje, av og store, den mest vanlige, rett og slett fordi IQ-tester er gjort til en gjennomsnittlig score på rundt 100, og et standardavvik på omkring 15 til å gi etter.
Oppmerksom videre at normalfordelingen gir også muligheter til å umulige score. I henhold til fordelingen, er det en mulighet for at en score er negativ. Dette indikerer også at fordelingen er å bli sett på som en tilnærming av de empiriske data.

Hvorfor normalfordelingen så vanlig

I utgangspunktet er det et uendelig antall mulige sannsynlighetsfordelinger. Normalfordelingen er ganske bemerkelsesverdig delvis fordi den gjennomsnittlige har høyest sannsynlighet for forekomst og fordi det er symmetrisk. Sannsynligheten for at en score, sier, er akkurat like stor som sannsynligheten for at poengsummen er 10 poeng til høyre for gjennomsnittet 10 poeng til venstre for gjennomsnittet. En mer skjult funksjon er at fordelingen av alle verdiene i tilfeldig variabel X tildeler en sjanse; den har en kontinuerlig fordeling uten at de øvre og nedre grenser.
Normalfordelingen er i praksis av forskning så hyppige at etterspørselen er åpenbart hvorfor det er slik. Ett svar ligger skjult i en nøkkelposisjon i statistikken: sentralgrensesetningen. CLS sett, grovt sett, at når en ulykke variabelen er summen av et stort antall andre variable, så vil det raskt følge normalfordelingen.
Mer presist, la Y til Y, og med en rekke variable som er uavhengige av hverandre. Det vil si at verdien av for eksempel, er Y ikke avhengig av verdien av Y for alle i og j, som ikke er lik hverandre og er mindre enn eller lik n. Hvis hver av de variable Y har sin egen sannsynlighetsfordeling med en middelverdi og en varians som er ikke uendelig, så tilfeldig variabel X = Y + Y + ... er tilnærmet normalfordelt, i det minste når n er stor nok. Det er ikke nødvendig at de variable Y har alle samme fordeling. Y kan være jevnt fordelt, og Y kan i seg selv være normalfordelt, eller hvilken som helst annen fordeling også. Det eneste kravet slik at hver av disse distribusjonene har begrenset mener og endelig varians. Et ytterligere krav er at summen y + ... + Y kan ikke fullt ut defineres av et av de Y-betingelser. Effekten av Y betingelser må være, med andre ord, er av samme størrelsesorden.
Figur 4: Eksempel på drift av sentralgrenseteoremet f.eks
Anta at Y er alle terningene, og således kan anta med en sannsynlighet på 1/6 a Verdier fra 1 til 6. La X være summen av verdiene av terningen. Når en dør er å bli rullet 2 ganger for å lese en verdi, er de mulige verdier er derfor mellom 2 og 12, ved 100 ganger innkastet er lik minimum 100 og maksimum er lik 600. I figur 4, resultatet av viser en del av et slikt eksperiment, med mer og øker antall terninger. Det er lett å se at når antallet terninger øker mer og mer, vises fordelingen som en normalfordeling. Når to terninger skaper en figur som har mest i telt, men alle tre terningene til konturene av en normalfordeling kan sees. Det var å forvente ut fra CLS også, om enn med den observasjon at, i det minste når ensartet variabler ikke er summert selv at mange variabler må være.
For analytikere: middelverdien og variansen til den normale fordeling i denne figuren, både avhengig av middelverdien og variansen for de summerte jevnt fordelte variabler. Kaster en terning fører til et gjennomsnitt på 3,5 og en variasjon av 35/12. N terningene rullet, er både mener og variansen n ganger så stor. Dette gjenspeiles i figur 4, hvor fordelingen blir stadig bredere. I figur 4 har blitt trukket med svart stiplet også den beste passform normalfordeling. Når summen av tilfeldige variable enn en annen følge en jevn fordeling, blir tilnærmingen da som regel er noe dårligere. Antallet nødvendige betingelser Y vil måtte være større enn det som ville resultere i en normalfordeling.

Samspillet mellom underliggende stokastiske variable

CLS indikerer når du oppretter en normalfordeling. Teorien er basert på en tilfeldig variabel X som kan sees som summen av en rekke andre tilfeldige variabler. Det er ikke så vanskelig å finne en sammenheng mellom teori og praksis. Ta tilbake IQ test som et eksempel. Hvis alt går bra, så denne testen måler intelligens av en person. Men hva bestemmer intelligens? Det synes rimelig å anta at den samlede intelligens oppstår fra samspillet av mange faktorer som motivasjon, mangel på søvn, trening, den relative størrelsen på visse områder av hjernen, alder, minnekapasitet, og så videre og så videre. Dette mangfoldet av faktorer vi kan, med litt fantasi, som en samling av terningene som blir kastet inn i en rull. Hver av disse faktorer kan selvsagt i seg selv en konsekvens av tallrike andre genetiske og miljømessige faktorer. Med andre ord virker CLS en ganske gi adekvat beskrivelse av kompleksiteten skjult i en heten: intelligens. Lignende betraktninger gjelder for andre data, slik som inntekten til en person. Dette bestemmes av slike ting som talent og utholdenhet, men selvfølgelig med utallige flaks faktorer. CLS også her synes å være en god modell for den underliggende kompleksitet.

Andre svar

Som det fremgår, gir CLS en mulig forklaring på den hyppige forekomsten av normalfordelingen. Regnestykket har også en rekke andre påstander som har noe å begrense denne uttalelsen. En klassiker i denne forbindelse er tesen om Bernstein. Dette tyder på at når X og X er to uavhengige tilfeldige variable, da deres fordelinger er normalt når også holder at Y = X + X og Y = X - X er uavhengige av hverandre. Så når papirene som til slutt bestemmer verdiene av en stokastisk variabel kan både tilsatt og subtrahert fra hverandre uten enten innført en avhengighet, er disse tilfeldige variable normalfordelt. Bernsteins teorem er generalisert på en rekke måter, og utvidet. Når lineære kombinasjoner av uavhengige tilfeldige variabler er selv uavhengig da blir også kontaktet konstituerende tilfeldige variabler godt med en normalfordeling.

Epilogue

Normalfordeling fremkommer som de observerte verdiene av tilfeldige variabler kan modelleres som et tillegg eller subtraksjon av et stort antall andre tilfeldige variabler. For mange storheter innen vitenskap, særlig i de sosiale og økonomiske fag, ser ut til å være tilfelle. Det viser tydelig at det arbeides i disse vitenskapene med det er faktisk ganske komplisert variabler. De er et resultat av samspillet mellom flere grunnleggende tilfeldige variabler. Sluttresultatet kan imidlertid med bare to parametere, middelverdien og variansen som skal beskrives. Som en høy kompleksitet vises enda en gang en håndterlig enkelhet. Normalfordelingen kan se frem til et langt og fruktbart liv.
(0)
(0)

Kommentarer - 0

Ingen kommentarer

Legg en kommentar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Tegn igjen: 3000
captcha