Vælg dine værdier her

Statistik for binomialfordelingen: Simulation

Helle Sørensen, marts 2019

Denne app er lavet i forbindelse med LMFK-kurset "Faglig opdatering i matematik" der afholdes i marts 2019 i Sorø og Århus.

Formålet er at illustrere estimation, konfidensintervaller og hypotesetest i binomialfordelingen vha. simulation af mange datasæt og derved få en bedre fornemmelse for egenskaberne ved estimater, konfidensintervaller. Derved opnås fx M estimater, og vi kan se hvordan de opfører sig. Appen kan derimod ikke bruges til at lave analyser for faktisk observerede binomialdata.

Appen skal have nogle input-værdier: n og p er antalsparameter og sandsynlighed i den binomialfordeling der simuleres fra, og M er antallet af simulerede observationer. Disse tre størrelser er altid relevante og skal vælges. Derudover skal der vælges konfidensniveau når vi laver konfidensintervaller og en hypoteseværdi p0 når vi laver hypotesetest.

Estimat og usikkerhed på estimat

Nødvendigt input: n, p, M.

Der simuleres M observationer fra Bin(n,p). For hver observation beregnes estimatet for p samt den tilhørende estimerede spredning for estimatet, og der laves et pindediagram over disse to størrelser. De blå linjer svarer til de sande værdier, og den grønne kurver er tætheden for den appoksimerende normalfordeling. Endvidere beregnes diverse gennemsnit og spredninger over de 1000 simulationer.

Den sande værdi af p (brugt til simulation):

Den sande spredning for estimaterne, dvs. sqrt(p*(1-p)/n):

Gennemsnittet af de M estimater:

Spredningen af de M estimater:

Gennemsnittet af de M estimerede/beregnede spredninger:

Konfidensinterval

Nødvendigt input: n, p, M, konfidensniveau

Der simuleres M observationer fra Bin(n,p). For hver simuleret værdi laves et 95% konfidensinterval med den sædvanlige formel, og intervallerne tegnes (lodrette linier) og sammenlignes med den sande sandsynlighed (vandret blå linie). Konfidensintervaller der ikke indeholder den sande sandsynlighed, er farvet røde. Endvidere beregnes den faktiske dækningsgrad samt den gennemsnitlige længde af intervallerne

Bemærk at grafen er vanskelig at kigge på når antallet af simulationer er stort. Vælg fx M=100 eller M=200

Det ønskede konfidensniveau:

Andel af de M datasæt, hvor konfidensintervallet indeholder den sande sandsynlighed:

Gennemsnittet af længden af de M konfidensintervaller:

Hypotesetest

Nødvendigt input: n, p, M, p0

Der simuleres M observationer fra Bin(n,p). For hver simuleret værdi udføres testet for hypotesen H: p=p0, der laves et pindediagram over p-værdierne. Den stiplede blå linje svarer til 0.05. Endvidere angives andelen af datasæt hvor p-værdien er under 0.05 svarende til at hypotesen forkastes på 5% signifikansniveau.

Andelen af de M datasæt der forkastes på 5% signifikansniveau: