Vælg dine værdier her

Usikkerhed på estimater i lineær regression

Helle Sørensen (helle@math.ku.dk), marts 2020

Denne app er lavet i forbindelse med LMFK-kurset "Faglig opdatering i matematik" der afholdes i marts 2020 i Århus.

Formålet er at illustrere sandsynlighedsfordelingen af estimaterne og egenskaberne ved konfidensintervaller i lineær regression. Dette gøres ved at simulere mange (M) datasæt. Derved opnås M estimater og M konfidensintervaller, og vi kan se hvordan de opfører sig. Appen kan ikke bruges til at lave analyser for givne datasæt.

Appen skal have nogle input-værdier: n er antallet af observationspar (x,y) i hvert datasæt; alpha, beta er skæring og hældning på den sande regressionslinje; sigma er spredningen omkring linjen, altså spredningen på restleddet; M er antallet af simulerede datasæt. Disse størrelser er altid relevante og skal vælges. Derudover skal der vælges konfidensniveau når vi studerer konfidensintervaller til sidst i appen. Restleddene er som default normalfordelte, men fordelingen kan ændres (har altid middelværdi 0 og spredning sigma).

Typiske datasæt

Der simuleres to datasæt af størrelse n fra den lineære regression med skæring alpha, hældning beta og spredning sigma om linjen. Data vises sammen med den sande regressionslinje (blå) og den estimerede regressionslinje (rød).

Fordeling af estimater

Der simuleres M datasæt af størrelse n fra den lineære regression med skæring alpha, hældning beta og spredning sigma om linjen. For hvert datasæt estimeres skæring, hældning og spredning, og der tegnes histogrammer for hver parameter. Hvert histogram er altså baseret på M estimater. De lodrette blå linjer svarer til de sande værdier, og tæthederne er de sande teoretiske fordelinger (for normalfordelte restled). Endvidere beregnes gennemsnit og spredninger over de 1000 simulationer for hver af de tre parametre.


        

Estimerede spredninger (standard errors) på estimaterne

Der simuleres M datasæt af størrelse n fra den lineære regression med skæring alpha, hældning beta og spredning sigma om linjen. Udover at beregne estimaterne for skæringen og hældningen kan man for hvert datasæt også beregne estimater for spredningen for estimaterne, de såkaldte standard errors (SE). Vi har beregnes disse SEer for hvert af de M simulerede datasæt og tegnet histogrammer over de M værdier. Disse sammenholdes med den faktiske spredning af estimaterne over de M datasæt (lodret blå linje).

Konfidensinterval for hældningen

Der simuleres M datasæt af størrelse n fra den lineære regression med skæring alpha, hældning beta og spredning sigma om linjen. For hvert datasæt beregnes et konfidensinterval for hældningen med "den sædvanlige formel", og intervallerne tegnes (lodrette linier) og sammenlignes med den sande hældning (vandret blå linie). Konfidensintervaller der ikke indeholder den sande hældning er farvet røde. Endvidere beregnes den faktiske dækningsgrad samt den gennemsnitlige længde af intervallerne. Man kan gøre noget helt tilsvarende for skæringen.

Bemærk at grafen er vanskelig at kigge på når antallet af simulationer er stort. Vælg fx M=100 eller M=200

Det ønskede konfidensniveau:


        

Andel af de M datasæt, hvor konfidensintervallet indeholder den sande hældning:


        

Gennemsnittet af længden af de M konfidensintervaller: