Multipel linjär regression
Wikipedia
![]() |
Denna artikel anses behöva städas upp för att leva upp till Wikipedias artikelstandard. Diskutera frågan på diskussionssidan. Se även stilguiden. |
2.1.1 Allmänt definition till regression analyser.
Historiskt utvecklades regression analys för naturvetenskapliga situationer och över fördes först senare på samhällsvetenskapliga problem, att hitta ett samband mellan ( XP, Yn ) i form av en rät linje, ju mindre standardavvikelsen desto mindre är avstående Xi från regression linjen, dvs att punkterna ansluter sig bättre till linjen.
Med Y=ƒ(x)+e(x, u) framhöll vi att funktionen ƒ kan ha mycket varierande karaktär. Om ƒ är en kontinuerlig funktion av de reella variabeln x så vill vi ofta inte bara bestämma ƒ(x) för vissa bestämda X-värde för vilka observationer görs utan också för värden mellan dessa. låt oss då föst nämna att man naturligtvis inte kan dra slutsatser om ƒ(x) för andra x än de för vilka observationer har utförts, såvida man inte har någon information före försökets utförande om funktionen ƒ en information som kan överbrygga klyftan mellan observationspunkterna och andra punkter. Sådan priori-information är ofta av den naturen att vi utifrån någon teori vet att ƒ har en viss form men att vissa konstanter i denna form är obekanta, dvs vi har
(2.1.1):F(x)=(x,θ)
där θ representerar en eller fler okända parametrar och ƒ(X, θ) är fullständigt känd så när som på det numeriska värdet av . Om vi inte har någon teori som ger information om ƒ, kan vi naturligtvis anpassa en lämplig funktion som tycks överensstämma med de observerade punkterna. Ett sådant förfarande kan användas relativt säkert för interpolation men får handhas med största försiktighet för extrapolation. Man utför ofta skattningen av parametern eller parametrarna θ med hjälp av minstakvadratmetoden. Den är en av de äldsta och mest kända statistiska metoderna, så vi behöver inte fördjupa oss i några detaljer. Vid denna metod bestämmer man θ så att summan av kvadraten på avvikelserna från de observerade punkterna till den resulterande kurvan blir så liten som möjligt.
Genom MK-skattningar av parametrarna och totalresidualvarainsen (MSE) för man skatta determinationskoefficienten (R2) och vidare med tolkningar av parametrarna, bestämmer man att hur de oberoende variablerna ansluter sig till Y-observationerna. Anat mera precist att det föreligger n observationer Yi sådan att
(2.1.2):yi=ƒ(x, θ)+e i=1,2,....,n
där Xi=1, 2, ..., n representerar de punkter där observationerna av ƒ har utförts. Den summa som vi skall göra så liten som möjligt är då
(2.1.3):
skattningen av θ enligt minstakvadratmetoden är det värde på θ som gör denna summa så liten som möjlig. Man finner lätta sätt att lösa detta problem i läroböcker i statistik hur man bestämmer ƒ(X‚ θ ) med minstakvadratmetoden då ƒ är en linjär funktion av en eller flera parametrar. Vi går inte in på detta här utan koncentrera vårt intresse på de omständigheter under vilka metoden skall användas och hur man skall planera försök på ett lämpligt sätt i detta sammanhang.
Alla diskussioner om kvadratsummor och normalitets antagandet av det gemensamma variansen, och oberoende samband att data är rätt och representativ för observerade populationen, är bara en approximation.
Att skatta en multipla regression modell kräver en skicklig interaktion med data och med en special subjekt anpassning, därför regression teknik eftersträvar en grundläggande samband mellan en responsvariabel, Y, och en eller flera förklarings variabler eller prediktorer X1,..., Xp. I allmänt regression analys kan vara mycket användbar samt kan i vissa situationer vara felaktig användning av detta metod, liksom alla statistiska definitioner.
(2.1.4):
Om man försöker anpassa en fel modell, då man får fel resultat. För att kunna skydda sig mot detta, använder man plottade data, dvs bakgrund information och senaste imperikal bevisar kan vara användbara för att bedöma relationen mellan beroende variabeln och förklaringsvariabler.
Regression analys innebär, traditionellt sagt, att man ville studera relationer mellan en beroende variabel (Yi) och oberoende variabel (Xi), vilka i multipla regression modeller innehåller många oberoende variabler, dvs ville man studera sambandet mellan två eller flera förklarings variabler under förutsättning att det finns en linjärt samband mellan de.
Illustration och grafiska förklaringar av multipel regression där man har fler än en förklarande variabel ( X1, ..., Xp ) är inte så lätt, och detta gör att det ej kan ges någon fullkomligt överensstämmande bild eller figurer av data materialet, att illustrera data i ett tvådimensionellt koordinatsystem är mycket lättare i enkel linje regression och det går lätt att skapa ett diagram. Med tre eller mer variabler kräver mer dimensionerade koordinat, och minst sagt svårt att illustrera det grafisk.
Multipel regression analys ger det möjligheten att använda den matematiska modell uppställningen som visar hur beroende variabeln påverkas av olika faktorer Xi, och det ska minska det felaktigt utelämnade förklarande variablerna.
Antagandet att residualerna är normalfördelad är inte viktigt för att skatta regressionskoefficienterna, eller det totala variansen. Normalitet behövs när man ville testa signifikansen och uppställning av konfidensintervall skattning av parametrar. Erfarenhet visar att normalitet krävs i många fall, men i vissa fall är inte så nödvändiga. I vissa fall frekvenserna tyder på poissonfördelningen, eller proportion av subjekten visar att responsvariabeln är binomialfördelning, och förklarings variabler är oberoende vilka kräver de statistiska tester för antagandet av oberoende prövas. Styrkan av icke-normalitet på kvadratsummor beror på utgångspunkt och avvikelse från normalitet och specificerad anbringande. Icke-normalitet påverkar inte skattningarna och de skattade parametrar är fortfarande väntevärdesriktiga. Men test av koefficienternas signifikant och skattning av konfidensintervall är påverkbara av icke-normalitet. Generellt sannolikhets nivån i samband med signifikant nivån av test och konfidensintervall för koefficienterna är ej korrekta. I praktik F-test antas vara allmänt mot icke-normalitet.
Slutligen försöker man med hjälp av en lämpligt metod välja det bästa reducerade modellen med minsta förklaring variabler och högsta förklaringsgrad, vilka helt enkel i detta sammanhang beror på variablernas korrelation i samband med beroende variabeln, dvs om de kan bygga någon linje ekvation som ger minsta spridningen runt detta linje.