Ako nájsť riešenia s najmenšími štvorcami pomocou lineárnej algebry?

Pozorovania v reálnom živote však takmer vždy prinášajú nekonzistentné riešenia maticovej rovnice
Pozorovania v reálnom živote však takmer vždy prinášajú nekonzistentné riešenia maticovej rovnice, kde sa nazýva pozorovací vektor, sa nazýva návrhová matica a hľadáme hodnoty vektora parametrov.

Pri analýze údajov je často cieľom nájsť korelácie pre pozorované údaje, nazývané trendové čiary. Avšak skutočné živé pozorovanie takmer vždy získa nesúrodých riešení do matice rovnice Xp = y, {\ displaystyle X {\ boldsymbol {\ beta}} = \ mathbf {y},} , kde y {\ displaystyle \ mathbf {y}} je nazýva pozorovacie vektor, X {\ displaystyle X} sa nazýva m x n {\ displaystyle m \ x n} konštrukcie matice, a hľadáme hodnoty v p, {\ displaystyle {\ boldsymbol {\ beta}}} vektor parametrov. Intuitívne, to je ľahké vidieť - žiadna trendová čiara, okrem veľmi špeciálnych prípadov, nemôže pretínať každý bod v dátach.

Vzťahnite riešenie s najmenšími štvorcami k návrhovej matici
Vzťahnite riešenie s najmenšími štvorcami k návrhovej matici a pozorovaciemu vektoru.

V prípade mnohých aplikácií je riešením tento problém nájsť β^{\ displaystyle {\ hat {\ boldsymbol {\ beta}}}}, ktorý najlepšie aproximuje vyššie uvedenú rovnicu. Toto môže byť napísané, pokiaľ ide o nerovnosti || y-Xp ^ || 2≤ || y-Xp || 2, {\ displaystyle || \ mathbf {y} -X {\ hat {\ boldsymbol {\ beta} }} || ^ {2} \ Leq || \ mathbf {y} -X {\ boldsymbol {\ beta}} || ^ {2},} , kde sa minimalizuje vzdialenosť medzi y {\ displaystyle \ mathbf {y }} a Xβ. {\ displaystyle X {\ boldsymbol {\ beta }}.} Pretože množstvo || y − Xβ || 2 {\ displaystyle || \ mathbf {y} -X {\ boldsymbol {\ beta}} ||^{2}} je súčet štvorcov, problém nájdenia β^{\ displaystyle {\ hat {\ boldsymbol {\ beta}}}} sa nazýva problém najmenších štvorcov.

Môžeme dátové body použiť na napísanie systému rovníc
Pretože používame lineárnu trendovú čiaru, môžeme dátové body použiť na napísanie systému rovníc.

Odporúčame vám mať znalosti v lineárnej algebre, aby ste pochopili deriváciu.

Časť 1 z 2: Odvodenie všeobecného riešenia najmenších štvorcov

  1. 1
    Pripomeňme si definíciu projekcie. Uvažujme vektorový priestor trvala od priestoru stĺpca X {\ displaystyle x} (Col⁡X∈Rm) {\ displaystyle (\ operatorname {Col} X \ v \ mathbb {R} ^ {m})} a pozorovateľné y. {\ displaystyle \ mathbf {y}.} Pretože y {\ displaystyle \ mathbf {y}} vo všeobecnosti nie je v Col⁡X, {\ displaystyle \ operatorname {Col} X,} , chceme nájsť čo najlepšiu aproximáciu y ^{\ displaystyle {\ hat {\ mathbf {y}}}} na y, {\ displaystyle \ mathbf {y},}, ktorá je v Col⁡X, {\ displaystyle \ operatorname {Col} X,} nazýva projekcia y. {\ Displaystyle \ mathbf {y}.} Inými slovami, chceme nájsť y^{\ displaystyle {\ hat {\ mathbf {y}}}}, ktorá minimalizuje vzdialenosť medzi vektorovým priestorom Span⁡ {Col⁡X} {\ displaystyle \ operatorname {Span} \ {\ operatorname {Col} X \}} a y. {\ displaystyle \ mathbf {y}.}
    • y^= ProjCol⁡X⁡y {\ displaystyle {\ hat {\ mathbf {y}}} = \ operatorname {Proj} _ {\ operatorname {Col} X} \ mathbf {y}}
    • Ak necháme X = (x1x2.. 0,10), {\ Displaystyle X = {\ begin {pmatrix} \ mathbf {x} _ {1} & \ mathbf {x} _ {2} &... & \ mathbf {x} _ {p} \ end {pmatrix}},} potom môžeme projekciu napísať nasledovne, kde lomené zátvorky znamenajú vnútorný súčin.
      • ProjCol⁡X⁡y = ⟨y, x1⟩⟨x1, x1⟩x1+...+⟨y, 10⟩⟨10, xp⟩10 {\ displaystyle \ operatorname {Proj} _ {\ operatorname {Col} X} \ mathbf {y} = {\ frac {\ langle \ mathbf {y}, \ mathbf {x} _ {1} \ rangle} {\ langle \ mathbf {x} _ {1}, \ mathbf {x} _ {1 } \ rangle}} \ mathbf {x} _ {1}+\,... \,+{\ frac {\ langle \ mathbf {y}, \ mathbf {x} _ {p} \ rangle} {\ langle \ mathbf {x} _ {p}, \ mathbf {x} _ {p} \ rangle}} \ mathbf {x} _ {p}}
    • Očividne to nie je niečo, čo by sme chceli hodnotiť.
  2. 2
    Prepíšte maticovú rovnicu projekciami. Teraz, keď máme vektor v Col⁡X, {\ displaystyle \ operatorname {Col} X,}, môžeme začať hľadať β^{\ displaystyle {\ hat {\ boldsymbol {\ beta}}}}}, ktorý poskytne konzistentné riešenie rovnice matice nižšie, kde β ^ ∈Rn. {\ displaystyle {\ hat {\ boldsymbol {\ beta}}} \ v \ mathbb {R} ^ {n}.}
    • Xβ^= y^{\ displaystyle X {\ hat {\ boldsymbol {\ beta}}} = {\ hat {\ mathbf {y}}}}
  3. 3
    Vztiahnite nulový priestor x {\ displaystyle x} k y^{\ displaystyle {\ hat {\ mathbf {y}}}} . Vzťah k y {\ Displaystyle \ mathbf {y}} a jeho projekcii môžeme vyjadriť pomocou z = y − y^, {\ displaystyle \ mathbf {z} = \ mathbf {y} -{\ hat {\ mathbf {y}}},} kde z {\ displaystyle \ mathbf {z}} je zložkou y {\ displaystyle \ mathbf {y}} kolmý na Col⁡X. {\ displaystyle \ operatorname {Col}} X.
    • y − y^= Col⁡ (X) ⊥ {\ displaystyle \ mathbf {y} -{\ hat {\ mathbf {y}}} = \ operatorname {Col} (X)^{\ perp}}
    • Veta v lineárnej algebre, je, že v prípade, β {\ displaystyle {\ boldsymbol {\ beta}}} je v nulovej priestore z X, {\ displaystyle X} potom β {\ displaystyle {\ boldsymbol {\ beta}}} je kolmé na riadku priestoru X. {\ displaystyle X} to dáva zmysel, pretože by v maticové násobenie na ľubovoľný riadok má odoslať výsledok 0, ako je požadované vektora v nulového priestore X. {\ displaystyle X. }
      • Riadok⁡ (X) ⊥ = Nul⁡X {\ displaystyle \ operatorname {Row} (X)^{\ perp} = \ operatorname {Nul} X}
    • Pretože môžeme ľahko transponovať X, {\ displaystyle X,}, môžeme povedať, že Col⁡ (X) ⊥ = Nul⁡XT. {\ Displaystyle \ operatorname {Col} (X)^{\ perp} = \ operatorname {Nul} X^{T}.} Preto y − y^= Nul⁡XT, {\ displaystyle \ mathbf {y} -{\ hat {\ mathbf {y}}} = \ meno operátora {Nul} X^{T}, }, čo nás vedie k nižšie uvedenému záveru.
      • XT (y − y^) = 0 {\ Displaystyle X^{T} (\ mathbf {y} -{\ hat {\ mathbf {y}}}) = 0}
  4. 4
    Náhradné Xp ^ {\ displaystyle x {\ hat {\ boldsymbol {\ beta}}}} pre y ^ {\ displaystyle {\ hat {\ mathbf {y}}}} a zjednodušiť. Pretože nehľadáme y^, {\ displaystyle {\ hat {\ mathbf {y}}},} ale β^, {\ displaystyle {\ hat {\ boldsymbol {\ beta}}}},} nahrádzame to homogénna rovnica.
    • XT (y − Xβ^) = 0XTy − XTXβ^= 0 {\ Displaystyle {\ begin {zarovnaný} X^{T} (\ mathbf {y} -X {\ hat {\ boldsymbol {\ beta}}}) & = 0 \\ X^{T} \ mathbf {y} -X^{T} X {\ hat {\ boldsymbol {\ beta}}} & = 0 \ end {zarovnaný}}}
  5. 5
    Riešenie pre β^{\ displaystyle {\ hat {\ boldsymbol {\ beta}}}} . Teraz, keď sme vyjadrili β^{\ displaystyle {\ hat {\ boldsymbol {\ beta}}}} v požadovaných množstvách, môžeme túto rovnicu vyhodnotiť.
    • β^= (XTX) −1XTy {\ displaystyle {\ hat {\ boldsymbol {\ beta}}} = (X^{T} X)^{-1} X^{T} \ mathbf {y}}
    • Uvedomte si, že pre táto rovnica platné, XTX {\ displaystyle X ^ {T} X} musí byť invertovať. Ak sú v tomto výraze voľné premenné, bude existovať nekonečný počet platných trendových čiar.
Vzhľadom na súbor údajov môžeme prispôsobiť trendové čiary najmenších štvorcov
Vzhľadom na súbor údajov môžeme prispôsobiť trendové čiary najmenších štvorcov, ktoré je možné opísať lineárnymi kombináciami známych funkcií.

Časť 2 z 2: príklad pre dané údaje

  1. 1
    Zvážte nasledujúce údajové body. Chceme im prispôsobiť lineárnu trendovú čiaru najmenších štvorcov y = β0x+β1 {\ displaystyle y = \ beta _ {0} x+\ beta _ {1}} .
    • (03), (14), (25), (37) {\ Displaystyle (03), \, (14), \, (25), \, (37)}
    • Pretože používame lineárnu trendovú čiaru, môžeme dátové body použiť na napísanie systému rovníc.
      • 3 = β14 = β0+β15 = 2β0+β17 = 3β0+β1 {\ displaystyle {\ begin {aligned} 3 & = \ \ \ \ \ \ \ \ \ \ beta _ {1} \\ 4 & = \ beta _ {0 }+\ beta _ {1} \\ 5 & = 2 \ beta _ {0}+\ beta _ {1} \\ 7 & = 3 \ beta _ {0}+\ beta _ {1} \ end {zarovnaný}} }
  2. 2
    Nastavte vektor pozorovania a maticu návrhu. Pozorovací vektor je jednoducho stĺpcový vektor pozostávajúci z pozorovaní alebo hodnôt y. Prvky v návrhovej matici sa spoliehajú na koeficienty rovnice trendovej čiary, ktorá sa týka každého bodu. V našom prípade prvý stĺpec pozostáva z koeficientov β0, {\ Displaystyle \ beta _ {0},}, zatiaľ čo druhý stĺpec pozostáva z koeficientov β1. {\ Displaystyle \ beta _ {1}.}
    • X = (01112131), y = (3457) {\ displaystyle X = {\ begin {pmatrix} 0 & 1 \\ 1 & 1 \\ 2 & 1 \\ 3 & 1 \ end {pmatrix}}, \ \ mathbf {y} = {\ begin { pmatrix} 3 \\ 4 \\ 5 \\ 7 \ end {pmatrix}}}
  3. 3
    Vzťahnite riešenie s najmenšími štvorcami k návrhovej matici a pozorovaciemu vektoru.
    • β^= (XTX) −1XTy {\ displaystyle {\ hat {\ boldsymbol {\ beta}}} = (X^{T} X)^{-1} X^{T} \ mathbf {y}}
  4. 4
    Vyhodnoťte pravú stranu akýmikoľvek možnými prostriedkami.
    • XTX = (14664) (XTX) −1 = 110 (2−3−37) XTy = (3519) (XTX) −1XTy = 110 (1328) {\ displaystyle {\ begin {zarovnaný} X^{T} X & = {\ begin {pmatrix} 14 & 6 \\ 6 & 4 \ end {pmatrix}}} \\ (X^{T} X)^{-1} & = {\ frac {1} {10}} {\ begin {pmatrix} 2 & -3 \\-3 & 7 \ end {pmatrix}} \\ X^{T} \ mathbf {y} & = {\ begin {pmatrix} 35 \\ 19 \ end {pmatrix}} \\ (X^{T} X)^{-1} X^{T} \ mathbf {y} & = {\ frac {1} {10}} {\ begin {pmatrix} 13 \\ 28 \ end {pmatrix}} \ end {zarovnaný} }}
  5. 5
    Napíšte trendovú čiaru v štandardnej forme. Toto je línia najvhodnejšia pre pozorované dátové body. Naša intuícia kontroluje, či je to správna odpoveď, pretože sme vzhľadom na odľahlú hodnotu (37) očakávali, že sklon bude o niečo väčší ako 1 a priesečník os y bude o niečo menší ako 3 .
    • y = 1310x+2810 {\ displaystyle y = {\ frac {13} {10}} x+{\ frac {28} {10}}}

Tipy

  • Príklad, ktorý sme uviedli v časti 2, sa zaoberal prispôsobením priamky množine pozorovaní. Najmenšie štvorce sú však silnejšie. Vzhľadom na súbor údajov môžeme prispôsobiť trendové čiary najmenších štvorcov, ktoré je možné opísať lineárnymi kombináciami známych funkcií. Ak je to vhodné, do údajov môžete napríklad vložiť kvadratické, kubické a dokonca exponenciálne krivky.

Súvisiace články
  1. Ako prejsť integrovanou algebrou?
  2. Ako pripraviť akrylamidový gél?
  3. Ako dokázať, že oxidy tvorené nekovmi sú kyslé?
  4. Ako študovať chémiu energetických molekúl?
  5. Ako pripraviť morskú vodu v laboratóriu?
  6. Ako študovať výrobu atómovej energie?
FacebookTwitterInstagramPinterestLinkedInGoogle+YoutubeRedditDribbbleBehanceGithubCodePenWhatsappEmail