2. fejezet Lineáris regresszió kis SMART adathalmazon

2.1 BRFSS és SMART

A Centers for Disease Control elemzi a Behavioral Risk Factor Surveillance System (BRFSS) felmérési adatait a meghatározott nagyvárosi és mikropoli statisztikai területekről (MMSA) a BRFSS Selected Metropolitan/Micropolitan Area Risk Trends (SMART BRFSS) elnevezésű programjában.

Ebben a munkában a 2016. évi SMART adataira összpontosítunk, különös tekintettel a Cleveland-Elyria, OH, Fővárosi Statisztikai Terület adataira. Ennek a felmérésnek az a célja, hogy lokalizált egészségügyi információkat szolgáltasson, amelyek segíthetik a közegészségügyi szakembereket a helyi felmerülő egészségügyi problémák felismerésében, a helyi válaszok megtervezésében és értékelésében, valamint az erőforrások hatékony elosztásában a speciális igények kielégítésére.

2.1.1 Kulcsforrások

  • a teljes adat a 2016-os SMART BRFSS MMSA Data formájában érhető el, amely egy tömörített SAS Transport Format fájlban található. Az adatokat 2017 augusztusában tették közzé.
  • az MMSA Variable Layout PDF, amely egyszerűen felsorolja az adatfájlban szereplő változókat
  • a Számított változók PDF, amely a kockázati tényezőket adatváltozók nevek szerint írja le - létezik ezen számított változók online összefoglaló mátrixa is.
  • a hosszadalmas, 2016. évi Survey Questions PDF, amely felsorolja a 2016-os BRFSS részeként feltett összes kérdést
  • a 2016-os BRFSS felmérés PDF hatalmas kódfüzete, amely név szerint azonosítja a változókat.

A kifejezés későbbi részében ezeket az erőforrásokat felhasználjuk egy teljesebb adatkészlet összeállításához, mint amit ma megvizsgálunk. Bemutatom azt is, hogyan építettem fel a smartcle1 adatkészletet, amelyet ebben a fejezetben használni fogunk.

2.2 A smartcle1 adatai: Szakácskönyv

A weboldalunk Data and Code oldalán elérhető smartcle1.csv adatfájl 11 változóval kapcsolatos információkat ír le a 2016-os BRFSS 1036 válaszadója számára, akik Cleveland-Elyria, OH, Fővárosi Statisztikai Területen élnek. Az alábbiakban felsoroljuk a smartcle1.csv fájl változóit, valamint (adott esetben) az ezeket a válaszokat generáló BRFSS elemeket.

2.3 smartcle2: Hiányzó észrevételek kihagyása: Teljes eset-elemzések

Az első modellek illesztése érdekében kiküszöböljük a hiányzási problémát, és csak a smartcle1 adatainkban szereplő teljes eseteket vesszük figyelembe. A hiányzó adatok beszámításának módszereit a későbbiekben a Megjegyzésekben tárgyaljuk.

Az adataink hiányosságainak vizsgálatához fontolóra vehetjük a skimr csomag skim függvényének használatát. Az összefoglalóból érdektelenségként kizárjuk a válaszadó azonosító kódját (SEQNO).

Most létrehozunk egy új, smartcle2 nevű tibble-t, amely a szegény egészség kivételével minden változót tartalmaz, és amely tartalmazza az összes válaszadót a változókkal kapcsolatos teljes adatokkal (a szegény egészségen kívül). Ezeket a megfigyeléseket teljes adatokkal a smartcle2 tibble tároljuk.

Vegye figyelembe, hogy csak 896 válaszadó van teljes adatok a smartcle2 tibble 10 változójáról (a szegény egészség kivételével), összehasonlítva eredeti smartcle1 adatainkkal, amelyek 1036 válaszadót és 11 változót írtak le, de sok hiányzó adattal.

2.4 A smartcle2 adatok összegzése numerikusan

2.4.1 Az új játék: A lefelé funkció

2.4.2 Az adatkeret szokásos összefoglalója

Természetesen a szokásos összefoglalót használhatjuk az adatok alapinformációinak megszerzéséhez.

2.4.3 A leírási függvény a Hmisc-ben

Vagy használhatjuk a Hmisc csomag leírási függvényét.

2.5 Számítás feltáró adatelemzésként

A dolgok megszámlálása elképesztően hasznos lehet.

2.5.1 Hány válaszadó gyakorolt ​​az elmúlt 30 napban? Nemenként változott-e ez?

tehát most már tudjuk, hogy az adatainkban szereplő alanyok 42,3% -a testedző nő volt. Tegyük fel, hogy ehelyett meg akarjuk találni az edzők százalékos arányát az egyes nemeken belül…

és most már tudjuk, hogy a férfiak 82,8% -a legalább egyszer gyakorolt ​​az elmúlt 30 napban, szemben a nők 72,3% -ával.

2.5.2 Mi az alvások eloszlása? ?

A kvantitatív változókat megkülönböztethetjük a lehetséges értékek különálló halmazaival, például a sleephrs értékkel, amelyet egész számként rögzítünk (ennek 0 és 24 közé kell esnie).

Természetesen egy ilyen kvantitatív változó természetes összefoglalása grafikus lenne.

432-hez

2.5.3 Mi a BMI megoszlása ?

2.5.4 A válaszadók hányadikának BMI-értéke 30 alatt van?

2.5.5 Hány a BMI-vel rendelkező válaszadók száma?

2.5.7 Az alvási összesítések összehasonlítása elhízási állapot szerint

Össze tudjuk-e hasonlítani azoknak a válaszadóknak az alvási átlagát, mediánjait és 75. százalékait, akiknek BMI-je 30 alatt van?

2.5.8 A csövön belüli átfutási funkció

Az sovány Ez a funkció a csöveken belül és a többi takaró funkcióval működik.

2.6 Első modellezési kísérlet: Meg tudja jósolni a fizikai egészséget ?

Kezdjük azzal a törekvéssel, hogy megjósoljuk a fizikai egészséget a bmi használatával. A természetes gráf szóródási ábra lenne.

Egy jó kérdés, amelyet itt felteszünk magunknak, a következő lehet: "Milyen BMI tartományban tudunk ésszerűen megjósolni a fizikai egészséget?"

Most felvehetjük a fenti ábrát, és hozzáadhatunk egy egyszerű lineáris modellt ...

amely ugyanazt a legkisebb négyzetes regressziós modellt mutatja, amelyet illeszthetünk az lm paranccsal.

2.6.1 Egyszerű regressziós modell felszerelése

A modell együtthatói a modell objektum kinyomtatásával nyerhetők el, az összefoglaló függvény pedig számos hasznos leírást nyújt a modell maradványairól, statisztikai szignifikanciájáról és illeszkedésének minőségéről.

2.6.2 Modell-összefoglalás egy egyszerű (egy prediktoros) regresszióhoz

Az illesztett modell a fizikai egészséget a -1,45 + 0,195 * bmi egyenlettel jósolja, amint azt leolvashatjuk a modell együtthatóiból.

A smartcle2 adatokban szereplő 896 válaszadó mindegyike hozzájárul ehhez a modellhez.

2.6.2.1 Maradékok

Tegyük fel, hogy Harry az egyik e csoportba tartozó ember, és Harry adatai: bmi = 20, a fizikai egészség = 3.

  • Harry megfigyelt fizikai egészségének értéke csak az az érték, amelyet a számukra vonatkozó adatok tartalmaznak, ebben az esetben a megfigyelt fizikai egészség = 3 Harry esetében.
  • Harry illesztett vagy megjósolt fizikai egészségi értéke annak az eredménye, hogy -1,45 + 0,195 * bmi-t számoltunk ki Harry számára. Tehát, ha Harry BMI-je 20 volt, akkor Harry jósolt fizikai-egészségügyi értéke -1,45 + (0,195) (20) = 2,45.
  • Harry maradékának ekkor a megfigyelt eredménye mínusz a megfelelő eredmény, így Harry maradványa 3 - 2,45 = 0,55.
  • Grafikusan a maradék a megfigyelt pont és az illesztett regressziós vonal közötti függőleges távolságot jelenti.
  • A regressziós vonal feletti pontok pozitív maradványokat, a regressziós vonal alatti pontok negatív maradványokat tartalmaznak. A vonal pontjain nulla maradvány van.

A maradványokat a lineáris modell összefoglaló kimenetének tetején foglaljuk össze.

  • Az átlagos maradvány mindig nulla lesz egy átlagos legkisebb négyzet modellben, de a maradványok ötszámos összefoglalását az összefoglaló, valamint a maradványok becsült szórása (itt maradvány-standard hibának nevezzük).
  • A smartcle2 adatokban a minimális maradék -9,17 volt, tehát egy alany esetében a megfigyelt érték 9,17 nappal volt kevesebb, mint az előre jelzett érték. Ez azt jelenti, hogy az előrejelzés 9,17 nappal volt túl nagy az adott alany számára.
  • Hasonlóképpen, a maximális maradék 28,07 nap volt, tehát egy alany esetében a jóslat 28,07 nap volt túl kicsi. Nem erős teljesítmény.
  • A legkisebb négyzetek modelljében feltételezzük, hogy a maradványok normál eloszlást követnek, átlagos nulla és standard eltérés (a smartcle2 adatok esetében) körülbelül 8,6 nap. Így a Normal disztribúció meghatározása alapján elvárhatjuk
  • a maradék körülbelül 68% -a -8,6 és +8,6 nap között van,
  • a maradék körülbelül 95% -a -17,2 és +17,2 nap között van,
  • körülbelül (99,7%) a maradék -25,8 és +25,8 nap között van.

2.6.2.2 Együtthatók szakasz

A lineáris modell összefoglalója becsléseket, standard hibákat, t értékeket és p értékeket mutat minden egyes együttható illesztéshez.

  • A becslések a bmi metszéspontjának és meredekségének pontbecslései modellünkben.
  • Ebben az esetben a becsült meredekségünk 0,195, ami azt jelenti, hogy ha Harry BMI 20 és Sally BMI 21, akkor azt jósoljuk, hogy Sally fizikai egészsége 0,195 nappal lesz nagyobb, mint Harryé.
  • A standard hibákat minden becsléshez megadjuk. Nagyjából 95% -os konfidencia intervallumokat hozhatunk létre két standard hiba összeadásával és kivonásával az egyes együtthatókból, vagy valamivel pontosabb választ kaphatunk a confint függvénnyel.
  • A bmi meredekségének 95% -os konfidencia intervalluma itt becslések szerint (0,11, 0,28). Ez jól méri a lejtőn található bizonytalanságot, amelyet modellünk rögzít. 95% -kal bízunk ebben az intervallumban, de ez nem azt jelenti, hogy 95% -kal biztosak vagyunk abban, hogy a valódi lejtés valóban ebben az intervallumban van.

Szintén elérhető egy t érték (csak az Becslés elosztva a standard hibával) és a megfelelő p érték annak a nullhipotézisnek a teszteléséhez, miszerint az együttható valódi értéke 0 egy kétfarkú alternatívával.

  • Ha a meredekségi együttható statisztikailag szignifikánsan különbözik a 0-tól, ez azt jelenti, hogy a 0 nem lesz része a confint révén kapott bizonytalansági intervallumnak .
  • Ha a meredekség nulla, az azt sugallja, hogy a bmi nem ad hozzá prediktív értéket a modellhez. De ez itt nem valószínű.

Ha a bmi meredekségi együttható kicsi p értékkel van társítva, mint a mi modellünk esetében_A, az azt sugallja, hogy a bmi-t tartalmazó modell statisztikailag szignifikánsan jobban megjósolja a fizikai egészséget, mint a bmi nélküli modell .

  • Bmi nélkül a model_A ebben az esetben csak elfogó modellré válna, amely megjósolná az átlagos fizikai egészséget mindenkinek, bármilyen más információtól függetlenül.

2.6.2.3 Fit Summaries modell

A lineáris modell összefoglalója a következőket is megjeleníti:

  • Az F statisztika és a p érték a modell globális ANOVA tesztjéből.
    • A statisztikailag szignifikáns eredmény megszerzése itt általában elég egyszerű, mivel az összehasonlítás a modellünk és egy olyan modell között történik, amely egyszerűen megjósolja az eredmény átlagértékét mindenki számára.
    • Ilyen egyszerű (egy előrejelző) lineáris regresszió esetén a lejtő t statisztikája csak az F statisztika négyzetgyöke, és a lejtő t tesztjének és a globális F tesztnek az eredményül kapott p értéke azonos lesz.
  • A teljes ANOVA F teszt megtekintéséhez futtathatjuk az anovat (model_A) .

2.6.3 A seprűcsomag használata

A seprűcsomagnak három funkciója van, amelyeket egy lineáris regressziós modellben különösképpen használnak: