2. fejezet Lineáris regresszió kis SMART adathalmazon
2.1 BRFSS és SMART
A Centers for Disease Control elemzi a Behavioral Risk Factor Surveillance System (BRFSS) felmérési adatait a meghatározott nagyvárosi és mikropoli statisztikai területekről (MMSA) a BRFSS Selected Metropolitan/Micropolitan Area Risk Trends (SMART BRFSS) elnevezésű programjában.
Ebben a munkában a 2016. évi SMART adataira összpontosítunk, különös tekintettel a Cleveland-Elyria, OH, Fővárosi Statisztikai Terület adataira. Ennek a felmérésnek az a célja, hogy lokalizált egészségügyi információkat szolgáltasson, amelyek segíthetik a közegészségügyi szakembereket a helyi felmerülő egészségügyi problémák felismerésében, a helyi válaszok megtervezésében és értékelésében, valamint az erőforrások hatékony elosztásában a speciális igények kielégítésére.
2.1.1 Kulcsforrások
- a teljes adat a 2016-os SMART BRFSS MMSA Data formájában érhető el, amely egy tömörített SAS Transport Format fájlban található. Az adatokat 2017 augusztusában tették közzé.
- az MMSA Variable Layout PDF, amely egyszerűen felsorolja az adatfájlban szereplő változókat
- a Számított változók PDF, amely a kockázati tényezőket adatváltozók nevek szerint írja le - létezik ezen számított változók online összefoglaló mátrixa is.
- a hosszadalmas, 2016. évi Survey Questions PDF, amely felsorolja a 2016-os BRFSS részeként feltett összes kérdést
- a 2016-os BRFSS felmérés PDF hatalmas kódfüzete, amely név szerint azonosítja a változókat.
A kifejezés későbbi részében ezeket az erőforrásokat felhasználjuk egy teljesebb adatkészlet összeállításához, mint amit ma megvizsgálunk. Bemutatom azt is, hogyan építettem fel a smartcle1 adatkészletet, amelyet ebben a fejezetben használni fogunk.
2.2 A smartcle1 adatai: Szakácskönyv
A weboldalunk Data and Code oldalán elérhető smartcle1.csv adatfájl 11 változóval kapcsolatos információkat ír le a 2016-os BRFSS 1036 válaszadója számára, akik Cleveland-Elyria, OH, Fővárosi Statisztikai Területen élnek. Az alábbiakban felsoroljuk a smartcle1.csv fájl változóit, valamint (adott esetben) az ezeket a válaszokat generáló BRFSS elemeket.
2.3 smartcle2: Hiányzó észrevételek kihagyása: Teljes eset-elemzések
Az első modellek illesztése érdekében kiküszöböljük a hiányzási problémát, és csak a smartcle1 adatainkban szereplő teljes eseteket vesszük figyelembe. A hiányzó adatok beszámításának módszereit a későbbiekben a Megjegyzésekben tárgyaljuk.
Az adataink hiányosságainak vizsgálatához fontolóra vehetjük a skimr csomag skim függvényének használatát. Az összefoglalóból érdektelenségként kizárjuk a válaszadó azonosító kódját (SEQNO).
Most létrehozunk egy új, smartcle2 nevű tibble-t, amely a szegény egészség kivételével minden változót tartalmaz, és amely tartalmazza az összes válaszadót a változókkal kapcsolatos teljes adatokkal (a szegény egészségen kívül). Ezeket a megfigyeléseket teljes adatokkal a smartcle2 tibble tároljuk.
Vegye figyelembe, hogy csak 896 válaszadó van teljes adatok a smartcle2 tibble 10 változójáról (a szegény egészség kivételével), összehasonlítva eredeti smartcle1 adatainkkal, amelyek 1036 válaszadót és 11 változót írtak le, de sok hiányzó adattal.
2.4 A smartcle2 adatok összegzése numerikusan
2.4.1 Az új játék: A lefelé funkció
2.4.2 Az adatkeret szokásos összefoglalója
Természetesen a szokásos összefoglalót használhatjuk az adatok alapinformációinak megszerzéséhez.
2.4.3 A leírási függvény a Hmisc-ben
Vagy használhatjuk a Hmisc csomag leírási függvényét.
2.5 Számítás feltáró adatelemzésként
A dolgok megszámlálása elképesztően hasznos lehet.
2.5.1 Hány válaszadó gyakorolt az elmúlt 30 napban? Nemenként változott-e ez?
tehát most már tudjuk, hogy az adatainkban szereplő alanyok 42,3% -a testedző nő volt. Tegyük fel, hogy ehelyett meg akarjuk találni az edzők százalékos arányát az egyes nemeken belül…
és most már tudjuk, hogy a férfiak 82,8% -a legalább egyszer gyakorolt az elmúlt 30 napban, szemben a nők 72,3% -ával.
2.5.2 Mi az alvások eloszlása? ?
A kvantitatív változókat megkülönböztethetjük a lehetséges értékek különálló halmazaival, például a sleephrs értékkel, amelyet egész számként rögzítünk (ennek 0 és 24 közé kell esnie).
Természetesen egy ilyen kvantitatív változó természetes összefoglalása grafikus lenne.
2.5.3 Mi a BMI megoszlása ?
2.5.4 A válaszadók hányadikának BMI-értéke 30 alatt van?
2.5.5 Hány a BMI-vel rendelkező válaszadók száma?
2.5.7 Az alvási összesítések összehasonlítása elhízási állapot szerint
Össze tudjuk-e hasonlítani azoknak a válaszadóknak az alvási átlagát, mediánjait és 75. százalékait, akiknek BMI-je 30 alatt van?
2.5.8 A csövön belüli átfutási funkció
Az sovány Ez a funkció a csöveken belül és a többi takaró funkcióval működik.
2.6 Első modellezési kísérlet: Meg tudja jósolni a fizikai egészséget ?
Kezdjük azzal a törekvéssel, hogy megjósoljuk a fizikai egészséget a bmi használatával. A természetes gráf szóródási ábra lenne.
Egy jó kérdés, amelyet itt felteszünk magunknak, a következő lehet: "Milyen BMI tartományban tudunk ésszerűen megjósolni a fizikai egészséget?"
Most felvehetjük a fenti ábrát, és hozzáadhatunk egy egyszerű lineáris modellt ...
amely ugyanazt a legkisebb négyzetes regressziós modellt mutatja, amelyet illeszthetünk az lm paranccsal.
2.6.1 Egyszerű regressziós modell felszerelése
A modell együtthatói a modell objektum kinyomtatásával nyerhetők el, az összefoglaló függvény pedig számos hasznos leírást nyújt a modell maradványairól, statisztikai szignifikanciájáról és illeszkedésének minőségéről.
2.6.2 Modell-összefoglalás egy egyszerű (egy prediktoros) regresszióhoz
Az illesztett modell a fizikai egészséget a -1,45 + 0,195 * bmi egyenlettel jósolja, amint azt leolvashatjuk a modell együtthatóiból.
A smartcle2 adatokban szereplő 896 válaszadó mindegyike hozzájárul ehhez a modellhez.
2.6.2.1 Maradékok
Tegyük fel, hogy Harry az egyik e csoportba tartozó ember, és Harry adatai: bmi = 20, a fizikai egészség = 3.
- Harry megfigyelt fizikai egészségének értéke csak az az érték, amelyet a számukra vonatkozó adatok tartalmaznak, ebben az esetben a megfigyelt fizikai egészség = 3 Harry esetében.
- Harry illesztett vagy megjósolt fizikai egészségi értéke annak az eredménye, hogy -1,45 + 0,195 * bmi-t számoltunk ki Harry számára. Tehát, ha Harry BMI-je 20 volt, akkor Harry jósolt fizikai-egészségügyi értéke -1,45 + (0,195) (20) = 2,45.
- Harry maradékának ekkor a megfigyelt eredménye mínusz a megfelelő eredmény, így Harry maradványa 3 - 2,45 = 0,55.
- Grafikusan a maradék a megfigyelt pont és az illesztett regressziós vonal közötti függőleges távolságot jelenti.
- A regressziós vonal feletti pontok pozitív maradványokat, a regressziós vonal alatti pontok negatív maradványokat tartalmaznak. A vonal pontjain nulla maradvány van.
A maradványokat a lineáris modell összefoglaló kimenetének tetején foglaljuk össze.
- Az átlagos maradvány mindig nulla lesz egy átlagos legkisebb négyzet modellben, de a maradványok ötszámos összefoglalását az összefoglaló, valamint a maradványok becsült szórása (itt maradvány-standard hibának nevezzük).
- A smartcle2 adatokban a minimális maradék -9,17 volt, tehát egy alany esetében a megfigyelt érték 9,17 nappal volt kevesebb, mint az előre jelzett érték. Ez azt jelenti, hogy az előrejelzés 9,17 nappal volt túl nagy az adott alany számára.
- Hasonlóképpen, a maximális maradék 28,07 nap volt, tehát egy alany esetében a jóslat 28,07 nap volt túl kicsi. Nem erős teljesítmény.
- A legkisebb négyzetek modelljében feltételezzük, hogy a maradványok normál eloszlást követnek, átlagos nulla és standard eltérés (a smartcle2 adatok esetében) körülbelül 8,6 nap. Így a Normal disztribúció meghatározása alapján elvárhatjuk
- a maradék körülbelül 68% -a -8,6 és +8,6 nap között van,
- a maradék körülbelül 95% -a -17,2 és +17,2 nap között van,
- körülbelül (99,7%) a maradék -25,8 és +25,8 nap között van.
2.6.2.2 Együtthatók szakasz
A lineáris modell összefoglalója becsléseket, standard hibákat, t értékeket és p értékeket mutat minden egyes együttható illesztéshez.
- A becslések a bmi metszéspontjának és meredekségének pontbecslései modellünkben.
- Ebben az esetben a becsült meredekségünk 0,195, ami azt jelenti, hogy ha Harry BMI 20 és Sally BMI 21, akkor azt jósoljuk, hogy Sally fizikai egészsége 0,195 nappal lesz nagyobb, mint Harryé.
- A standard hibákat minden becsléshez megadjuk. Nagyjából 95% -os konfidencia intervallumokat hozhatunk létre két standard hiba összeadásával és kivonásával az egyes együtthatókból, vagy valamivel pontosabb választ kaphatunk a confint függvénnyel.
- A bmi meredekségének 95% -os konfidencia intervalluma itt becslések szerint (0,11, 0,28). Ez jól méri a lejtőn található bizonytalanságot, amelyet modellünk rögzít. 95% -kal bízunk ebben az intervallumban, de ez nem azt jelenti, hogy 95% -kal biztosak vagyunk abban, hogy a valódi lejtés valóban ebben az intervallumban van.
Szintén elérhető egy t érték (csak az Becslés elosztva a standard hibával) és a megfelelő p érték annak a nullhipotézisnek a teszteléséhez, miszerint az együttható valódi értéke 0 egy kétfarkú alternatívával.
- Ha a meredekségi együttható statisztikailag szignifikánsan különbözik a 0-tól, ez azt jelenti, hogy a 0 nem lesz része a confint révén kapott bizonytalansági intervallumnak .
- Ha a meredekség nulla, az azt sugallja, hogy a bmi nem ad hozzá prediktív értéket a modellhez. De ez itt nem valószínű.
Ha a bmi meredekségi együttható kicsi p értékkel van társítva, mint a mi modellünk esetében_A, az azt sugallja, hogy a bmi-t tartalmazó modell statisztikailag szignifikánsan jobban megjósolja a fizikai egészséget, mint a bmi nélküli modell .
- Bmi nélkül a model_A ebben az esetben csak elfogó modellré válna, amely megjósolná az átlagos fizikai egészséget mindenkinek, bármilyen más információtól függetlenül.
2.6.2.3 Fit Summaries modell
A lineáris modell összefoglalója a következőket is megjeleníti:
- Az F statisztika és a p érték a modell globális ANOVA tesztjéből.
- A statisztikailag szignifikáns eredmény megszerzése itt általában elég egyszerű, mivel az összehasonlítás a modellünk és egy olyan modell között történik, amely egyszerűen megjósolja az eredmény átlagértékét mindenki számára.
- Ilyen egyszerű (egy előrejelző) lineáris regresszió esetén a lejtő t statisztikája csak az F statisztika négyzetgyöke, és a lejtő t tesztjének és a globális F tesztnek az eredményül kapott p értéke azonos lesz.
- A teljes ANOVA F teszt megtekintéséhez futtathatjuk az anovat (model_A) .
2.6.3 A seprűcsomag használata
A seprűcsomagnak három funkciója van, amelyeket egy lineáris regressziós modellben különösképpen használnak:
- A formaldehid annyira veszélyes, hogy anélkül halott lennél, az Amerikai Tudományos és Egészségügyi Tanács
- Tapasztalat az FHIR orvosi adatkezelő platformjának fejlesztésében a klinikai döntéshozatal érdekében
- Kulináris orvostudományi oktatás UCI orvostanhallgatók és Családegészségügyi Központ Betegek Osztálya számára
- A táplálkozási tények késleltetése a közérdekű célok érdekében jelölje meg a közegészségügyi tudományos központ ütését
- Méregtelenítő szakember - Portland belvárosa, VAGY a holisztikus egészségügyi holisztikus orvosi csoport portlandi klinikája