sesion08_chalkboard

term	estimate	std.error	statistic	p.value	conf.low	conf.high
(Intercept)	-5.431666	2.657423	-2.043960	4.121962e-02	-10.6464437	-0.2168874
x3_peso_inicial	1.344722	0.176587	7.615067	6.099526e-14	0.9981973	1.6912461

term	estimate	std.error	statistic	p.value	conf.low	conf.high
(Intercept)	19.87711	0.1112478	178.67418	0	19.65880	20.095417
x1_ttoTratamiento Nuevo	-10.23253	0.1573282	-65.03938	0	-10.54126	-9.923794

term	estimate	std.error	statistic	p.value	conf.low	conf.high
(Intercept)	-0.9471917	0.99689433	-0.9501426	3.422701e-01	-2.903444	1.009060
x1_ttoTratamiento Nuevo	-10.2553009	0.13110928	-78.2194924	0.000000e+00	-10.512583	-9.998019
x3_peso_inicial	1.3875541	0.06613671	20.9800905	3.097784e-81	1.257771	1.517337

term	estimate	conf.low	conf.high	p.value2
(Intercept)	-0.95	-2.90	1.01	0.342
x1_ttoTratamiento Nuevo	-10.26	-10.51	-10.00	<0.001
x3_peso_inicial	1.39	1.26	1.52	<0.001

Variables	Coeficiente (IC95%), p valor
Intercepto	-0.95 (IC95% -2.9 a 1.01), p = 0.342
Tratamiento nuevo vs. Placebo	-10.26 (IC95% -10.51 a -10), p <0.001
Peso inicial (kg)	1.39 (IC95% 1.26 a 1.52), p <0.001

term	estimate	std.error	statistic	p.value	conf.low	conf.high
(Intercept)	-0.9471917	0.99689433	-0.9501426	3.422701e-01	-2.903444	1.009060
x1_ttoTratamiento Nuevo	-10.2553009	0.13110928	-78.2194924	0.000000e+00	-10.512583	-9.998019
x3_peso_inicial	1.3875541	0.06613671	20.9800905	3.097784e-81	1.257771	1.517337

Errores y residuos

Los errores () son medidas de la población a la que no tenemos acceso.
- Sin embargo, varios supuestos de la regresión involucran a los errores inaccesibles por el investigador.
Los residuos () son el análogo a los errores pero obtenidos de la muestra observada.
Podemos usar los residuos para evaluar algunos supuestos sobre los errores.

Residuos gráficamente

Supuestos de la regresión lineal normal

Supuestos estadísticos del modelo

Linealidad
Independencia de observaciones
Homocedasticidad de los errores
Normalidad de los errores o de .
No problemas con la regresión:
- Puntos influyentes.
- (Multi) colinealidad: Solo cuando es un problema, no siempre lo es.

Supuestos adicionales que suelen acompañar a la regresión lineal normal

Generalizar a población finita conocida
Inferencia causal

Supuestos si queremos generalizar a una población finita bien definida

La muestra es representativa de la población.
- Ideal para alcanzar esto es mediante muestreo probabilístico: representatividad estadística.
Cuando no lo tenemos, solo podemos generalizar a una población que sabemos que existe pero no podemos definir. ¿Qué tan relevante puede ser esto?
- Otros consideran (¿ingenuamente?) que, bajo ciertas condiciones, se puede alcanar una representativadad teórica.

Algunas notas sobre los errores y residuos para evaluar supuestos

En realidad, los supuestos de los modelos lineales son sobre el comportamiento probabilístico de .
Sin embargo, la idea de la existencia de los errores y de sus valores observados en la muestra, residuos resulta útil para evaluar supuestos.
- Permiten reducir un problema de muchas dimensiones a solo 1 o 2 dimensiones.
- Son como las placas radiográficas para el diagnóstico de los modelos.

Algunas notas sobre los errores y residuos para evaluar supuestos

¿Cómo evaluar los supuestos de la regresión lineal?

Se usan los residuos para explorar el comportamiento de los o los errores .
Preferiblemente usar gráficos de residuos.
- Pruebas de hipótesis que usan residuos tienen los mismos problemas que discutimos en clases anteriores.
- Podríamos usarlas para complementar análisis cuando los tamaños de muestra no son ni muy pequeños ni muy grandes.
La función check_model del paquete {performance} genera un panel de gráficos muy útil para evalur estos supuestos.
Podemos complentar el análisis de supuestos con funciones del paquete {car}.

Función check_model() para evaluar supuestos

Podemos observar un panel general con la evaluación de varios supuestos
Primero cargamos el paquete performance:

library(performance)

Luego, la función check_model() aplicada al objeto de modelado genera un panel de gráficos para evaluar diversos supuestos o detectar algunos problemas.
Los gráficos de homogeneidad de varianzas, linealidad y de normalidad de residuos usan residuos estandarizados para el caso de lm()

check_model(mod)

Función check_model() para evaluar supuestos (cont.)

Linealidad

La función check_model() genera un gráfico de residuos versus valores ajustados que permiten evaluar linealidad.
Podemos graficar los residuos contra cada variable predictora numérica para identificar si alguna de estas variables es causante de no linealidad e incluso tener una idea de qué forma funcional podría ser apropiada.
Los gráficos de residuos crudos, los estandarizados, e incluso los estudentizdos versus cada covariable pueden no generar gráficos donde se visualicen apropiadamente la no linealidad.
Los residuos parciales son un tipo de residuo que genera gráficos de mejor “resolución” para diagnosticar problemas de no linealidad.

Linealidad con el paquete {car}

Podemos usar gráficos de residuos parciales + Componente:

library(car)
crPlots(mod)

Linealidad con el paquete {car} (cont.)

También podemos usar gráficos de variable agregada

avPlots(mod)

Linealidad con función termplot() de paquete {stats} (cont.)

termplot(mod, partial.resid = TRUE, se = TRUE, ask = FALSE, smooth = panel.smooth)

Linealidad con el paquete {ggeffects} (cont.)

library(ggeffects)
xb <- ggpredict(mod, "x3_peso_inicial [all]")
plot(xb, residuals = TRUE, residuals.line = TRUE)

Homogeneidad de varianzas (Homocedasticidad)

Se puede evaluar si la homocedasticidad es consistente según cada variable predictora.
Se sugiere usar residuos estudentizados.

residualPlots(mod, type = "rstudent")

                Test stat Pr(>|Test stat|)
x1_tto                                    
x3_peso_inicial    1.2180           0.2235
Tukey test         0.5429           0.5872

Homogeneidad de varianzas (Homocedasticidad)

residualPlots(mod, type = "rstudent")

                Test stat Pr(>|Test stat|)
x1_tto                                    
x3_peso_inicial    1.2180           0.2235
Tukey test         0.5429           0.5872

Outliers, puntos influyentes y dfbetas

Diversas medidas pueden usarse para detectar la existencia de valores extremos y puntos de alto apalancamiento que puedan ser influyentes.
La función influenceIndexPlot() del paquete {car} es muy útil para generar estos gráficos.

influenceIndexPlot(model = mod, id.n = 5)

Outliers, puntos influyentes y dfbetas

influenceIndexPlot(model = mod, id.n = 5)

Outliers, puntos influyentes y dfbetas

En el caso de modelos explicativos, importa determinar si hay un impacto en los coeficientes de regresion.
Los dfbetas pueden ser útiles para evaluar esto:

dfbetasPlots(model = mod, id.n = 5)

¿Cómo flexibilizar supuestos?

El supuesto de linealidad es sobre los coeficientes de regresión , no sobre las covariables.
Las variables X deben estar en una forma apropiada para que el supuesto se cumpla.
Es bien difícil que exista linealidad en la realidad, pero puede ocurrir en raras y excepcionales ocasiones.
- Sobre todo cuando la variable está acotada en valores donde la linealidad es plausible.
Se sugiere asumir no linealidad y pre-planear un modelamiento no lineal de la forma funcional de los predictores.

Entre los métodos que pueden usarse, tenemos:
- Splines: Bastante usado y sugerido en bioestadística. Útil para ajustar por variables continuas.
- Modelamiento Multivariablede polinomios fraccionales. También usado y recomendado en literatura biomédica. Útil para modelar forma como objetivo principal.
- Polinomios. Menos flexible, puede ser útil si se conoce bien la relación o se busca mejorar ajuste.
- Modelos aditivos generalizados. Útil si se buscar modelar la relación. Complejos y requieren muchos datos.

No homogeneidad de varianzas: Podemos usar una estimación robusta de la varianza o modelar directamente la varianza.
Los paquetes {sanwich} y {lmtest} proporcionan funciones útiles para estimación robusta de varianza.
Es bien difícil de creer que existe homogeneidad de varianzas en la vida real (salvo muy raras y excepcionales ocasiones).
- Se sugiere planear el proyecto asumiendo que no hay homocedasticidad y usar inferencia robusta de manera pre-planeada.

library(lmtest)
library(sandwich)
coeftest(mod, vcov = vcovHC) %>% 
  tidy(conf.int = TRUE)

# A tibble: 3 × 7
  term                    estimate std.error statistic  p.value conf.low conf.…¹
  <chr>                      <dbl>     <dbl>     <dbl>    <dbl>    <dbl>   <dbl>
1 (Intercept)               -0.947    1.05      -0.906 3.65e- 1    -3.00    1.10
2 x1_ttoTratamiento Nuevo  -10.3      0.131    -78.1   0          -10.5   -10.0 
3 x3_peso_inicial            1.39     0.0692    20.0   2.45e-75     1.25    1.52
# … with abbreviated variable name ¹conf.high

¡Gracias! ¿Preguntas?

https://github.com/psotob91

percys1991@gmail.com

Sesión 8

Curso: R Aplicado a los Proyectos de Investigación

Percy Soto-Becerra, M.D., M.Sc(c)

InkaStats Data Science Solutions | Medical Branch

2022-10-19