Agenda
Revisando filosofías de modelado
Linealidad y forma funcional
Selección de variables
modelo estadístico
?“Modelos estadísticos resumen patrón de datos disponibles para el análisis. (Steyerberg, 2009)
“Una herramienta poderosa para desarollar y probar teorías mediante explicación causal, predicción o descripción.” (Shmueli, 2010)
“Una simplificación o aproximación de la realidad.” (Bumharm, Anderson, 2002)
“Un modelo representa, a menudo en una forma considerablemente idealizada, el proceso de generación de datos.” (Wikipedia)
“Reglas matemáticas simples derivadas de datos empíricos que describen la asociación entre un desenlace y algunas variables explicativas” (Dunkler et al, 2014)
Explicar
Predecir
Describir
Teoría sólida es necesaria.
Prueba y compara teorías causales existentes.
En medicina a menudo no hay teoría sólida.
Interés en predicciones precisas de observaciones en nuevos pacientes o personas.
No preocupación acerca de causalidad.
Medicina:
Interés en capturar la estructura de datos (patrones) parsimoniosamente.
¿Qué factores ‘afectan’ al desenlace y cómo?
Un ‘modelo correcto’ = un ‘mecanismo generador de datos verdadero’.
Aristóteles: “Naturaleza opera en el modo más simple posible’.
Newton: “No debemos admitir más causas de las cosas naturales que tales como verdaderas y suficientes para explicar su apariciones.’
Un ‘modelo correcto’ = un ‘mecanismo generador de datos verdadero’.
‘No aceptamos la noción de que hay un simple ’modelo verdadero’ en las ciencias biológicas.’ (Burnham & Anderson, 2002)
“Reconocemos que los modelos verdaderos no existe… Un modelo solamente reflejará patrones subyacentes y, por lo tanto, no deben confundirse con la realidad.” (Steyerberg, 2009)
“Todos los modelos son erróneos, pero algunos son útiles.” (Box)
“Las entidades no deben multiplicarse innecesariamente.”
Cuando dos teorías en competencia hacen exactamenet las mismas predicciones, la teoría más simple es la mejor.
Si tienes dos soluciones igualmente probables, elige la más simple.
La explicación que requiere menos supuestos es la probablemente más correcta.
“Simplicidad es la última sofisticación.” (Leonardo Da Vinci)
Todo debería ser tan simple como sea posible, pero no más simple. (A. Einstein)
Los modelos no son la realidad.
No existe tal cosa como un “modelo correcto”.
No hay un único modelo que finalmente explique la generación de datos.
Modelos pueden ser útiles:
Solamente para predicción.
Para entender asociaciones multidimensionales
Causalidad es un caso expecial:
Es un tipo de asociación que implica contrafactuales.
Compara predicciones que implican contrafactuales (¿Qué hubiera pasado si…?).
Si dos modelos tienen el mismo poder explicativo, preferiremos el más simple.
Modelos complejos puede ser más precisos que modelos más simples, pero son a menudo inútiles.
Agenda
Revisando filosofías de modelado
Linealidad y forma funcional
Selección de variables
En GLM, el supuesto indica que g(E(yi)) es una combinación lineal
de predictores xp.
A menudo se confunde con que yi y cada x deben tener forma de una línea.
En realidad, lo que queremos es que yi y x, teniendo en cuenta las otras x tenga forma de una línea.
El análisis bivariado de yi y cada x es inadecuado para evaluar linealidad.
Sin embargo, algunos residuos sí permiten realizar esta evaluación.
Veamos una simulación en R.
Basada en teoría
Rara vez se dispone de esto en investigación clínica.
Si uno conoce la forma teórica, puede plantear el modelo incluyendo esta forma.
Basada en datos (data-driven)
Usual en investigación clínica. Los datos permiten determinar la forma.
Dos paradigmas:
Ciega al desenlace (outcome).
Orientada por desenlace (outcome)
Predefinir polinomios o splines es una forma de hacer esto.
La alternativa más flexible y robusta (por ende, popular) es usar splines (regresiones por partes).
Hay muchos tipos de spline y aún no está claro cuáles son mejores y por qué.
En Bioestadística, los splines cúbicos restringidos han sido mejor estudiados y su comportamiento es mejor conocido, por lo que son preferidos.
Las simulaciones muestran que pre-definir 3-5 nodos usando el esquema de cuantiles de Harrell permite modelar casi cualquier forma funcional comúnmente encontrada en la práctica clínica.
Harrell sugiera pre-definir los splines entr 3-5 nodos:
Menos nodos cuando el tmaaño de muestra o número de eventos / variable sea bajo.
Caso contrario, más nodos.
Harrell sugiere no simplificar el modelo, pero sí verificar que la forma funcional es razonablemente buena.
En caso sea muy compleja, no simplificar: esto introduce grados de libertad fantasma.
En caso sea muy simple (rara vez ocurre), se puede justificar complejizar un poco, sin embargo esto debe reportarse como una desviación y presentarse ambos análisis.
La idea es protegerse del p-hacking y el sesgo de inferencia post-seleccion de forma.
Aquí se introducen algoritmos de selección.
Entre los más populares en bioestadísticas tenemos a una modificación del algoritmo de stepwise (backward, forward o combinación) que selecciona tanto variables como forma funcional.
El algoritmo de selección basada en polinomios fraccionales es uno de los más reconocidos: mfp.
Agenda
Revisando filosofías de modelado
Linealidad y forma funcional
Selección de variables
Dado que no podemos medir todas las variables existentes, debemos preseleccionar qué variables mediremos o dispondremos.
Este enfoque no es estadístico, se basa en considerados teóricos y metodológicos:
Conocimiento teórico del tema.
Cronología
Costos de colectar mediciones
Disponibilidad oportuna de las variables
Calidad (errores de medición)
Otros: criterios basado en confusores, etc.
Disponibilidad en el conjunto de datos (datos perdidos)
Variabilidad (categorías raras)
Podemos recopilar un conjunto enorme de variables siempre que sea factible y potencialmente útil.
Selección basada en teoría
Modelo completo
Selección basada en Grafo Acíclico dirigido (DAG)
Algoritmos de selección
Filtro univariado
Selección del mejor subconjunto
Selección hacia adelante (forward)
Selección hacia atrás (backward)
Cambio en estimado
Enfoque basados en teoría de información
No realiza ningún procedimiento de selección basado en datos (data-driven).
Seleccionar, para cada variable, un nivel deseado de no-linealidad:
Variables deberían ser seleccionadas por ‘experticia’.
¿En qué filosofías de modelado se usan?
Inferencia causal:
Ensayos clínicos (es la norma según FDA, EMA y Cochrane y otras agencias regulatorias - El protocolo predefine todo y se cumple rigurosamente)
Estudios observacionales: El paradigma de DAG es un caso particular.
Modelado de factores pronóstico.
Todavía muy usado en investigación biomédica.
Selecciona una univel de significancia α (p. ej., 0.20 o 0.157).
Realiza modelos univariados de todas las predictoras de interés.
El modelo multivariable solo debe incluir a las variables cuyo modelo univariado tenga un valor p<α
Algunos combinan con eliminación backward
subsecuente.
Aunque es un enfoque sencillo, es MUY PROBLEMÁTICO!!
El efecto univariado de X1 en Y es a + bc:
Original
Si hay p covariables, se pueden realizar 2p regresiones.
Seleccionar el modelo que tenga el menor AIC.
Modificación
Pre-especifica un pequeño número (4-20) de modelos plausibles.
Selecciona aquellos que tengan el AIC<AICmin+2
Realiza inferencia multimodelo en los modelos selecciondos.
En la práctica
Selecciona un nivel de significancia α1
‘Estima’ un modelo nulo.
Repite:
Variante: stepwise forward
Selecciona α1 y α2.
Repite:
Mientras el término más significativo tenga p<α1, añádelo y re-estima.
Si el término menos significativo tiene p≥α2, remuévelo y re-estima.
Selecciona un nivel de significancia α1
‘Estima’ un modelo nulo.
Repite:
Variante: stepwise backward
Selecciona α1 y α2.
Repite:
Mientras el término menos significativo tenga p≥α1, remuévelo y re-estima.
Si el término más significativo tiene p<α2, añádelo y re-estima.
Aunque a veces coinciden, los resultados de estudios de simulación se inclinan a favor de backward.
Backward retiene más variables que realmente se relacionan con el desenlace.
Aunque, como todo método de selección, puede:
Omitir variables importantes.
Incluir variables no importantes.
Dado que ningún método de selección es perfecto, se opta por el que menos problemas muestra.
El consenso en Bioestadística es usar backward elimination
.
Los DAG son solo modelos causales teóricos, podrían estar equivocados y tenemos incertidumbre sobre ellos.
Propuesto por Dunkler et al, 2014 para lidiar con muchas variables confusoras según DAG.
Modificación del criterio del cambio en estimado al que se le agrega eliminación backward.
La eliminación backward se fija a un α2.
Mantiene variables en el modelo cuyo máximo valor de cambio en estimado estandarizado es mayor que cierto valor τ.
Depende de información disponible y conocimiento deseado.
Conjunto de datos
¿Pequeño o grande?
¿Muchos parámetros a estimar o pocos?
¿La meta es un modelo suficientemente bueno?
No seleccionar o seleccionar solo pocos modelos cuando los datos sean de tamaño pequeño o moderado.
AIC provee el mejor modelo aproximado enrte un conjunto candidatos de modelos.
¿La meta es un modelo ‘verdadero’?
Selección más estricta (Backward / valor-p) solo en muestras grandes.
Incorporar conocimiento experto es como incrementar el tamaño de muestra.
Puede ser vista como una forma informal de procedimiento Bayesiano.
Es similar a seleccionar en un conjunto de datos (teoría) y estimar en otro conjunto de datos (muestra de estudio).
Evita el sesgo de sobreestimación condicionada a selección: ‘testimation bias’.
Conocimiento experto también es útil en preselección de variables, para codificarlas, interacciones, transformaciones / forma funcional, etc.
En nuestro práctica habitual:
Tratemos de obtener la mayor cantidad de información clínica teórica relevante de nuestros colaboradores para determinar el conjunto inciial de variables (pre-selección).
No usen algoritmos de selección en muestras pequeñas: Usar modelo completo pre-definido o modelos alternativos pre-definidos en protocolo.
En descripción a menudo sexo y edad (y, por ahí una que otra variable sociodemográfica) son importantes.
Si hay muchas más variables, predefinelas.
Si el tamaño de muestra es grande, usar backward elimination para encontrar un modelo parsimonioso.
Debería evaluarse la estabilidad de la selección de variables (más allá del alcance de este curso):
La selección de variables se debe basar en modelo teórico causal.
La teoría médica no es tan fuerte, suele tener abundantes vacíos de conocimiento:
Predefina varios DAG alternativos en el protocolo y comparelos como análisis de sensibilidad.
Si hay muchas variables en relación al tamaño de muestra o a los eventos por variale, entonces augmented backward elimination podría ser una opción (aunque recientemente hay evidencia de que tiene problemas también).
Si hay un factor pronóstico de interés, el modelado debe basarse en teoría.
Predefina uno o más modelos completos.
Variables de ajuste deben ser otros factores pronósticos ya reconocidos por la literatura.
Si se busca identificar, exploratoriamente, potenciales factores pronósticos, recomendaciones similares a modelado descriptivo.
Si n es pequeño o razón eventos por variable pequeña: predefina modelos.
Si n es grande: puede usar backward elimination.
Más allá del alcance de este curso
Diversas estrategias pueden ser usadas, todas ellas buscan un balance entre sesgo y varianza.
Otro métodos cobran más relevancia:
Métodos de penalización: lasso, elastic net, ridge
Estrategias de remuestreo para validación interna: bootstrapping, validación cruzada, etc.
Más allá del alcance de este curso.
Combina elementos de desarrollo/validación de modelos predictivos y elementos de inferencia causal.
Si tamaño pequeño, selección por teoría de modelo completo.
Si tamaño grande, depende del objetivo de modelado.
Modelos descriptivos:
Modelos de inferencia causal:
Modelos de predicción clínica:
Factor pronósitco de interés: Modelo completo basado en teoría.
Factores pronósticos a identificar: Similar a modelo descriptivo.
Modelos predictivos: más allá del alcance de este curso.
@psotob91
https://github.com/psotob91
percys1991@gmail.com
R Aplicado a los Proyectos de Investigación - Sesión 12