Sesión 5

Curso: R Aplicado a los Proyectos de Investigación

Percy Soto-Becerra, M.D., M.Sc(c)

InkaStats Data Science Solutions | Medical Branch

2022-10-12

https://github.com/psotob91

Medidas de resumen para variables numéricas

Agenda

Medidas de resumen para variables numéricas
Análisis descriptivo de variables categóricas
Medidas de resumen de variables categóricas con R
Tablas Reproducible
tbl_summary() paso a paso

Análisis descriptivo de variable numérica

Medias de tendencia central
- Media
- Mediana (es también medida de posición)
- Moda (no es usual)

Medidas de posición
- Cuantiles (en general)
- Mediana = percentil 50 (es también medida de tendencia central)
- Percentil 25 (p25)
- Percentil 75 (p75)

Medidas de resumen: Tendencia central

La media artimética de una lista de números, es la suma de estos números dividida por la cantidad de esto y está dada por la siguiente expresión:

Ejemplo

Sean las siguientes edades en años: , su media aritmética es

En resumen, la visualización geométrica de la media, mediana y moda para una distribución unimodal es la siguiente.
- Moda: Valor más frecuente (punta más alta de distribución)
- Mediana: Valor que divide datos en 50% (mitad de la distribución)
- Media: Centro de gravedad (punto en el que los “pesos” de ambos lados se igualan)

Funciones

Funciones de R base:
- mean()
- mean(…, trim = …)
- median()
Funciones extras a R base:
- geometric.mean() de {psych}

Datos para los cálculos

Sean el vector de edades:

edad <- c(9, 12, 10, 8, 7, 6)
edad

[1]  9 12 10  8  7  6

Sea el vector de hemoglobina:

hb <- c(11.2, 10.4, 9.8, NA, 14, 8.1)
hb

[1] 11.2 10.4  9.8   NA 14.0  8.1

Media aritmética

En vector con datos completos:

mean(edad)

[1] 8.666667

En vector con datos incompletos:

mean(hb)

[1] NA

Es necesario agregar na.rm = TRUE

mean(hb, na.rm = TRUE)

[1] 10.7

Media geométrica

Manualemente

exp(log(edad))

[1]  9 12 10  8  7  6

Con librería psych

library(psych)
geometric.mean(edad)

[1] 8.445535

Media truncada

Solo 5% de ambas colas

mean(edad, trim = 0.05)

[1] 8.666667

Mediana

median(hb, na.rm = TRUE)

[1] 10.4

Medidas de resumen: Posición

Son los valores que funcionana como puntos de corte para dividir el rango de datos en intervalos continuos con igual frecuencia.
El es el valor de los datos donde su función de distribución acumulada cruza .
Es decir, es el para una variable si:

Hay una lista bastante grande de cuantiles.
Los más famosos son:
- Mediana
- Terciles
- Cuartiles
- Quintiles
- Deciles
- Percentiles.

Q-cuantil	Nombre del cuantil	Número de grupos iguales	Número de cuantiles
2-cuantil	Mediana	2	1
3-cuantil	Terciles	3	2
4-cuantil	Cuartiles	4	3
5-cuantil	Quintiles	5	4
6-cuantil	Sextiles	6	5
7-cuantil	Septiles	7	6
8-cuantil	Octiles	8	7
10-cuantil	Deciles	10	9
12-cuantil	Dodeciles	12	11
16-cuantil	Hexadeciles	16	15
20-cuantil	Ventiles	20	19
100-cuantil	Percentiles	100	99
1000-cuantil	Permiles o Mililes	1000	999

Funciones

Funciones de R base:
- quantile(…, probs = …)

Datos para los cálculos

Sean el vector de edades:

edad <- c(9, 12, 10, 8, 7, 6)
edad

[1]  9 12 10  8  7  6

Sea el vector de hemoglobina:

hb <- c(11.2, 10.4, 9.8, NA, 14, 8.1)
hb

[1] 11.2 10.4  9.8   NA 14.0  8.1

Cuartiles

Cuartil 1 (25%)

quantile(edad, probs = c(0.25))

 25% 
7.25

Cuartil 3 (75%)

quantile(edad, probs = c(0.75))

 75% 
9.75

Cuartiles 1, 2 y 3

quantile(edad, probs = c(0.25, 0.5, 0.75))

 25%  50%  75% 
7.25 8.50 9.75

Percentiles

Percentil 67

quantile(edad, probs = c(0.67))

 67% 
9.35

Percentiles del 1 al 99

quantile(edad, probs = seq(0, 0.99, 0.01))

   0%    1%    2%    3%    4%    5%    6%    7%    8%    9%   10%   11%   12% 
 6.00  6.05  6.10  6.15  6.20  6.25  6.30  6.35  6.40  6.45  6.50  6.55  6.60 
  13%   14%   15%   16%   17%   18%   19%   20%   21%   22%   23%   24%   25% 
 6.65  6.70  6.75  6.80  6.85  6.90  6.95  7.00  7.05  7.10  7.15  7.20  7.25 
  26%   27%   28%   29%   30%   31%   32%   33%   34%   35%   36%   37%   38% 
 7.30  7.35  7.40  7.45  7.50  7.55  7.60  7.65  7.70  7.75  7.80  7.85  7.90 
  39%   40%   41%   42%   43%   44%   45%   46%   47%   48%   49%   50%   51% 
 7.95  8.00  8.05  8.10  8.15  8.20  8.25  8.30  8.35  8.40  8.45  8.50  8.55 
  52%   53%   54%   55%   56%   57%   58%   59%   60%   61%   62%   63%   64% 
 8.60  8.65  8.70  8.75  8.80  8.85  8.90  8.95  9.00  9.05  9.10  9.15  9.20 
  65%   66%   67%   68%   69%   70%   71%   72%   73%   74%   75%   76%   77% 
 9.25  9.30  9.35  9.40  9.45  9.50  9.55  9.60  9.65  9.70  9.75  9.80  9.85 
  78%   79%   80%   81%   82%   83%   84%   85%   86%   87%   88%   89%   90% 
 9.90  9.95 10.00 10.10 10.20 10.30 10.40 10.50 10.60 10.70 10.80 10.90 11.00 
  91%   92%   93%   94%   95%   96%   97%   98%   99% 
11.10 11.20 11.30 11.40 11.50 11.60 11.70 11.80 11.90

¿Cómo interpretar ….

La media aritmética es una medida que trata de resumir los datos de una variable numérica en un solo valor.
- La idea de la media es que este valor represente o sea el delegado de todos los datos.
- Podemos pensar la media como el valor más probable que tendría cada individuo si no supieramos qué valores realmente tienen: “si no sabes qué valor tiene, apuesta por el promedio”.
Propiedad interesante: Es la medida que más cerca está de todos los datos.
- En promedio, el desvío de la media respecto a los datos es nulo.

En la práctica, solo se reporta como promedio, sin más interpretación (esta es tácita).

“La edad media fue de 34 años (…)”

Ejemplo

Tenemos cuatro notas del curso de Bioestadística: 15, 20, 17 y 12.

El promedio de estas notas es 16.
Cada nota se desvía del promedio en lo siguiente:

notas	promedio_notas	desvio_notas
15	16	-1
20	16	4
17	16	1
12	16	-4

Análisis descriptivo de variables categóricas

Agenda

Medidas de resumen para variables numéricas
Análisis descriptivo de variables categóricas
Medidas de resumen de variables categóricas con R
Tablas Reproducible
tbl_summary() paso a paso

Frecuencias Relativas en Bioestadística y Epi Clínica

Proporción de una población específica que está afectada por un evento de salud de interés (típicamente una enfermedad o factor de riesgo, pero también puede ser factor benéfico) en un tiempo específico.

El tiempo específico puede ser un punto, un periodo o toda una vida.
Puede calcularse en una muestra cualquiera, pero a menudo interesan prevalencias de poblaciones relevantes.
- Hablaremos de esto mejor en la sección de estimación.

Tipos de prevalencia: Dependen de qué es
- Prevalencia puntual: es solo un momento.
- Prevalencia de intervalo: es un intervalo definido de tiempo.
- Prevalencia de vida: es todo el intervalo de la vida del sujeto (desde que ocurrió alguna vez el evento).

Prevalencia versus Incidencia Acumulada

	Prevalencia	Incidencia Acumulada
Numerador	Eventos existentes en t	Eventos nuevos durante el periodo t
Denominador	Todos los individuos (con y sin eventos) en t	Individuos sin evento al inicio del periodo t
¿Probabilidad de qué...?	Probabilidad de tener el evento	Probabilidad de desarrolalr evento nuevo
Notas	Solo requiere un punto en el tiempo. A menudo se busca poblaciones relevantes y usa muestras probabilísticas.	Requiere al menos dos puntos de tiempo. Puede estimarse en poblaciones relevantes. A menudo se usan muestras no probabilísticas en las que es factible el seguimiento (p. ej., pacientes)

Probabilidad	Odds	Diferencia
0.000	0.0000000	0.0000000
0.010	0.0101010	0.0001010
0.020	0.0204082	0.0004082
0.030	0.0309278	0.0009278
0.040	0.0416667	0.0016667
0.050	0.0526316	0.0026316
0.100	0.1111111	0.0111111
0.200	0.2500000	0.0500000
0.300	0.4285714	0.1285714
0.400	0.6666667	0.2666667
0.500	1.0000000	0.5000000
0.800	4.0000000	3.2000000
0.900	9.0000000	8.1000000
0.990	99.0000000	98.0100000
0.999	999.0000000	998.0010000

id	time	treat	treated	age	race	married2	procedence	weight	height	e2
1	Baseline	Placebo	0	33	Mestiza	Without couple	Callao	59.0	1.4	87.30
1	3 months	Placebo	0	32	Mestiza	Without couple	Callao	59.9	1.3	210.05
2	Baseline	Dosis 2	1	27	Mestiza	Without couple	Santa Anita	62.0	1.5	169.01
2	3 months	Dosis 2	1	27	Mestiza	Without couple	Santa Anita	62.1	1.6	99.91
3	Baseline	Dosis 1	1	25	Mestiza	Without couple	Callao	62.0	1.6	78.76
3	3 months	Dosis 1	1	25	Mestiza	Without couple	Callao	60.0	1.6	155.04

Variable	Label
id	ID participant
time	Time's measurement
treat	Treatment's group
treated	Treated
age	Age, years
race	Race
married2	Marital status, recat
procedence	Distrit of procedence
weight	Weight, kg
height	Height, m
e2	Estradiol

1 / 52

Sesión 5 Curso: R Aplicado a los Proyectos de Investigación Percy Soto-Becerra, M.D., M.Sc(c) InkaStats Data Science Solutions | Medical Branch 2022-10-12 https://github.com/psotob91