Sesión 3

Curso: R Aplicado a los Proyectos de Investigación

Percy Soto-Becerra, M.D., M.Sc(c)

InkaStats Data Science Solutions | Medical Branch

2022-10-05

https://github.com/psotob91

Importación de datos

Agenda

Importación de datos
Más verbos de dplyr para manejo de datos
Otros verbos útiles para manejo de datos
Uso de helpers
Análisis Exploratorio de Datos versus Análisis Inicial de Datos
Pasos para un buen AID / AED

Importando datos con {rio}

{rio} debe instalarse de una manera especial
Pasos:
1. Primero se instala como siempre, usando install.packages
2. Adicionalmente, se sugiere correr install_formats. inmediatamente después de la primera instalación.
3. Se carga el paquete usando library.

install.packages("rio")
rio::install_formats()
library(rio)

Más detalles sobre el paquete y sus funciones pueden encontrarse en la página web del paquete: https://thomasleeper.com/rio/index.html

Se usa import() para importar nuevos datos y <- para asignar los datos a un nuevo data.frame

nuevos_datos <- import(file = "datos_para_importar.fmt")

Podemos omitir los nombres de los argumentos cuando utilizamos funciones.

nuevos_datos <- import(file = "datos_para_importar.fmt")

nuevos_datos <- import("datos_para_importar.fmt")

Para archivos de tipo *.csv o *.txt
No importa el tipo de separación de las columnas: comas, puntos y comas, otros caracteres.
- import() determinará rápidamente el tipo de separación y hará el trabajo.

datos_csv <- import("maca_meno_perclin.csv")
head(datos_csv)

  id_jaula id_raton tratamiento protocolo peso_inicial peso_final peso_utero
1        1        1     control       ovx        26.00      33.28      0.089
2        1        2     control       ovx        24.50      30.50      0.063
3        1        3     control       ovx        20.40      29.93      0.078
4        2        4     control   hemiovx        26.59      32.19      0.134
5        2        5     control       ovx        23.50      30.37      0.052
6        2        6        maca       ovx        25.00      30.43      0.055
    chol glucose    tag prot  urea album
1  85.99  109.97 182.42 5.37 66.27 66.82
2  94.46   81.62 211.87 4.68 76.73 55.36
3  99.67  118.37 195.16   NA 52.32    NA
4  83.38   71.91  98.46   NA 50.71    NA
5  82.08   95.53 108.13 5.33 26.02    NA
6 107.49  160.36 141.10   NA    NA 72.14

Útil para archivos con las extensiones *.xls o *.xlsx

datos_xlsx <- import("maca_meno_perclin.xlsx")
head(datos_xlsx)

  id_jaula id_raton tratamiento protocolo peso_inicial peso_final peso_utero
1        1        1     control       ovx        26.00      33.28      0.089
2        1        2     control       ovx        24.50      30.50      0.063
3        1        3     control       ovx        20.40      29.93      0.078
4        2        4     control   hemiovx        26.59      32.19      0.134
5        2        5     control       ovx        23.50      30.37      0.052
6        2        6        maca       ovx        25.00      30.43      0.055
    chol glucose    tag prot  urea album
1  85.99  109.97 182.42 5.37 66.27 66.82
2  94.46   81.62 211.87 4.68 76.73 55.36
3  99.67  118.37 195.16   NA 52.32    NA
4  83.38   71.91  98.46   NA 50.71    NA
5  82.08   95.53 108.13 5.33 26.02    NA
6 107.49  160.36 141.10   NA    NA 72.14

Permite importar datos de formato Stata. Sin embargo, en Stata, los valores de las variables suelen estar etiquetados, por lo que es importante también recuperar esta información.
Si importamos una tabla de datos en formato Stata, vemos que algunas variables categóricas como married o married2 se importan como números. ¿Qué significa 1 o 0?

datos_dta <- import("maca_meno_fase1.dta")
head(datos_dta)

  id time treat age    race married married2  procedence weight height     e2
1  1    0     1  33 Mestiza       1        0      Callao   59.0    1.4  87.30
2  1    1     1  32 Mestiza       1        0      Callao   59.9    1.3 210.05
3  2    0     3  27 Mestiza       1        0 Santa Anita   62.0    1.5 169.01
4  2    1     3  27 Mestiza       1        0 Santa Anita   62.1    1.6  99.91
5  3    0     2  25 Mestiza       1        0      Callao   62.0    1.6  78.76
6  3    1     2  25 Mestiza       1        0      Callao   60.0    1.6 155.04
     lh  fsh  prog
1  3.28 1.95 14.20
2 26.85 8.83 12.95
3  6.34 4.32  0.50
4  5.77 1.70  9.61
5 11.86 2.81 10.46
6 10.14 4.51  5.04

Lo mismo que ocurre con Stata, sucede con SPSS: los metadatos se pierden.

datos_sav <- import("RECH0.sav")
head(datos_sav)

   ID1            HHID HV000 HV001 HV002 HV002A HV003 HV004 HV007 HV008 HV009
1 2021       000100301   PE6     1     3      1     2     1  2021  1454     6
2 2021       000100401   PE6     1     4      1     1     1  2021  1454     5
3 2021       000100801   PE6     1     8      1     2     1  2021  1454     6
4 2021       000101001   PE6     1    10      1     1     1  2021  1454     5
5 2021       000102901   PE6     1    29      1     0     1  2021  1454     0
6 2021       000104201   PE6     1    42      1     2     1  2021  1454     3
  HV010 HV011 HV012 HV013 HV014 HV015 HV017 HV020 HV021 HV023 HV024 HV025 HV026
1     2     0     6     5     1     1     1     0     1     1     1     1     1
2     1     0     5     5     1     1     1     0     1     1     1     1     1
3     2     0     6     6     2     1     1     0     1     1     1     1     1
4     1     0     5     5     0     1     1     0     1     1     1     1     1
5     0     0     0     0     0     3     4     0     1     1     1     1     1
6     1     0     3     3     1     1     1     0     1     1     1     1     1
  HV027 HV028 HV030 HV031 HV032 HV033 HV035 HV040 HV041 HV042 HV043 HV044
1     0    NA     0    NA     0    NA     1  2338     2     1     0     1
2     0    NA     0    NA     0    NA     1  2338     1     1     0     1
3     0    NA     0    NA     0    NA     1  2338     2     1     0     1
4     0    NA     0    NA     0    NA     0  2338     1     1     0     1
5     0    NA     0    NA     0    NA     0  2338     0     1     0     1
6     0    NA     0    NA     0    NA     1  2338     1     1     0     1
  UBIGEO HV022 CODCCPP     NOMCCPP NCONGLOME  HV005 longitudx  latitudy
1 010101     3    0001 CHACHAPOYAS   0706402 103273 -77.87403 -6.221249
2 010101     3    0001 CHACHAPOYAS   0706402 103273 -77.87403 -6.221249
3 010101     3    0001 CHACHAPOYAS   0706402 103273 -77.87403 -6.221249
4 010101     3    0001 CHACHAPOYAS   0706402 532968 -77.87403 -6.221249
5 010101     3    0001 CHACHAPOYAS   0706402      0 -77.87403 -6.221249
6 010101     3    0001 CHACHAPOYAS   0706402 103273 -77.87403 -6.221249

Formato	Extensión típica
Comma-separated data	.csv
Pipe-separated data	.psv
Tab-separated data	.tsv
CSVY (CSV + YAML metadata header)	.csvy
SAS	.sas7bdat
SPSS	.sav
SPSS (compressed)	.zsav
Stata	.dta
SAS XPORT	.xpt
SPSS Portable	.por
Excel	.xls
Excel	.xlsx
R syntax	.R
Saved R objects	.RData, .rda
Serialized R objects	.rds
Epiinfo	.rec

Más verbos de dplyr para manejo de datos

Agenda

Importación de datos
Más verbos de dplyr para manejo de datos
Otros verbos útiles para manejo de datos
Uso de helpers
Análisis Exploratorio de Datos versus Análisis Inicial de Datos
Pasos para un buen AID / AED

Argumento	Descripción
.data	Data frame o extensión de data frame (por ejemplo, tibble).
...	Columnas existente para modificar o columnas nuevas para crear.

mutate() en acción

Si queremos crear la variable índice de masa corporal:

datos_fase1 %>% 
  select(id, weight, height) %>% # Nos quedamos con peso y talla 
  mutate(imc = weight / height ^ 2) # Creamos IMC en base a peso y talla

# A tibble: 106 × 4
      id weight height   imc
   <dbl>  <dbl>  <dbl> <dbl>
 1     1   59      1.4  30.1
 2     1   59.9    1.3  35.4
 3     2   62      1.5  27.6
 4     2   62.1    1.6  24.3
 5     3   62      1.6  24.2
 6     3   60      1.6  23.4
 7     4   60.9    1.5  27.1
 8     4   61.4    1.5  27.3
 9     5   64      1.5  28.4
10     5   58.1    1.6  22.7
# … with 96 more rows

También podemos crear más de una variable nueva.
Incluso, podemos reutilizar la variable recién creada para crear otra nueva dentro del mismo argumento de mutate()

datos_fase1 %>% 
  select(id, weight, height) %>% 
  mutate(
    imc = weight / height ^ 2, 
    imc_escalado = imc / 10
    )

# A tibble: 106 × 5
      id weight height   imc imc_escalado
   <dbl>  <dbl>  <dbl> <dbl>        <dbl>
 1     1   59      1.4  30.1         3.01
 2     1   59.9    1.3  35.4         3.54
 3     2   62      1.5  27.6         2.76
 4     2   62.1    1.6  24.3         2.43
 5     3   62      1.6  24.2         2.42
 6     3   60      1.6  23.4         2.34
 7     4   60.9    1.5  27.1         2.71
 8     4   61.4    1.5  27.3         2.73
 9     5   64      1.5  28.4         2.84
10     5   58.1    1.6  22.7         2.27
# … with 96 more rows

Tener cuidado si se quiere reutilizar la variable original, en ese caso es mejor crear columna nueva.
Queremos que la edad sea reportada en meses:

Crear columna nueva:

datos_fase1 %>% 
  select(id, age) %>% 
  mutate(age2 = age * 12) # Columna nueva llamada age2

# A tibble: 106 × 3
      id   age  age2
   <dbl> <dbl> <dbl>
 1     1    33   396
 2     1    32   384
 3     2    27   324
 4     2    27   324
 5     3    25   300
 6     3    25   300
 7     4    37   444
 8     4    38   456
 9     5    31   372
10     5    32   384
# … with 96 more rows

Remplazar la edad:

datos_fase1 %>% 
  select(id, age) %>% 
  mutate(age = age * 12) # Notar que se remplazó age

# A tibble: 106 × 2
      id   age
   <dbl> <dbl>
 1     1   396
 2     1   384
 3     2   324
 4     2   324
 5     3   300
 6     3   300
 7     4   444
 8     4   456
 9     5   372
10     5   384
# … with 96 more rows

Argumento	Descripción
.data	Data frame o extensión de data frame (por ejemplo, tibble).
...	nuevo_nombre = viejo_nombre

Argumento	Descripción
.data	Data frame o extensión de data frame (por ejemplo, tibble).
...	viejo_nombre = nuevo_nombre

AID	AED
1. AID es el paso inicial del proceso de confirmación de hipótesis pre-definidas.	1. AED busca generar hipótesis nuevas.
2. En investigación clínico-epidemiológica, a menudo queremos y deberíamos hacer AID.	2. Rara vez queremos AED (p. ej., enfermedades nuevas, fenómenos muy poco conocidos)
3. Proceso clave para garantizar responder adecuadamente objetivos pre-planeados de estudio.	3. Proceso con alto riesgo de contaminar respuesta a objetivos pre-planeados de estudio.

Data summary
Name	datos
Number of rows	26
Number of columns	13
_______________________
Column type frequency:
character	2
numeric	11
________________________
Group variables	None

skim_variable	n_missing	complete_rate	min	max	empty	n_unique	whitespace
tratamiento	0	1	4	25	0	5	0
protocolo	0	1	3	7	0	3	0

skim_variable	n_missing	complete_rate	mean	sd	p0	p25	p50	p75	p100	hist
id_jaula	0	1.00	4.92	3.36	1.00	2.00	4.00	8.75	10.00	▇▃▃▂▆
id_raton	0	1.00	11.19	6.85	1.00	5.25	10.50	16.75	23.00	▇▆▆▅▆
peso_inicial	0	1.00	23.72	1.93	18.90	22.69	23.50	24.95	27.90	▂▃▇▆▂
peso_final	0	1.00	28.77	2.30	23.80	26.97	28.77	30.34	33.28	▂▇▇▆▃
peso_utero	0	1.00	0.09	0.10	0.01	0.06	0.07	0.09	0.54	▇▁▁▁▁
chol	0	1.00	82.25	12.13	59.28	74.91	82.73	85.99	107.49	▃▃▇▂▂
glucose	0	1.00	125.35	37.52	60.10	97.30	116.53	148.82	195.53	▃▇▆▃▅
tag	0	1.00	150.08	51.70	90.99	108.13	137.80	184.39	282.64	▇▂▅▁▁
prot	12	0.54	5.24	0.45	4.68	4.93	5.24	5.36	6.17	▇▃▇▁▃
urea	10	0.62	55.60	31.21	26.02	38.16	48.16	66.27	157.89	▇▃▁▁▁
album	13	0.50	66.21	7.71	52.77	64.64	66.82	68.59	83.73	▂▂▇▁▁

1 / 38

Sesión 3 Curso: R Aplicado a los Proyectos de Investigación Percy Soto-Becerra, M.D., M.Sc(c) InkaStats Data Science Solutions | Medical Branch 2022-10-05 https://github.com/psotob91

Sesión 3
Importación de datos
Importar datos de fuentes externas a R
Importando datos con {rio}
¿Cómo importar metadatos de Stata o SPSS?
Exportando datos con {rio}
Nuestro turno
Hagamos una pausa
Más verbos de dplyr para manejo de datos
Creación de nuevas columnas con mutate()
mutate() en acción
Otros verbos útiles para manejo de datos
Renombrar variables con rename()
rename() en acción
Recodificar valores de variables con recode()
recode() en acción
Nuestro turno
Uso de helpers
Selectores tidy
Nuestro turno
Análisis Exploratorio de Datos versus Análisis Inicial de Datos
El análisis inicial...
Análisis Exploratorio de Datos
Análisis Inicial de Datos vs. Análisis Exploratorio de Datos
Mala práctica: ¡Hacer AED en vez de AID!
El problema de los análisis ocultos
Recomendaciones de STRATOS para hacer un buen AID
AID es un proceso iterativo
AID como parte del plan de investigación
AID como parte del plan de investigación
10 recomendaciones de STRATOS para un buen AID
10 recomendaciones de STRATOS para un buen AID
Regla 4: El contexto importa, conoce tus datos
Pasos para un buen AID / AED
Paso 1: Resumen global...
Nuestro turno
¡Gracias! ¿Preguntas?...
@psotob91 https://github.com/psotob91...