Problem Set 1

Curso R Aplicado a los Proyectos de Investigación

Introducción

Para este problem set 1, procesaremos los datos del artículo titulado “Comorbid Depression and Heart Failure: A Community Cohort Study” y publicado en la revista Plos One (doi: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0158570).

Hemos modificado ligeramente los datos originales para agregarles algunos problemas que permitan enfrentar problemas de calidad de datos.

En este problem set 1 nos centraremos solo en manejo de datos y análisis incicial de datos incluyendo gráficos. Todos los ejercicios requieren que usted haga algún tipo de comentario personal, ya sea describir los resultados observados o comentar el proceso / razonamiento seguido.

Advertencia

Es importante que se respondan con comentarios, no solo código! La pregunta que no tiene comentarios solo valdrá 25% del puntaje total.

Entregable

Enviar este trabajo a más tardar el miércoles 19 de octubre a las 23:59 horas.

Use la plantilla denominada: Problem_Set1_ApellidoPaterno_ApellidoMaterno_Nombre.qmd ubicada en la carpeta compartida Enlace aquí.

Deberá enviar al siguiente correo electrónico percys1991@gmail.com una carpeta comprimida o compartida por Drive / Onedrive /Dropbox con los siguientes archivos:

Importante

Problem_Set1_ApellidoPaterno_ApellidoMaterno_Nombre.Rproj (configure el proyecto como aprendimos al inicio)
Problem_Set1_ApellidoPaterno_ApellidoMaterno_Nombre.qmd
Problem_Set1_ApellidoPaterno_ApellidoMaterno_Nombre.html (resultado de renderizar)

La carpeta comprimida o compartida por nube (Drive/Onedrive/Dropbox) deberá llamarse según las especificaciones siguientes:

Importante

Problem_Set1_ApellidoPaterno_Nombre.

Ejemplo:

Problem_Set1_SotoBecerra_Percy

Advertencia

Se descontará 1 punto por no seguir las instrucciones de nombrado de carpeta.
Se descontará 3 puntos si la carpeta no tiene el archivo .Rproj.
Se descontará 2 puntos si el código en el archivo .qmd no reproduce exactamente lo mostrado en el .html.

Ejercicios

Ejercicio 1: Cargue los paquetes que usará. Comentar con # al lado de cada paquete un resumen breve de para qué lo usarán. Tip: Use library()

Nota: Todos los paquetes que usará deberán estar en este chunk, no en otro chunk posterior

Ejercicio 2: Importe los datos denominados `"pone.0158570.s002_modified.xlsx"` que se encuentran en la carpeta compartida Enlace aquí. Llame a los datos importados: “datos_crudos”.

Ejercicio 3: Haga un inspección global de los datos

Dé un vistazo a los datos. Describa brevemente sus resultados.

Obtenga un resumen global superficial de los datos. Describa brevemente sus resultados.

Obtenga una descripción un poco más detallada variable por variable de los datos. Describa brevementesus resultados.

Ejercicio 4: Procese los datos según el siguiente diccionario:

En un solo pipeline, haga lo siguiente:
- 1. Renombre variables.
- 1. Recodifique las etiquetas de las variables categóricas.
- 1. Cree las nuevas variables.
- 1. Etiquete a las variables.

# Colocar aquí el pipeline (borrar este comentario)

Ejercicio 5: Identifique duplicados

Identifique duplicados de fila. Describa brevementesus resultados.

Identifique duplicados de id. Describa brevemente sus resultados.

Solo si hubo duplicados de fila, elimine los duplicados de fila, quedándose solo con una versión de cada observación. Comente el proceso/razonamiento.

Tip: Puedes usar distinct()

Solo si hubo duplicados de id, elimine el duplicado de fila que menos información completa tenga. Comente el proceso/razonamiento.

Tip: Puedes usar slice() o filter()

Ejercicio 6: Identifique datos perdidos

Presente el número de datos perdidos y tasa de completitud variable por variable en una sola salida. Describa los resultados relacionados a datos perdidos.

Muestre gráficos de datos perdidos y como se agrupan entre variables.Describa los resultados relacionados a datos perdidos.

Ejercicio 7: Haga las siguientes consultas (“queries”) con los datos limpios (renombrados, etiquetados y sin duplicados)

Seleccione las variables id, age y phq-9. Muestre los participantes que tienen edades entre 50 y 55 años

Seleccione las variables id, ej_Frac, sod, bun y et_hf. Luego, muestre a los participantes que tiene etiología isquémica.

¿Quiénes fueron los pacientes mujeres que sobrevivieron y tuvieron un phq-9 > 10?

¿Cuáles fueron los valores de tiempo a muerte en los pacientes varones que murieron, que tuvieron etiología isquémica y un puntaj de phq-9 > 10?

Ejercicio 8: Haga los siguientes gráficos:

Mediante un gráfico de cajas, compare los valores de ejection fraction (%) entre los pacientes con etiología isquémica versus sin etiología isquémica. Muestre el resultado más simple posible.

Mediante un gráfico de cajas, compare los valores de ejection fraction (%) entre los pacientes con etiología isquémica versus sin etiología isquémica. Muestre el resultado más elaborado posible: Elija un tema de su agrado, agregue etiquetas (título general, título de eje X, título de eje Y, etiquetas de leyenda si aplica), modifique la escala de colores, etc.

Use un gráfico de cajas y puntos dispersos (combinelos), para mostrar el nivel de bun según sexo. Muestre el resultado más simple posible.

Tip: use geom_jitter() para los puntos dispersos. Más info aquí: https://ggplot2.tidyverse.org/reference/geom_jitter.html

Use un gráfico de cajas y puntos (combinelos), para mostrar el nivel de bun según sexo. Muestre el resultado más elaborado posible: Elija un tema de su agrado, agregue etiquetas (título general, título de eje X, título de eje Y, etiquetas de leyenda si aplica), modifique la escala de colores, etc.

Tip: use geom_jitter() para los puntos dispersos. Más info aquí: https://ggplot2.tidyverse.org/reference/geom_jitter.html

Ejercicio 9: Exporte los datos a los siguientes formatos. Llame a los datos exportados: “datos_limpios”

Formato de R: “.rds”

Formato de Excel: “.xlsx”

Formato de archivo plano: “.csv”

Formato de Stata: “.dta”

Introducción

Entregable

Ejercicios

Ejercicio 1: Cargue los paquetes que usará. Comentar con # al lado de cada paquete un resumen breve de para qué lo usarán. Tip: Use library()

Ejercicio 2: Importe los datos denominados "pone.0158570.s002_modified.xlsx" que se encuentran en la carpeta compartida Enlace aquí. Llame a los datos importados: “datos_crudos”.

Ejercicio 3: Haga un inspección global de los datos

Ejercicio 4: Procese los datos según el siguiente diccionario:

Ejercicio 5: Identifique duplicados

Ejercicio 6: Identifique datos perdidos

Ejercicio 7: Haga las siguientes consultas (“queries”) con los datos limpios (renombrados, etiquetados y sin duplicados)

Ejercicio 8: Haga los siguientes gráficos:

Ejercicio 9: Exporte los datos a los siguientes formatos. Llame a los datos exportados: “datos_limpios”

Ejercicio 10: Renderice el archivo .qmd final. Comparta la carpeta entera, la cual debe contener el .qmd, así como el .html.

Ejercicio 2: Importe los datos denominados `"pone.0158570.s002_modified.xlsx"` que se encuentran en la carpeta compartida Enlace aquí. Llame a los datos importados: “datos_crudos”.