R y RStudio recursos en línea
¿Por qué R y RStudio?
El software R es un lenguaje de programación de acceso libre e ideal como entorno para el análisis estadístico y gráfico, reporte, presentación de datos, etc., lo que lo convierte en una de las opciones líderes a nivel mundial para la Ciencia de Datos en Salud. En la última década ha ocurrido una revolución en la computación estadística. Lenguajes de código abierto como R y Python han superado a programas propietarios más antiguos y costosos como SAS, Stata y SPSS. Asimismo, la literatura (libros, blogs, foros de ayuda, etc.) acerca de R es extensa en comparación con la de otros programas, por lo que resulta más fácil encontrar soluciones a problemas (relativamente complejos) con los que los usuarios a menudo se enfrentan.
Asimismo, R
tiene varios dialectos, todos los cuales tienen fortalezas y debilidades. Ciertamente, ser fluido en R
implica manejar más de un dialecto si no todos. Sin embargo, el dialecto de tiyverse
es probablemente uno de los más consistentes, completos y en constante desarrollo y mantención, por lo que es uno de los más rentables de aprender cuando se trata de R
. Este curso abordará principalmente el estilo R tidy
, aunque también hará uso del dialecto de R base
y otros dialectos cuando sea propicio.
Por otro lado, R Studio es una interfaz que permite una mejor comunicación eentre el usuario y R
. Piense en R
como el motor de un automóvil y en R Studio
como el tablero de mando del automóvil: R
hace el trabajo duro al calcular y aplicar los métodos estadísticos, mientras que R Studio
es la interfaz amigable que permite ejecutar código de R
.
Aviso de servicio público
Si ya has usado R previamente, este curso será muy fácil para ti. Si no lo has usado nunca, aprender R puede que sea un poco menos fácil, pero prometo que solo al inicio. Como todo nuevo idioma comenzarás a ganar fluidez conforme hables más ‘R-ñol’: la práctica hace al maestro. Felizmenete, el dialecto tidy
es muy fluido y fácil de entender y es por eso que lo hemos elegido.
Como lo resalta Andrew Heiss en la web de su curso Program Evaluation, Hadley Wickham, científico de datos creador de tidyverse y fundador de RStudio una vez dijo:
Cuando comienzas a programar, es fácil frustrarte mucho y pensar: “Oh, soy yo, soy realmente estúpido” o “No estoy hecho para programar”. Pero, ese no es el caso en absoluto. Todo el mundo se frustra. Todavía me frustro ocasionalmente cuando escribo código R. Es solo una parte natural de la programación. Entonces, sucede a todos y se vuelve cada vez menos frecuente con el tiempo. No te culpes. Solo tómate un descanso, haz algo divertido y luego regresa e inténtalo de nuevo más tarde.
Incluso analistas de datos con experiencia sufren cuando encuentran errores que se resiten a resolverse. Andrew Heiss cita un popular meme de un tweet para resumir este ubicuo problema:
Si te toma demasiado tiempo pensar infructuosamente, mejor tómate un descanso, conversa con tus compañeros de clase, consúltame por correo, programa una reunión virtual, entre otras opciones.
Materiales del curso
La mayoría de los materiales en este curso son libres.
Libros
Hay algunos libros que usaremos constantemente para este curso. Todos están disponibles digitalmente y son libres. La lista a continuación:
Libros de bioestadística o ciencia de datos en salud
Batra, Neale, et al. The Epidemiologist R Handbook. 2021. https://epirhandbook.com/en/index.html (Libre como versión HTML!)
Brad Cannell, Melvin Livingston. R for Epidemiology.https://www.r4epi.com/(Libre como versión HTML!)
Ewen Harrison and Riinu Pius. R for Health Data Science. 2021. https://argoshare.is.ed.ac.uk/healthyr_book/(Libre como versión HTML!, pero hay una versión impresa por $63.96 en Routledge)
Peter D.R. Higgins. Reproducible Medical Research with R. 2022.https://bookdown.org/pdr_higgins/rmrwr/(Libre como versión HTML!)
Kamarul Imran, Wan Nor Arifin, Tengku Muhammad Hanis Tengku Mukhtar. Data Analysis in Medicine and Health using R. 2022. https://bookdown.org/drki_musa/dataanalysis/ (Libre como versión HTML!)
James Brophy. (Mostly Clinical) Epidemiology with R. 2021. https://bookdown.org/jbrophy115/bookdown-clinepi/(Libre como versión HTML!)
Libros de ciencia de datos o estadística general
Chester Ismay and Albert Y. Kim. Statistical Inference via Data Science: A ModernDive into R and the Tidyverse! 2022 https://moderndive.com/index.html(Libre como versión HTML!, pero hay una versión impresa por $57.25 en Amazon)
Hadley Wickham & Garrett Grolemund. R for Data Sciencehttps://r4ds.had.co.nz/index.html(Libre como versión HTML!, pero hay una versión impresa por $18.99 a 46.74 en Amazon)
Artículos, capítulos de libro, y otros materiales
Ocasionalmente también habrá artículos y videos adicionales para leer y mirar. Cuando esto suceda, los enlaces a estos otros recursos se incluirán en la página de lectura de esa semana.
Ayuda en línea
La Ciencia de Datos en Salud, la Bioestadística y la Programación pueden no ser tan sencillas. Las computadoras no piensan y errores sutiles pueden causar horas de estancamiento incluso si ya cuentan con mucha experiencia.
Por tal motivo, hemos habilitado dos canales para que puedan hacer sus consultas las 24 horas del día, los 7 días de la semana:
- Grupo de Whatssap: Pueden hacer sus preguntas por este canal todo el tiempo que gusten. Este canal permanecerá abierto siempre, incluso muchos años después de terminado el curso, por lo que pueden volver a este cada vez que tengan consultas en el futuro.
Supervisaré whatssap regularmente y responderé rápidamente. Sin embargo, puede que por mi ajetreada vida laboral y familiar, no pueda responder inmediatamente. Prometo que trataré de hacerlo dentro de las primeras 24 horas. Haga preguntas sobre las clases o problem sets. Es probable que tenga preguntas similares a las de sus compañeros y que también pueda responder las preguntas de otras personas.
Ambos canales están reservados solo para alumnos del curso.
Es posible que nosotros no podamos resolver todas sus dudas. Las Ciencias de Datos pueden llegar a ser realmente complejas, por lo que un poco de ayuda externa más experta podría ser necesaria.
Felizmente, existe una inmensa comunidad en línea de usuarios de R, quienes continuamente intercambian soluciones. Es muy probable que tu problema ya haya sido resuelto antes y que su solución se encuentre en la web, solo tienes que saber dónde buscarla.
Dos de los más importantes sitios donde puedes buscar soluciones a tus problemas o consultar directamente son StackOverflow (un foro de preguntas y respuestas con cientos de miles de respuestas a todo tipo de preguntas sobre programación) y RStudio Community (un foro diseñado específicamente para personas que usan RStudio y tidyverse).
Si usa Twitter, publique preguntas y contenido relacionados con R
usnado #rstats. La comunidad allí es excepcionalmente generosa y servicial.
Buscar soluciones en Google
también es una buena opción, pero es un poco truculento si no sabes cómo hacerlo. Es mejor buscar en inglés, aunque también abunda información en español. Unos ejemplos de cómo buscar en Google podrían ser:
propensity score matching r
o, si Google
no reconoce a la letra r
como el programa estadístico (¡pasa a veces!), puedes usar:
propensity score matching rstats
Por último, si sus consultas son especializadas en Ciencia de datos en Salud o Bioestadística, es probable que los foros mencionados no sean de ayuda. El foro Dathamethods es una buena plataforma para hacer este tipo de consultas. Esta plataforma es liderada por bioestadísticos y científicos de datos com amplia trayectoria en investigación clínico-epidemiológica. Frank Harrell
, Bioestadístico asesor de la FDA, reconocido ‘trialista’ y experto en predicción clínica, es quien lidera esta plataforma y ha juntado una buena comunidad de bioestadísticos y científicos de datos siniors. Sugerimos se creen una cuenta y usen esta plataforma más a menudo.
Si usas twitter, puedes consultar utilizando el hastagg #epitwitter, #MedStats. También puede ser de gran ayuda uniter al grupo de twitter Medical statistics: ‘A non comprhensive list of medical statisticians and methodologist’ creada por (MaartenvSmeden?).