Ciencia de datos: Definición, flujo de trabajo, lo básico y más.

Tiempo de lectura: 11 minutos

El objetivo principal de este post es compartir lo que, en mi opinión, es básico saber sobre la ciencia de datos (o data science, en inglés). Sobre todo si estás pensando en convertirte y/o comenzando el camino del data scientist.

Para lograr lo anterior, comenzaremos con la definición más simple y concreta a la que he llegado sobre data science, para después revisar algunos ejemplos que complementan dicha definición.

Luego, comparto el flujo de trabajo (“workflow”) que he usado en la mayoría de proyectos de ciencia de datos en los que he participado y describiré las etapas que lo componen. Así, tendrás una buena referencia para abordar este tipo de desafíos.

Finalmente, incluyo lo (realmente) básico en cuanto a habilidades y conocimientos para comenzar como científico de datos.

Espero que al leer este artículo encuentres una buena introducción para seguir aprendiendo e involucrándote en el maravilloso mundo de los datos.

¿Por qué escribo este post?

Este post es parte de una trilogía de artículos, en donde estaré escribiendo sobre algunos de los principales conceptos asociados al mundo de los datos: data science (este post), machine learning e inteligencia artificial.

Además, estos 3 artículos son la continuación del post “¿Qué son el Data Science, Big Data, Inteligencia Artificial, Machine Learning y Deep Learning (y en qué se diferencian)?” en donde comparto definiciones simples pero resumidas sobre estos conceptos.

Y todo esto como parte de mi proceso de actualización como científico de datos (¡la profesión más sexy del siglo XXI!).

¿Quién debería leer este post?

Este post debería interesarte si eres una persona que quiere comenzar a adentrarse en el mundo de la ciencia de datos, ya seas un/a estudiante de pregrado pensando en ser un/a data scientist, o quieras cambiar de trabajo a un rol relacionado. O también si eres un/a líder en una organización en la cual se esté comenzando a hablar de estos temas.

Mis descargos de responsabilidad 🙂

Antes de comenzar, te dejo algunos comentarios para que le saques el mayor provecho a lo que viene:

  • Seguramente habrá temas o complejidades que pasaré por alto para mantener la simpleza del post.
  • Es muy probable que conozcas casos (proyectos, roles y cargos, empresas y sus estructuras, etc.) que no coincidan de forma exacta con las descripciones que incluyo, ya que este post se basa en mi experiencia particular y, además, a propósito he querido incluir sólo los casos principales que he conocido.
  • Por último, me gustaría que este post (y el blog en general) sea un punto de partida para que sigamos conversando sobre estos temas, así que si quieres enviarme comentarios, observaciones, felicitaciones, o lo que te nazca, sólo haz clic aquí 🙂

Y ahora, sin más, ¡comencemos!

¿Qué es la ciencia de datos? (definición + ejemplos)

El data science (DS, o ciencia de datos en español) se define como la ciencia que busca extraer conocimiento desde los datos.

Y cómo muchos de ustedes deben estar pensando, existen otras definiciones que son más largas, complejas y/o amplias. Y nos complicaríamos aún más si consideramos los distintos tipos de datos, las diferentes técnicas para trabajar con dichos datos, los múltiples métodos existentes para la extracción de conocimiento, …

Pero calma. Si se dan cuenta, la definición que les presento es simple, concreta y contiene el core de la ciencia de datos. Es por esto que creo que es una excelente definición. Y como dicen por ahí, menos es más 🙂

Veamos algunos ejemplos que nos ayudarán a entender de mejor manera qué es la ciencia de datos (usaré los mismos ejemplos que en el artículo “¿Qué son el Data Science, Big Data, …?”, por lo que si ya los conoces y lo deseas, puedes ir directamente a la siguiente sección):

  • Te solicitan un análisis que busca identificar a los clientes más valiosos para un banco, para lo cual utilizas, entre otras cosas, datos transaccionales de la tarjeta de crédito de dicha entidad bancaria.
  • Trabajas en un hospital y desarrollas un modelo para priorizar a nuevos pacientes según su probabilidad de presentar síntomas graves. Y para esto, utilizas como input data histórica de pacientes.
  • Quieres conocer más sobre una determinada red social, para lo cual realizas una segmentación para entender los distintos usuarios existentes. Esto en base a datos demográficos, de uso y de interacciones.

¿Qué tienen en común estos ejemplos? En los 3 se busca responder “preguntas contextuales” tomando como input distintas formas de datos para el descubrimiento de insights (utilizo el término “preguntas contextuales” como un concepto más amplio de lo que se denomina generalmente “preguntas de negocio” en el contexto de las empresas).

Ejemplos de aplicaciones de data science.
Tabla #1: Ejemplos de aplicaciones de data science (elaboración propia).

Flujo de trabajo para proyectos de data science.

Complementando la definición y ejemplos anteriores, les muestro un flujo de trabajo (o “workflow”, en inglés) que contiene las principales etapas que deberíamos desarrollar al abordar un proyecto relacionado a la ciencia de datos:

Flujo de trabajo para proyectos de data science.
Figura 1: Flujo de trabajo para proyectos de data science (elaboración propia).

Veamos un resumen de mi visión de cada una de las etapas de este workflow (en un futuro no muy lejano, publicaré un artículo detallado sobre este workflow, sin embargo, este resumen es ideal para comenzar):

Definición del problema. 

  • Etapa inicial en donde definimos proactivamente o recibimos el problema a resolver.
  • En esta etapa debemos preguntar, preguntar y preguntar, con el objetivo de entender de buena forma el problema.
  • Es muy importante calmar nuestra propia ansiedad de comenzar a recolectar y analizar datos, para invertir tiempo en validar, con nuestros clientes internos, que nuestro entendimiento del problema sea el correcto.
  • Algunas preguntas que debemos considerar en esta etapa:
    • ¿Cuál es el problema a resolver?
    • ¿Por qué se quiere resolver dicho problema?
    • ¿A qué actores afecta el problema?

Levantamiento contexto.

  • Luego de asegurarnos que entendemos el problema, es bueno invertir tiempo en conocer el contexto en el cual se da éste, para lo cual es bueno tener conversaciones con expertos y revisar material de referencia, tanto interno como externo.
  • Algunas preguntas que debemos considerar en esta etapa:
    • ¿En qué contexto se da el problema?
    • ¿Cuál es la magnitud y urgencia del problema? (emergencia, urgente, deseable de ser resuelto, etc.)
    • ¿Se ha resuelto o tratado de resolver este problema anteriormente? (ya sea en la propia organización u otra).
    • ¿Existe material de referencia a revisar?

Definición marco metodológico.

  • En esta etapa definiremos cómo abordar el problema y la posible solución a éste.
  • Algunas preguntas que debemos considerar en esta etapa:
    • ¿Cuáles serán los entregables asociados a la solución?
    • ¿Cuáles serán los pasos a seguir para llegar a dichos entregables?
    • ¿Qué data necesitaremos?
    • ¿En qué personas o áreas nos apoyaremos para llegar a la solución?
    • ¿Cuáles serán las fechas y plazos relevantes?

Experimentos.

  • En caso que en la etapa anterior se defina realizar un experimento, ya sea para generar data, testear hipótesis u otro, en esta fase lo diseñaremos y ejecutaremos.
  • Para esto, deberíamos basarnos en preguntas como:
    • ¿Qué queremos lograr con el experimento?
    • ¿Qué mediremos con el experimento?
    • ¿Cuál será la mecánica, canales, población y fechas relevantes para el experimento?

Data.

  • Llegó el momento de sumergirnos en los datos (finalmente). Y para esto, debemos considerar:
    • Recolección de los datos: ¿Dónde se encuentran los datos, cómo los recopilaremos y dónde los almacenaremos?
    • Validación y limpieza de los datos: ¿Los datos que utilizaremos están OK?
    • Transformación de los datos: ¿En qué formato deberían estar los datos y qué variables nuevas necesitamos para nuestra solución?
  • Esta etapa finaliza con los datos listos para ser explotados, ya sea vía análisis, reportes y/o modelos de machine learning.

 Análisis exploratorio (EDA).

  • Ya con la data lista para trabajar, viene la etapa en donde comenzamos a explotarla, usando variadas técnicas y herramientas. 
  • Todo esto para:
    • Extraer insights
    • Descubrir patrones.
    • Identificar variables importantes.
    • Detectar outliers y/o anomalías.
    • Testear supuestos e hipótesis.

Modelos de machine learning.

  • En caso que se defina como necesaria la generación de modelos de machine learning, será en esta etapa en donde éstos se diseñarán y calibrarán.
  • Para esto, algunas preguntas relevantes a seguir son:
    • ¿Qué necesitamos hacer con el modelo? ¿predecir, explicar, segmentar, etc.?
    • ¿Qué algoritmos se adecuan, a priori, al problema y los datos disponibles?
    • ¿El modelo se utilizará de forma particular o necesitará ser pasado a producción para que se use de forma periódica?

Presentación de resultados.

  • Finalmente, llegamos a la etapa donde presentaremos los resultados principales y relevantes.
  • Dichos resultados toman la forma de:
    • Insights.
    • Conclusiones.
    • Recomendaciones.
    • Etc.

Notas

  • Este workflow, por simplicidad, se presenta como lineal, sin embargo, en la práctica puede ser iterativo, siendo posible (y necesario) volver a etapas anteriores. Por ejemplo, es muy posible que en la etapa de análisis exploratorio nos demos cuenta de que necesitamos más datos y/o realizar nuevas transformaciones en éstos.
  • Tal como lo menciono más arriba, estaré publicando un artículo con más detalle y ejemplos sobre el workflow (¿te interesa? ¡No dudes entonces en dejármelo saber!)

¿Qué es lo (realmente) básico para comenzar en la ciencia de datos?

Sitios con listas de habilidades, conocimientos y/o herramientas relevantes para ser un buen científico de datos hay por montones (aunque la gran mayoría de los que conozco están en inglés). Y, bajo mi criterio, los puntos más importantes generalmente se van repitiendo entre estas listas.

Mezclando dicho material con mi propia experiencia, armé este consolidado:

Habilidades, conocimientos y herramientas clave en el data science.
Figura 2: Habilidades, conocimientos y herramientas clave en el data science (elaboración propia en base a las referencias que dejo al final del artículo).

Tengo la intención de escribir un post completo y detallado sobre los elementos anteriores, no obstante, en este artículo me centraré en aquellas habilidades / conocimientos / herramientas que son clave para comenzar en el mundo de la ciencia de datos

Habilidades, conocimientos y herramientas clave para iniciarse como científico de datos.
Figura 3: Habilidades, conocimientos y herramientas clave para iniciarse como científico de datos (elaboración propia).

Microsoft Excel.

Todo aspirante a data scientist debe tener un manejo avanzado de Excel. 

Filtros, formatos condicionales, funciones, gráficos, tablas dinámicas y macros son sólo algunas de las funcionalidades clave que presenta Excel para trabajar con datos. Y tienes que conocerlas muy bien.

Y puede que Excel aparezca mucho menos que Python, R y Julia en las listas de los must, pero es lo realmente básico si quieres comenzar el camino para llegar a ser un/a data scientist integral (y sí. Entiendo que la comparación entre Excel y estos es lenguajes de programación es simplista).

SQL.

En línea con el punto anterior, SQL es un must 🙂

El formato más común para almacenar información son las bases de datos estructuradas. Y SQL es EL lenguaje de programación para trabajar con este tipo de data.

Además de su relevancia, SQL es simple, práctico y con mucho material y documentación disponible.

Perfil analítico.

El perfil analítico hace referencia a la capacidad de analizar y extraer insights desde información presentada en una tabla o gráfico.

Simplificando un poco, un buen proxy para medir tu perfil analítico y practicar es utilizar la primera pregunta del examen IELTS – sección de escritura, y ver si las puedes responder (en el idioma que más te acomode).

Por ejemplo, ¿qué puedes destacar, tanto de forma general, como también particular, del siguiente gráfico?:

Ejemplo de pregunta 1 de examen IELTS sección escritura.
Figura 4: Ejemplo de pregunta 1 de examen IELTS sección escritura (referencia aquí).

Curiosidad.

Según Oxford Languages la curiosidad es el “deseo de saber o averiguar una cosa”.

Y esta forma de trabajar (siendo curioso) es clave para comenzar como data scientist.

En particular, una forma de aplicar esto en tu día a día es constantemente aplicar nuestro sentido común, pensar “fuera de la caja” y responder preguntas tipo “¿por qué y cómo pasa esto?”, “¿qué pasaría si…?”, entre otras.

Proactividad.

Finalmente, y relacionado con el punto anterior, toda persona que busca iniciarse como científico de datos, debe potenciar su proactividad.

¿Tienes alguna duda? Entonces busca resolverla.

¿Crees que hablando con determinada persona avanzarás más rápido? Entonces contáctala.

¿Crees que puedes agregar valor? Entonces hazlo.

En mi experiencia liderando equipos y trabajando con personas que se inician en el data science, esta habilidad / actitud es de las más relevantes, ya que acelera la curva de aprendizaje.

En resumen, creo que es difícil que una persona logre ser un científico de datos “junior” integral, por más Python y/o R que sepa, por mucho que conozca de estadística o por mucho que sepa de machine learning, si él/ella no domina alguno de los 5 elementos que defino como clave (Excel, SQL, perfil analítico, curiosidad y proactividad).

Recuerda que éstas son sólo algunas de las habilidades / conocimientos / herramientas relevantes para ser un data scientist integral y me concentré en las básicas para comenzar. Si te interesa conocer sobre la lista completa (figura 2), ¡no dudes en dejármelo saber!

¿Por dónde empezar?

Si llegaste a esta parte del artículo es porque estás decidida/o en convertirte en la mejor data scientist 🙂

Y para esto, te dejaré algunos tips para comenzar a desarrollar las 5 habilidades / técnicas que presentamos anteriormente.

Microsoft Excel.

Aquí lo básico es contar con Excel (también podrías usar Google Sheets, sin embargo las diferencias no son menores).

Luego, por ejemplo, en YouTube podrás encontrar mucho material gratuito. Incluso existen cursos completos para distintos niveles.

Te recomiendo, antes de comenzar, revisar los comentarios y cantidad de reproducciones para tener una idea de la calidad de los videos.

SQL.

Al igual que el punto anterior, YouTube es una excelente opción para comenzar.

Además, antes de instalar programas y conseguir información (bases de datos), te recomiendo buscar sitios de internet en donde permiten, de manera gratuita, simular un ambiente de trabajo y comenzar a ejecutar tus primeras consultas de SQL, como por ejemplo acá.

Finalmente te doy quizá el mejor consejo para aprender SQL (o casi cualquier otro lenguaje de programación): Cuando enfrentes un problema, SIEMPRE podrás buscar la solución en internet (es muy, muy, pero muy difícil que estés enfrentando un problema que no haya sido resuelto anteriormente).

Perfil analítico.

Mi primer consejo es que, tal como lo mencionaba anteriormente, busques sitios con preguntas resueltas para la pregunta 1 de la sección de writing del examen IELTS. 

Otra opción, en caso que el inglés no sea lo tuyo, es leer de forma diaria o semanal algún periódico financiero, ya que en éstos se muestran gráficos junto con las principales conclusiones a partir de éstos.

Curiosidad.

De lo general a lo particular, mis consejos son: sal de tu zona de confort, haz cosas nuevas en tu vida y genera un hábito de hacer preguntas del tipo “¿por qué…?” 5 veces al día.

Proactividad.

Acá puedes identificar a alguien que sea proactivo y “síguelo” para aprender de ella/él.

Palabras al cierre (resumen).

¿Mucha información? 😮

Espero que este post sea de mucha utilidad para ti si lo que buscas es comenzar una carrera como data scientist y/o quieres conocer más de este mundo.

Antes de finalizar, te dejo un resumen de los principales puntos que abordamos:

  • El data science se define como la ciencia que busca extraer conocimiento desde los datos.
  • Ejemplos de lo anterior:
    • Análisis que busca identificar a los clientes más valiosos para un banco utilizando datos transaccionales de la tarjeta de crédito de dicha entidad bancaria.
    • Modelo de machine learning para priorizar a nuevos pacientes según su probabilidad de presentar síntomas graves usando como input data histórica de pacientes.
    • Segmentación para entender los distintos usuarios existentes de una determinada red social en base a datos demográficos, de uso y de interacciones.
  • Flujo de trabajo para proyectos relacionados con la ciencia de datos:
Flujo de trabajo para proyectos de data science.
Figura 1: Flujo de trabajo para proyectos de data science (elaboración propia).

  • Habilidades y conocimientos clave para iniciarte como data scientist:
Habilidades, conocimientos y herramientas clave para iniciarse como científico de datos.
Figura 3: Habilidades, conocimientos y herramientas clave para iniciarse como científico de datos (elaboración propia).

Recuerda que si deseas conocer más sobre la relación y diferencias entre data science, big data, inteligencia artificial, machine learning y deep learning, puedes revisar este post.

Si quieres saber más o te gustaría que publique sobre algún otro tema, no dudes en escribirme. También puedes escribirme si tienes alguna duda o si quieres darme feedback. Por último, sería genial seguir en contacto a través de mis redes sociales, como Twitter y LinkedIn (también sígueme en Instagram que tengo Instagram).

🙂

Referencias.

Top 8 Skills You Need to be a Data Scientist

14 Skills Required To Become A Data Scientist in 2020

What Skills Do You Need to Become a Data Scientist?

10 Most Practical Data Science Skills You Should Know in 2022

The 6 Key Data Science Skills Every Business Needs Today