Saltar al contenido
Electrónica Online

Modelado predictivo

Modelado predictivo

¿Qué es el modelado predictivo?

El modelado predictivo es un proceso matemático que se utiliza para predecir eventos o resultados futuros mediante el análisis de patrones en un conjunto determinado de datos de entrada. Es un componente crucial del análisis predictivo, un tipo de análisis de datos que utiliza datos actuales e históricos para predecir actividades, comportamientos y tendencias.

Algunos ejemplos de modelos predictivos son la estimación de la calidad de un cliente potencial, la probabilidad de spam o la probabilidad de que alguien haga clic en un enlace o compre un producto. Estas funciones suelen estar integradas en varias aplicaciones empresariales, por lo que merece la pena comprender la mecánica del modelado predictivo para solucionar problemas y mejorar el rendimiento.

Aunque la modelización predictiva implica centrarse en la previsión del futuro, también puede predecir resultados (por ejemplo, la probabilidad de que una transacción sea fraudulenta). En este caso, el suceso ya ha ocurrido (se ha cometido fraude). El objetivo aquí es predecir si análisis futuros encontrarán que la transacción es fraudulenta. El modelado predictivo también puede pronosticar requisitos futuros o facilitar el análisis hipotético.

«El modelado predictivo es una forma de minería de datos que analiza datos históricos con el objetivo de identificar tendencias o patrones y utilizarlos para predecir resultados futuros», explica Donncha Carroll, socio del departamento de crecimiento de ingresos de Axiom Consulting Partners. «Básicamente, plantea la pregunta: ‘¿He visto esto antes?’, seguida de ‘lo que normalmente viene después de este patrón'».

Principales tipos de modelos predictivos

Hay muchas formas de clasificar los modelos predictivos y, en la práctica, pueden combinarse varios tipos de modelos para obtener los mejores resultados. La distinción más destacada es entre modelos no supervisados y supervisados.

  • Los modelos no supervisados utilizan la estadística tradicional para clasificar los datos directamente, mediante técnicas como la regresión logística, el análisis de series temporales y los árboles de decisión.
  • Los modelos supervisados utilizan técnicas de aprendizaje automático más recientes, como las redes neuronales, para identificar patrones ocultos en datos que ya han sido etiquetados.

La mayor diferencia entre estos enfoques es que con los modelos supervisados hay que tener más cuidado para etiquetar correctamente los conjuntos de datos por adelantado.

«La aplicación de diferentes tipos de modelos tiende a ser más específica de un dominio que de una industria», dijo Scott Buchholz, CTO de gobierno y servicios públicos y director de investigación de tecnologías emergentes de Deloitte Consulting.

En algunos casos, por ejemplo, el análisis de regresión estadística estándar puede proporcionar el mejor poder predictivo. En otros casos, los modelos más sofisticados son el enfoque adecuado. Por ejemplo, en un hospital, las técnicas estadísticas clásicas pueden bastar para identificar las limitaciones clave de la programación, pero las redes neuronales, un tipo de aprendizaje profundo, pueden ser necesarias para optimizar la asignación de pacientes a los médicos.

Una vez que los científicos de datos reúnen estos datos de muestra, deben seleccionar el modelo adecuado. Las regresiones lineales son uno de los tipos más sencillos de modelos predictivos. Los modelos lineales toman dos variables correlacionadas (una independiente y otra dependiente) y trazan una en el eje de abscisas y otra en el eje de ordenadas. El modelo aplica una línea de mejor ajuste a los puntos de datos resultantes. Los científicos de datos pueden utilizarlo para predecir futuras ocurrencias de la variable dependiente.

Algunos de los métodos más populares son los siguientes:

  • Árboles de decisión. Los algoritmos de árboles de decisión toman los datos (extraídos, de código abierto, internos) y los representan gráficamente en ramas para mostrar los posibles resultados de varias decisiones. Los árboles de decisión clasifican variables de respuesta y predicen variables de respuesta basándose en decisiones anteriores, pueden utilizarse con conjuntos de datos incompletos y son fácilmente explicables y accesibles para los científicos de datos principiantes.
  • Análisis de series temporales. Se trata de una técnica de predicción de acontecimientos a través de una secuencia temporal. Se pueden predecir acontecimientos futuros analizando tendencias pasadas y extrapolando a partir de ahí.
  • Regresión logística. Se trata de un método de análisis estadístico que ayuda en la preparación de datos. A medida que se aportan más datos, mejora la capacidad del algoritmo para ordenarlos y clasificarlos y, por tanto, se pueden hacer predicciones.
  • Redes neuronales. Esta técnica revisa grandes volúmenes de datos etiquetados en busca de correlaciones entre las variables de los datos. Las redes neuronales son la base de muchos de los ejemplos actuales de inteligencia artificial (IA), como el reconocimiento de imágenes, los asistentes inteligentes y la generación de lenguaje natural.

El área más compleja del modelado predictivo es la red neuronal. Este tipo de modelo de aprendizaje automático revisa de forma independiente grandes volúmenes de datos etiquetados en busca de correlaciones entre las variables de los datos. Puede detectar incluso correlaciones sutiles que sólo surgen tras revisar millones de puntos de datos. El algoritmo puede entonces hacer inferencias sobre archivos de datos no etiquetados que son similares en tipo al conjunto de datos en el que se entrenó.

Metodologias de analisis predictivo
Los algoritmos de modelado predictivo incluyen regresión logística, análisis de series de tiempo y árboles de decisión.

Algoritmos comunes para el modelado predictivo

  • Bosque aleatorio. Este algoritmo combina árboles de decisión no relacionados y utiliza la clasificación y la regresión para organizar y etiquetar grandes cantidades de datos.
  • Modelo potenciado por gradiente. Similar al Random Forest, este algoritmo utiliza varios árboles de decisión, pero en este método, cada árbol corrige los fallos del anterior y construye una imagen más precisa.
  • K-Means. Este algoritmo agrupa puntos de datos de forma similar a los modelos de clustering y es popular en la concepción de ofertas minoristas personalizadas. Crea ofertas personalizadas buscando similitudes entre grandes grupos de clientes.
  • Prophet. Procedimiento de previsión, este algoritmo es especialmente eficaz cuando se trata de planificar la capacidad. Este algoritmo trata con datos de series temporales y es relativamente flexible.

¿Cuáles son los usos del modelado predictivo?

El modelado predictivo se asocia a menudo con la meteorología y la predicción del tiempo, pero los modelos predictivos tienen muchas aplicaciones en los negocios. Las técnicas actuales de análisis predictivo pueden descubrir patrones en los datos para identificar los riesgos y oportunidades que se avecinan para una organización.

«Casi cualquier lugar en el que un ser humano inteligente haga una predicción en un entorno rico en datos históricos es un buen caso de uso para el análisis predictivo», afirma Buchholz. «Al fin y al cabo, el modelo no tiene ego y no se aburrirá».

Uno de los usos más comunes del modelado predictivo es la publicidad y el marketing online. Los modeladores utilizan los datos históricos de los internautas para determinar qué tipo de productos pueden interesar a los usuarios y en qué es probable que hagan clic.

Los filtros bayesianos de spam utilizan modelos predictivos para identificar la probabilidad de que un determinado mensaje sea spam.

En la detección del fraude, el modelado predictivo se utiliza para identificar valores atípicos en un conjunto de datos que apuntan a una actividad fraudulenta. En la gestión de las relaciones con los clientes, el modelado predictivo se utiliza para dirigir mensajes a los clientes con más probabilidades de realizar una compra.

Carroll dijo que el modelado predictivo se utiliza ampliamente en el mantenimiento predictivo, que se ha convertido en una enorme industria que genera miles de millones de dólares en ingresos. Uno de los ejemplos más notables se encuentra en el sector de las aerolíneas, donde los ingenieros utilizan dispositivos IoT para supervisar a distancia el rendimiento de componentes de aeronaves como bombas de combustible o motores a reacción.

Estas herramientas permiten el despliegue preventivo de recursos de mantenimiento para aumentar la utilización de los equipos y limitar los tiempos de inactividad inesperados. «Estas acciones pueden mejorar significativamente la eficiencia operativa en un mundo que funciona justo a tiempo, donde las sorpresas pueden salir muy caras», afirma Caroll.

Otras áreas donde se utilizan modelos predictivos incluyen las siguientes:

  • planificación de capacidad
  • gestión del cambio
  • recuperación de desastres
  • ingeniería
  • gestión de seguridad física y digital
  • planificación urbana

¿Cómo construir un modelo predictivo?

Para crear un modelo predictivo hay que identificar los datos históricos representativos del resultado que se quiere predecir.

«El modelo puede inferir resultados a partir de datos históricos, pero no puede predecir lo que nunca ha visto antes», explica Carroll. Por lo tanto, el volumen y la amplitud de la información utilizada para entrenar el modelo son fundamentales para garantizar una predicción precisa del futuro.

El siguiente paso es identificar formas de limpiar, transformar y combinar los datos brutos que conduzcan a mejores predicciones.

Se requiere habilidad no sólo para encontrar el conjunto adecuado de datos brutos, sino también para transformarlos en las características de datos más apropiadas para un modelo determinado. Por ejemplo, los cálculos de promedios semanales con intervalos de tiempo pueden ser más útiles y conducir a mejores algoritmos que los niveles en tiempo real.

También es importante descartar los datos coincidentes o irrelevantes para un modelo. En el mejor de los casos, los datos adicionales ralentizarán el modelo y, en el peor, darán lugar a modelos menos precisos.

Esto es tanto un arte como una ciencia. El arte consiste en cultivar el instinto para captar el significado de las cosas e intuir las causas subyacentes. La ciencia consiste en aplicar metódicamente algoritmos para obtener resultados fiables y evaluarlos a lo largo del tiempo. El hecho de que un filtro de spam funcione el primer día no significa que los profesionales del marketing no ajusten sus mensajes, haciendo que el filtro sea menos eficaz.

Analizar porciones representativas de la información disponible -el muestreo- puede ayudar a acelerar el tiempo de desarrollo de los modelos y permitir que se implanten más rápidamente.

Beneficios del modelado predictivo

Phil Cooper, vicepresidente del grupo de productos de Clari, una startup de software RevOps, afirma que algunas de las principales ventajas del modelado predictivo en las empresas son las siguientes:

  • Priorización de recursos. El modelado predictivo se utiliza para identificar la conversión de oportunidades de ventas y enviar las mejores oportunidades a los equipos de ventas internos; predecir si un caso de servicio al cliente se derivará y clasificarlo y enrutarlo adecuadamente; y predecir si un cliente pagará su factura a tiempo y optimizará los flujos de trabajo de las cuentas por cobrar.
  • Mejora de los márgenes de beneficio. El modelado predictivo se utiliza para prever el inventario, crear estrategias de precios, predecir el número de clientes y configurar la distribución de las tiendas para maximizar las ventas.
  • Optimizar las campañas de marketing. El modelado predictivo se utiliza para descubrir nuevas perspectivas de los clientes y predecir comportamientos basados en datos de entrada, lo que permite a las organizaciones adaptar las estrategias de marketing, retener a los clientes valiosos y aprovechar las oportunidades de venta cruzada.
  • Reducción de riesgos. El análisis predictivo puede detectar actividades fuera de lo normal, como transacciones fraudulentas, espionaje corporativo o ciberataques, para reducir el tiempo de reacción y las consecuencias negativas.

Las técnicas utilizadas en el modelado predictivo son probabilísticas, no deterministas. Esto significa que los modelos generan probabilidades de un resultado e incluyen cierta incertidumbre.

«Esta es una diferencia fundamental e inherente entre el modelado de datos de hechos históricos y la predicción de acontecimientos futuros [basada en datos históricos], y tiene implicaciones para la forma de comunicar esta información a los usuarios», afirma Cooper. Comprender esta diferencia es una necesidad crítica para la transparencia y la capacidad de explicar cómo se ha generado una predicción o recomendación».

Desafíos del modelado predictivo

He aquí algunos de los retos relacionados con el modelado predictivo.

Preparación de datos. Uno de los retos del modelado predictivo que con más frecuencia se pasa por alto es la adquisición de la cantidad adecuada de datos y la selección de los datos correctos que se van a utilizar al desarrollar algoritmos. Según algunas estimaciones, los científicos de datos dedican aproximadamente el 80% de su tiempo a este paso. La recopilación de datos es importante, pero su utilidad es limitada si estos datos no se gestionan y limpian adecuadamente.

Una vez clasificados los datos, las organizaciones deben tener cuidado para evitar el exceso de ajuste. Las pruebas excesivas de los datos de entrenamiento pueden dar como resultado un modelo que parece muy preciso pero que ha memorizado los puntos clave del conjunto de datos en lugar de haber aprendido a generalizar.

Barreras técnicas y culturales. Aunque el modelado predictivo suele considerarse principalmente un problema matemático, los usuarios deben prever las barreras técnicas y organizativas que pueden impedirles obtener los datos que necesitan. A menudo, los sistemas que almacenan datos útiles no están conectados directamente a almacenes de datos centralizados. Además, algunas líneas de negocio pueden sentir que los datos que gestionan son su activo, y puede que no los compartan libremente con los equipos de ciencia de datos.

Elegir el caso de negocio adecuado. Otro posible obstáculo para las iniciativas de modelado predictivo es asegurarse de que los proyectos abordan retos empresariales significativos. A veces, los científicos de datos descubren correlaciones que parecen interesantes en ese momento y construyen algoritmos para investigar la correlación más a fondo. Sin embargo, el mero hecho de que encuentren algo estadísticamente significativo no significa que ofrezca una perspectiva que la empresa pueda utilizar. Las iniciativas de modelado predictivo deben tener una base sólida de relevancia empresarial.

Sesgo. «Uno de los problemas más apremiantes del que todo el mundo habla, pero que pocos han abordado de manera efectiva, es el desafío del sesgo», dijo Carroll. El sesgo se introduce de forma natural en el sistema a través de los datos históricos, ya que los resultados pasados reflejan el sesgo existente».

Nate Nichols, director distinguido de Narrative Science, un proveedor de herramientas de generación de lenguaje natural, está entusiasmado con el papel que podrían desempeñar los nuevos métodos de aprendizaje automático explicables, como LIME o SHAP, a la hora de abordar las preocupaciones sobre el sesgo y fomentar la confianza.

«La gente confía más en los modelos cuando comprende en cierta medida lo que hacen, y la confianza es primordial para la capacidad de análisis predictivo», afirma Nichols. Según Nichols, poder explicar las predicciones es un factor de diferenciación muy positivo en un sector cada vez más saturado de productos de análisis predictivo.

Modelado predictivo vs análisis predictivo

El modelado predictivo no es más que un aspecto del ciclo más amplio del proceso de análisis predictivo. Este incluye la recopilación, transformación, limpieza y modelización de datos mediante variables independientes, y luego la reiteración si el modelo no se ajusta del todo al problema que se quiere abordar.

«Una vez recopilados, transformados y depurados los datos, se procede a su modelización predictiva», explica Terri Sage, Directora de Tecnología de 1010data, una consultora de análisis.

Recopilar datos, transformarlos y limpiarlos son procesos que se utilizan para otros tipos de desarrollo analítico.

«La diferencia con el análisis predictivo es la inclusión y el descarte de variables durante el proceso iterativo de modelado», explica Sage.

Esto variará en función de los distintos sectores y casos de uso, ya que se utilizarán diversos datos y se descubrirán distintas variables durante las iteraciones del modelado.

Por ejemplo, en la atención sanitaria, los modelos predictivos pueden ingerir una enorme cantidad de datos relativos a un paciente y pronosticar su respuesta a determinados tratamientos y su pronóstico. Los datos pueden incluir el historial médico específico del paciente, el entorno, los factores de riesgo social y la genética, todo lo cual varía de una persona a otra. El uso de modelos predictivos en la atención sanitaria marca un cambio desde el tratamiento de los pacientes basándose en promedios hasta el tratamiento de los pacientes como individuos.

Del mismo modo, en el análisis de marketing, los modelos predictivos pueden utilizar conjuntos de datos basados en el salario, los hábitos de gasto y los datos demográficos de un consumidor. En la banca y los seguros se utilizarán datos y modelos diferentes para ayudar a determinar las calificaciones crediticias e identificar actividades fraudulentas.

Herramientas de modelado predictivo

Antes de implementar una herramienta de modelo predictivo, es fundamental que su organización haga preguntas y resuelva lo siguiente: aclare quién ejecutará el software, cuál será el caso de uso para estas herramientas, con qué otras herramientas interactuará su análisis predictivo, así como el presupuesto.

Las distintas herramientas tienen diferentes requisitos de alfabetización de datos, son eficaces en diferentes casos de uso, se utilizan mejor con software similar y pueden ser caras. Una vez que su organización tenga claridad sobre estos temas, comparar herramientas será más fácil.

  • Sisense. Un software de inteligencia empresarial dirigido a una variedad de empresas que ofrece una gama de funciones de análisis empresarial. Requiere unos conocimientos mínimos de TI.
  • Oracle Crystal Ball. Una aplicación basada en hojas de cálculo dirigida a ingenieros, planificadores estratégicos y científicos de todos los sectores que puede utilizarse para el modelado predictivo, la previsión, así como la simulación y la optimización.
  • IBM SPSS Predictive Analytics Enterprise. Plataforma de inteligencia empresarial que admite la integración de código abierto y ofrece análisis descriptivos y predictivos, así como preparación de datos.
  • SAS Advanced Analytics. Un programa que ofrece algoritmos que identifican la probabilidad de resultados futuros y puede utilizarse para la minería de datos, la previsión y la econometría.

El futuro del modelado predictivo

Hay tres tendencias clave que impulsarán el futuro del modelado de datos.

  1. En primer lugar, las capacidades de modelado de datos se están integrando en más aplicaciones empresariales y herramientas de ciencia de datos ciudadanos. Estas capacidades pueden proporcionar las barreras de seguridad y plantillas adecuadas para que los usuarios empresariales trabajen con modelos predictivos.
  2. En segundo lugar, las herramientas y los marcos para el modelado predictivo de bajo código están facilitando a los expertos en ciencia de datos la limpieza rápida de los datos, la creación de modelos y la comprobación de los resultados.
  3. En tercer lugar, están llegando mejores herramientas para automatizar muchas de las tareas de ingeniería de datos necesarias para impulsar la producción de modelos predictivos. Carroll predice que esto permitirá que más organizaciones pasen de simplemente construir modelos a implementarlos de manera que aprovechen su valor potencial.

¿Te ha resultado útil esta información?

No
¡Gracias por tus comentarios!