¿Qué es el aprendizaje supervisado?
El aprendizaje supervisado es un método de creación de inteligencia artificial (IA) en el que se entrena un algoritmo informático a partir de datos de entrada etiquetados para un resultado concreto. El modelo se entrena hasta que puede detectar los patrones subyacentes y las relaciones entre los datos de entrada y las etiquetas de salida, lo que le permite obtener resultados de etiquetado precisos cuando se le presentan datos nunca antes vistos.
En el aprendizaje supervisado, el objetivo es dar sentido a los datos en el contexto de una pregunta concreta. El aprendizaje supervisado es bueno en problemas de clasificación y regresión, como determinar a qué categoría pertenece un artículo periodístico o predecir el volumen de ventas para una fecha futura determinada. Las organizaciones pueden utilizar el aprendizaje supervisado en procesos como la detección de anomalías, la detección de fraudes, la clasificación de imágenes, la evaluación de riesgos y el filtrado de spam.
En contraste con el aprendizaje supervisado está el aprendizaje automático no supervisado. En este enfoque, el algoritmo recibe datos no etiquetados y está diseñado para detectar patrones o similitudes por sí mismo, un proceso que se describe con más detalle a continuación.
¿Cómo funciona el aprendizaje supervisado?
Como todos los algoritmos de aprendizaje automático, el aprendizaje supervisado se basa en el entrenamiento. Durante la fase de formación, el sistema se alimenta con conjuntos de datos etiquetados, que le indican qué variable de salida está relacionada con cada valor de entrada específico. A continuación, al modelo entrenado se le presentan datos de prueba. Se trata de datos que han sido etiquetados, pero cuyas etiquetas no se han revelado al algoritmo. El objetivo de los datos de prueba es medir la precisión del algoritmo en datos no etiquetados.
Entre los pasos básicos y generales para la aplicación del aprendizaje supervisado se incluyen los siguientes:
- Determinar el tipo de datos de entrenamiento que se utilizarán como conjunto de entrenamiento.
- Recopilar datos de entrenamiento etiquetados.
- Dividir los datos de entrenamiento en conjuntos de datos de entrenamiento, prueba y validación.
- Determinar un algoritmo para el modelo de aprendizaje automático.
- Ejecutar el algoritmo con el conjunto de datos de entrenamiento.
- Evaluar la precisión del modelo. Si el modelo predice resultados correctos, entonces es preciso.
Por ejemplo, se podría entrenar un algoritmo para identificar imágenes de gatos y perros alimentándolo con una gran cantidad de datos de entrenamiento que consistirían en diferentes imágenes etiquetadas de gatos y perros. Estos datos de entrenamiento serían un subconjunto de fotos de un conjunto de imágenes mucho mayor. Tras el entrenamiento, el modelo debería ser capaz de predecir si una imagen es un gato o un perro. Para validar el modelo, se puede ejecutar el algoritmo con otro conjunto de imágenes.
En los algoritmos de redes neuronales, el proceso de aprendizaje supervisado se mejora midiendo constantemente las salidas resultantes del modelo y afinando el sistema para acercarse a su objetivo de precisión. El nivel de precisión que se puede obtener depende de dos cosas: los datos etiquetados disponibles y el algoritmo que se utilice. Además, los siguientes factores afectan al proceso:
- Los datos de entrenamiento deben estar equilibrados y limpios. Los datos basura o duplicados sesgan la comprensión de la IA, por lo que los científicos de datos deben tener cuidado con los datos en los que se entrena el modelo.
- La diversidad de los datos determina el rendimiento de la IA cuando se le presentan nuevos casos; si no hay suficientes muestras en el conjunto de datos de entrenamiento, el modelo vacila y no consigue dar respuestas fiables.
- Paradójicamente, una alta precisión no es necesariamente un buen indicador; también podría significar que el modelo sufre de sobreajuste, es decir, que está sobreajustado a su conjunto de datos de entrenamiento particular. Un conjunto de datos de este tipo puede funcionar bien en situaciones de prueba, pero fracasar estrepitosamente cuando se enfrenta a retos del mundo real. Para evitar la sobreajuste, es importante que los datos de prueba sean diferentes de los de entrenamiento, para garantizar que el modelo no obtenga respuestas de su experiencia previa, sino que la inferencia del modelo sea generalizada.
- El algoritmo, por su parte, determina cómo pueden utilizarse esos datos. Por ejemplo, los algoritmos de aprendizaje profundo pueden entrenarse para extraer miles de millones de parámetros de sus datos y alcanzar niveles de precisión sin precedentes, como demuestra el GPT-3 de OpenAI.
Aparte de las redes neuronales, existen muchos otros algoritmos de aprendizaje supervisado. Los algoritmos de aprendizaje supervisado generan principalmente dos tipos de resultados: clasificación y regresión.
Algoritmos de clasificación
Los algoritmos de aprendizaje supervisado se dividen en dos tipos: clasificación y regresión.
El objetivo de un algoritmo de clasificación es clasificar los datos de entrada en un número determinado de categorías (o clases) basándose en los datos etiquetados con los que se ha entrenado. Los algoritmos de clasificación pueden utilizarse para clasificaciones binarias, como clasificar una imagen como perro o gato; filtrar el correo electrónico en spam o no spam; y clasificar los comentarios de los clientes como positivos o negativos.
Algunos ejemplos de técnicas de aprendizaje automático de clasificación son los siguientes:
- Un árbol de decisión separa los puntos de datos en dos categorías similares, desde el tronco de un árbol hasta las ramas y luego se va a las hojas, creando categorías más pequeñas dentro de las categorías.
- La regresión logística analiza variables independientes para determinar un resultado binario que cae en una de dos categorías.
- Un bosque aleatorio es una colección de árboles de decisión que reúne resultados de múltiples predictores. Generaliza mejor, pero es menos interpretable que los árboles de decisión.
- Una máquina de vectores de soporte encuentra una línea que separa los datos de un conjunto determinado en clases específicas durante el entrenamiento del modelo y maximiza los márgenes de cada clase. Estos algoritmos se pueden utilizar para comparar el rendimiento financiero relativo, el valor y las ganancias de inversión.
Modelos de regresión
Las tareas de regresión son diferentes, ya que esperan que el modelo produzca una relación numérica entre los datos de entrada y de salida. Algunos ejemplos de modelos de regresión son la predicción de los precios inmobiliarios en función del código postal, la predicción de las tasas de clics en anuncios online en relación con la hora del día y la determinación de cuánto estarían dispuestos a pagar los clientes por un determinado producto en función de su edad.
Entre los algoritmos utilizados habitualmente en los programas de aprendizaje supervisado se incluyen los siguientes:
- La lógica bayesiana analiza modelos estadísticos, al tiempo que incorpora conocimientos previos sobre los parámetros del modelo o sobre el propio modelo.
- La regresión lineal predice el valor de una variable basándose en el valor de otra variable.
- La regresión no lineal se utiliza cuando una salida no es reproducible a partir de entradas lineales. En este caso, los puntos de datos comparten una relación no lineal, por ejemplo, los datos pueden tener una tendencia curva no lineal.
- Un árbol de regresión es un árbol de decisión en el que se pueden tomar valores continuos de una variable objetivo.
Al elegir un algoritmo de aprendizaje supervisado, hay que tener en cuenta algunas cosas. La primera es el sesgo y la varianza que existen en el algoritmo, ya que hay una línea muy fina entre ser lo suficientemente flexible y ser demasiado flexible. Otra es la complejidad del modelo o función que el sistema intenta aprender. Como se ha señalado, la heterogeneidad, precisión, redundancia y linealidad de los datos también deben analizarse antes de elegir un algoritmo.
Aprendizaje supervisado vs no supervisado
La principal diferencia entre el aprendizaje supervisado y no supervisado radica en cómo aprende el algoritmo.
En el aprendizaje no supervisado, el algoritmo recibe datos sin etiquetar como conjunto de entrenamiento. A diferencia del aprendizaje supervisado, no hay valores de salida correctos; el algoritmo determina los patrones y similitudes dentro de los datos, en lugar de relacionarlos con alguna medida externa. En otras palabras, los algoritmos pueden funcionar libremente para aprender más sobre los datos y descubrir hallazgos interesantes o inesperados que los seres humanos no estaban buscando.
El aprendizaje no supervisado es popular en algoritmos de agrupación (el acto de descubrir grupos dentro de los datos) y asociación (el acto de predecir reglas que describen los datos).
Como el modelo de aprendizaje automático trabaja por su cuenta para descubrir patrones en los datos, es posible que no haga las mismas clasificaciones que en el aprendizaje supervisado. En el ejemplo de los gatos y los perros, el modelo de aprendizaje no supervisado podría marcar las diferencias, similitudes y patrones entre gatos y perros, pero no puede etiquetarlos como gatos o perros.
Beneficios y limitaciones
Los modelos de aprendizaje supervisado tienen algunas ventajas sobre el enfoque no supervisado, pero también tienen limitaciones. Entre las ventajas se incluyen las siguientes:
- Los sistemas de aprendizaje supervisado tienen más probabilidades de emitir juicios con los que los humanos puedan identificarse porque los humanos han proporcionado la base para las decisiones.
- Los criterios de rendimiento se optimizan gracias a la ayuda adicional de expertos.
- Pueden realizar tareas de clasificación y regresión.
- Los usuarios controlan el número de clases utilizadas en los datos de entrenamiento.
- Los modelos pueden realizar predicciones basadas en la experiencia previa.
- Las clases de objetos se etiquetan en términos exactos.
Entre las limitaciones del aprendizaje supervisado figuran las siguientes:
- En el caso de un método basado en la recuperación, los sistemas de aprendizaje supervisado tienen problemas para tratar la información nueva. Si a un sistema con categorías para gatos y perros se le presentan nuevos datos -por ejemplo, una cebra-, tendría que agruparlos incorrectamente en una u otra categoría. Sin embargo, si el sistema de inteligencia artificial fuera generativo, es decir, no supervisado, podría no saber qué es una cebra, pero sería capaz de reconocerla como perteneciente a una categoría distinta.
- El aprendizaje supervisado también suele requerir grandes cantidades de datos correctamente etiquetados para alcanzar niveles de rendimiento aceptables, y esos datos no siempre están disponibles. El aprendizaje no supervisado no sufre este problema y puede funcionar también con datos no etiquetados.
- Los modelos supervisados necesitan tiempo para ser entrenados antes de su uso.
Aprendizaje semisupervisado
En los casos en los que se necesita aprendizaje supervisado pero faltan datos de calidad, el aprendizaje semisupervisado puede ser el método de aprendizaje adecuado. Este modelo de aprendizaje se sitúa entre el aprendizaje supervisado y el no supervisado; acepta datos parcialmente etiquetados, es decir, la mayoría de los datos carecen de etiquetas.
El aprendizaje semisupervisado determina las correlaciones entre los puntos de datos -igual que el aprendizaje no supervisado, y luego utiliza los datos etiquetados para marcar esos puntos de datos. Por último, se entrena todo el modelo basándose en las nuevas etiquetas aplicadas.
El aprendizaje semisupervisado puede producir resultados precisos y es aplicable a muchos problemas del mundo real, donde la pequeña cantidad de datos etiquetados impediría que los algoritmos de aprendizaje supervisado funcionen correctamente. Como regla general, un conjunto de datos con al menos un 25% de datos etiquetados es adecuado para el aprendizaje semisupervisado.
El reconocimiento facial, por ejemplo, es ideal para el aprendizaje semisupervisado; el gran número de imágenes de diferentes personas se agrupa por similitud y luego se le da sentido con una imagen etiquetada, lo que da identidad a las fotos agrupadas.
Ejemplo de proyecto de aprendizaje supervisado
Un posible caso de uso del aprendizaje supervisado es la categorización de noticias. Un enfoque consiste en determinar a qué categoría pertenece cada noticia, como negocios, finanzas, tecnología o deportes. Para resolver este problema, lo mejor sería un modelo supervisado.
Los humanos presentarían al modelo varios artículos de noticias y sus categorías y harían que el modelo aprendiera qué tipo de noticia pertenece a cada categoría. De este modo, el modelo es capaz de reconocer la categoría de noticias de cualquier artículo que vea basándose en su experiencia previa de entrenamiento.
Sin embargo, los humanos también podrían llegar a la conclusión de que clasificar las noticias basándose en las categorías predeterminadas no es lo suficientemente informativo o flexible, ya que algunas noticias pueden hablar de las tecnologías del cambio climático o de los problemas de mano de obra en una industria. Hay miles de millones de noticias, y separarlas en 40 o 50 categorías puede ser una simplificación excesiva.
En su lugar, un enfoque mejor podría ser encontrar las similitudes entre los artículos de noticias y agrupar las noticias en consecuencia. En su lugar, se buscarían clusters de noticias, en los que se agruparían artículos similares. Ya no hay categorías específicas.
Esto es lo que consigue el aprendizaje no supervisado al determinar los patrones y similitudes dentro de los datos, en lugar de relacionarlos con alguna medida externa.