¿Qué es Google Gemini?
Google Gemini — antes llamado Bard — es un chatbot de inteligencia artificial (IA) diseñado por Google para simular conversaciones humanas mediante el procesamiento del lenguaje natural (PLN) y el aprendizaje automático. Además de complementar la Búsqueda de Google, Gemini puede integrarse en sitios web, plataformas de mensajería o aplicaciones para proporcionar respuestas realistas en lenguaje natural a las preguntas de los usuarios.
Google Gemini es una familia de grandes modelos de lenguaje (LLM) de IA multimodal con capacidades de comprensión de lenguaje, audio, código y vídeo.
Gemini 1.0 se anunció el 6 de diciembre de 2023 y fue creada por la unidad de negocio Google DeepMind de Alphabet, centrada en la investigación y el desarrollo de IA avanzada. Al cofundador de Google, Sergey Brin, se le atribuye haber ayudado a desarrollar los LLM de Gemini, junto con otro personal de Google.
En su lanzamiento, Gemini era el conjunto de LLMs más avanzado de Google, lo que impulsó a Bard antes de que Bard cambiara el nombre y reemplazara el Pathways Language Model (Palm 2) de la compañía. Como fue el caso de Palm 2, Gemini se integró en múltiples tecnologías de Google para brindar capacidades de inteligencia artificial generativa.
Gemini integra capacidades de PNL, que proporcionan la capacidad de comprender y procesar el lenguaje. Gemini también sirve para comprender consultas de entrada, así como datos. Es capaz de comprender y reconocer imágenes, lo que le permite analizar elementos visuales complejos, como gráficos y figuras, sin necesidad de un reconocimiento óptico de caracteres (OCR) externo. También dispone de amplias capacidades multilingües para tareas de traducción y funcionalidad en distintos idiomas.
A diferencia de los modelos de IA anteriores de Google, Gemini es multimodal de forma nativa, lo que significa que se entrena de principio a fin en conjuntos de datos que abarcan múltiples tipos de datos. Como modelo multimodal, Gemini permite el razonamiento multimodal. Esto significa que Gemini puede razonar a través de una secuencia de diferentes tipos de datos de entrada, incluyendo audio, imágenes y texto. Por ejemplo, Gemini puede entender notas manuscritas, gráficos y diagramas para resolver problemas complejos. La arquitectura de Gemini admite la ingesta directa de texto, imágenes, formas de onda de audio y fotogramas de vídeo como secuencias intercaladas.
¿Cómo funciona Google Gemini?
Google Gemini se entrena primero con un corpus masivo de datos. Tras el entrenamiento, el modelo utiliza varias técnicas de redes neuronales para ser capaz de comprender contenidos, responder preguntas, generar textos y producir resultados.
En concreto, los LLM de Gemini utilizan una arquitectura de red neuronal basada en un modelo transformador. La arquitectura Gemini ha sido mejorada para procesar largas secuencias contextuales a través de diferentes tipos de datos, incluyendo texto, audio y vídeo. Google DeepMind utiliza mecanismos de atención eficientes en el decodificador del transformador para ayudar a los modelos a procesar contextos largos que abarcan diferentes modalidades.
Los modelos Gemini se han entrenado en diversos conjuntos de datos multimodales y multilingües de texto, imágenes, audio y vídeo con Google DeepMind utilizando el filtrado avanzado de datos para optimizar el entrenamiento. A medida que se despliegan los diferentes modelos Gemini en apoyo de servicios específicos de Google, existe un proceso de ajuste específico que puede utilizarse para optimizar aún más un modelo para un caso de uso. Tanto en la fase de entrenamiento como en la de inferencia, Gemini se beneficia del uso de los últimos chips de unidad de procesamiento tensorial de Google, TPU v5, que son aceleradores de IA personalizados y optimizados diseñados para entrenar y desplegar de forma eficiente modelos de gran tamaño.
Un reto clave para los LLMs es el riesgo de sesgo y contenido potencialmente tóxico. Según Google, Gemini se ha sometido a exhaustivas pruebas de seguridad y mitigación de riesgos como la parcialidad y la toxicidad para ayudar a proporcionar cierto grado de seguridad a los LLMs. Para garantizar aún más que Gemini funciona como debe, los modelos se probaron con referencias académicas que abarcaban los dominios del lenguaje, la imagen, el audio, el vídeo y el código. Google ha asegurado al público que se adhiere a una lista de principios de IA.
En el momento de su lanzamiento, el 6 de diciembre de 2023, se anunció que Gemini se compondría de una serie de modelos de diferentes tamaños, cada uno diseñado para un conjunto específico de casos de uso y entornos de despliegue. El modelo Ultra es el extremo superior y está diseñado para tareas muy complejas. El modelo Pro está diseñado para el rendimiento y el despliegue a escala. A partir del 13 de diciembre de 2023, Google habilitó el acceso a Gemini Pro en Google Cloud Vertex AI y Google AI Studio. En cuanto al código, se está utilizando una versión de Gemini Pro para impulsar la tecnología de codificación de IA generativa AlphaCode 2 de Google.
El modelo Nano está dirigido a casos de uso en dispositivos. Hay dos versiones diferentes de Gemini Nano: Nano-1 es un modelo de 1800 millones de parámetros, mientras que Nano-2 es un modelo de 3250 millones de parámetros. Entre los lugares en los que se está incrustando Nano se encuentra el smartphone Google Pixel 8 Pro.
¿Cuándo se lanzó por primera vez Google Bard?
Google anunció inicialmente Bard, su chatbot basado en IA, el 6 de febrero de 2023, con una fecha de lanzamiento imprecisa. Abrió el acceso a Bard el 21 de marzo de 2023, invitando a los usuarios a inscribirse en una lista de espera. El 10 de mayo de 2023, Google eliminó la lista de espera y puso Bard a disposición de los usuarios en más de 180 países y territorios. Casi exactamente un año después de su anuncio inicial, Bard pasó a llamarse Gemini.
Muchos creen que Google sintió la presión del éxito de ChatGPT y de la prensa positiva, lo que llevó a la empresa a precipitar la salida de Bard antes de que estuviera listo. Por ejemplo, durante una demostración en directo del CEO de Google y Alphabet, Sundar Pichai, respondió a una consulta con una respuesta errónea.
En la demostración, un usuario hizo a Bard la pregunta: «¿Qué nuevos descubrimientos del telescopio espacial James Webb puedo contarle a mi hijo de 9 años?». En la respuesta de Bard, se mencionaba que el telescopio «tomó las primeras imágenes de un planeta fuera de nuestro propio sistema solar». Los astrónomos no tardaron en acudir a las redes sociales para señalar que la primera imagen de un exoplaneta fue tomada por un observatorio terrestre en 2004, por lo que la respuesta de Bard era incorrecta. Al día siguiente, Google perdió 100000 millones de dólares de valor de mercado, un descenso atribuido al embarazoso error.
¿Por qué Google cambió el nombre de Bard a Gemini y cuándo ocurrió?
Bard pasó a llamarse Gemini el 8 de febrero de 2024. Gemini ya era el LLM que impulsaba Bard. Algunos creen que el cambio de nombre de la plataforma a Gemini se hizo para desviar la atención del nombre Bard y de las críticas que recibió el chatbot cuando se lanzó por primera vez. También simplificó los esfuerzos de Google en materia de IA y se centró en el éxito del LLM Gemini.
El cambio de nombre también tiene sentido desde el punto de vista del marketing, ya que Google pretende ampliar sus servicios de IA. Es una forma de que Google dé a conocer su oferta de LLM avanzado, ya que la democratización y los avances de la IA no muestran signos de desaceleración.
¿Quién puede utilizar Google Gemini?
Gemini está ampliamente disponible en todo el mundo. Gemini Pro está disponible en más de 230 países y territorios, mientras que Gemini Advanced está disponible en más de 150 países en el momento de escribir este artículo. Sin embargo, existen límites de edad para cumplir con las leyes y normativas que regulan la IA.
Los usuarios deben tener al menos 18 años y una cuenta personal de Google. Sin embargo, las restricciones de edad varían para la aplicación web Gemini. En Europa, los usuarios deben ser mayores de 18 años. En otros países en los que la plataforma está disponible, la edad mínima es de 13 años, a menos que las leyes locales especifiquen lo contrario. Además, los usuarios menores de 18 años sólo pueden utilizar la aplicación web Gemini en inglés.
¿Es gratuito el uso de Gemini?
Cuando Bard estuvo disponible, Google no dio ninguna indicación de que cobraría por su uso. Google no tiene antecedentes de cobrar a los clientes por sus servicios, salvo por el uso a nivel empresarial de Google Cloud. Se suponía que el chatbot se integraría en el motor de búsqueda básico de Google y, por tanto, su uso sería gratuito.
Tras cambiar el nombre de Bard a Gemini el 8 de febrero de 2024, Google introdujo un nivel de pago además de la aplicación web gratuita. Actualmente, Pro y Nano son de uso gratuito mediante registro. Sin embargo, los usuarios sólo pueden acceder a Ultra a través de la opción Gemini Advanced por 20 dólares al mes. Los usuarios se registran en Gemini Advanced a través de una suscripción a Google One AI Premium, que también incluye funciones de Google Workspace y 2 terabytes de almacenamiento.
¿Para qué puedes usar Gemini? Casos de uso y aplicaciones
Los modelos de Google Gemini se utilizan de muchas maneras diferentes, incluyendo la comprensión de texto, imágenes, audio y vídeo. La naturaleza multimodal de Gemini también permite combinar estos diferentes tipos de datos de entrada para generar resultados.
Casos de uso
Las empresas pueden utilizar Gemini para realizar diversas tareas, entre las que se incluyen las siguientes:
- Resumen de textos. Los modelos Gemini pueden resumir contenidos a partir de diferentes tipos de datos.
- Generación de texto. Gemini puede generar texto basándose en las indicaciones del usuario. Ese texto también puede estar controlado por una interfaz de chatbot de tipo preguntas y respuestas.
- Traducción de textos. Los modelos Gemini tienen amplias capacidades multilingües, lo que permite la traducción y comprensión de más de 100 idiomas.
- Comprensión de imágenes. Gemini puede analizar imágenes complejas, como gráficos, figuras y diagramas, sin necesidad de herramientas externas de reconocimiento óptico de caracteres. Puede utilizarse para subtitular imágenes y realizar preguntas y respuestas visuales.
- Procesamiento de audio. Gemini es compatible con el reconocimiento de voz en más de 100 idiomas y con tareas de traducción de audio.
- Comprensión de vídeo. Gemini puede procesar y comprender fotogramas de videoclips para responder a preguntas y generar descripciones.
- Razonamiento multimodal. Uno de los puntos fuertes de Gemini es el uso del razonamiento multimodal de la inteligencia artificial, que permite mezclar distintos tipos de datos para que una pregunta genere un resultado.
- Análisis y generación de código. Gemini puede entender, explicar y generar código en lenguajes de programación populares, como Python, Java, C++ y Go.
Aplicaciones
Google ha desarrollado Gemini como un modelo básico que puede integrarse ampliamente en varios servicios de Google. También está disponible para que los desarrolladores lo utilicen en la creación de sus propias aplicaciones. Entre las aplicaciones que utilizan Gemini se incluyen las siguientes:
- AlphaCode 2. La herramienta de generación de código AlphaCode 2 de Google DeepMind utiliza una versión personalizada de Gemini Pro.
- Google Pixel. El teléfono inteligente Pixel 8 Pro construido por Google es el primer dispositivo diseñado para ejecutar Gemini Nano. Gemini impulsa nuevas funciones en las aplicaciones existentes de Google, como el resumen en Recorder y Smart Reply en Gboard para aplicaciones de mensajería.
- Android 14. El Pixel 8 Pro es el primer smartphone Android que se beneficia de Gemini. Los desarrolladores de Android pueden construir con Gemini Nano a través de la capacidad del sistema AICore.
- Vertex AI. El servicio Vertex AI de Google Cloud, que proporciona modelos de base que los desarrolladores pueden usar para construir aplicaciones, también proporciona acceso a Gemini Pro.
- Google AI Studio. Los desarrolladores pueden crear prototipos y aplicaciones con Gemini a través de la herramienta web Google AI Studio.
- Búsqueda. Google está experimentando con el uso de Gemini en su Experiencia Generativa de Búsqueda para reducir la latencia y mejorar la calidad.
¿Cuáles son las limitaciones de Gemini?
Algunas limitaciones pueden provocar dudas entre los posibles usuarios finales. Entre ellas se incluyen las siguientes:
- Datos de entrenamiento. Como todos los chatbots de IA, Gemini debe aprender a dar respuestas correctas. Para ello, los modelos deben entrenarse con información correcta que no sea inexacta o engañosa. Sin embargo, también deben ser capaces de identificar la información incorrecta o engañosa cuando se les presente.
- Sesgo y daño potencial. El entrenamiento de la IA es un proceso interminable que requiere muchos recursos informáticos, porque siempre hay nueva información que aprender. En todos los modelos Gemini, Google ha afirmado que ha seguido prácticas de desarrollo responsables, incluida una evaluación exhaustiva para ayudar a limitar el riesgo de sesgo y daño potencial.
- Originalidad y creatividad. Existen límites a la originalidad y creatividad de los contenidos que produce Gemini. Este es especialmente el caso de la versión gratuita, que ha tenido problemas para procesar indicaciones complicadas, con múltiples pasos y matices, y producir resultados adecuados. La versión gratuita se basa en el LLM Gemini Pro, cuyas capacidades son más limitadas; las versiones de pago de la plataforma ofrecen acceso a funciones más avanzadas.
¿Cuáles son las preocupaciones sobre Gemini?
Una de las preocupaciones que suscita Gemini es la posibilidad de que presente información sesgada o falsa a los usuarios. Cualquier sesgo inherente a los datos de entrenamiento suministrados a Gemini podría suscitar recelos entre los usuarios. Por ejemplo, como ocurre con todos los programas avanzados de inteligencia artificial, los datos de entrenamiento que excluyen a determinados grupos de una población dada darán lugar a resultados sesgados.
La propensión de Gemini a generar alucinaciones y otras invenciones y transmitirlas a los usuarios como verdaderas también es motivo de preocupación. Este ha sido uno de los mayores riesgos de las respuestas de ChatGPT desde su inicio, al igual que con otras herramientas avanzadas de inteligencia artificial. Además, dado que Gemini no siempre comprende el contexto, es posible que sus respuestas no siempre sean relevantes para las indicaciones y consultas que brindan los usuarios.
¿En qué idiomas está disponible Gemini?
Gemini puede utilizarse en más de 45 idiomas. Puede traducir entradas de texto a diferentes idiomas con una precisión casi humana. Google tiene previsto ampliar las capacidades de comprensión lingüística de Gemini y hacerlo omnipresente. Sin embargo, hay factores importantes a tener en cuenta, como las prohibiciones de contenidos generados por LLM o los esfuerzos reguladores en curso en varios países que podrían limitar o impedir el uso futuro de Gemini.
Además de la traducción, Gemini ofrece otras funciones en distintos idiomas. Por ejemplo, es capaz de realizar razonamientos matemáticos y resúmenes en varios idiomas. También puede generar pies de foto para una imagen en distintos idiomas.
¿Está disponible la generación de imágenes en Gemini?
Tras el lanzamiento de Gemini, Google promocionó su capacidad para generar imágenes del mismo modo que otras herramientas de IA generativa, como Dall-E, Midjourney y Stable Diffusion. En la actualidad, Gemini utiliza el modelo de conversión de texto a imagen Imagen 2 de Google, que dota a la herramienta de capacidades de generación de imágenes.
Sin embargo, a finales de febrero de 2024, la función de generación de imágenes de Gemini se detuvo para someterse a una remodelación después de que se demostrara que las imágenes generadas mostraban inexactitudes factuales. Google pretende mejorar la función para que Gemini pueda seguir siendo multimodal a largo plazo.
Antes de que Google interrumpiera el acceso a la función de creación de imágenes, los resultados de Gemini variaban de simples a complejos, dependiendo de las entradas del usuario final. Los usuarios podían proporcionar instrucciones descriptivas para obtener imágenes específicas. Se requería un sencillo proceso paso a paso para que un usuario introdujera una instrucción, viera la imagen generada por Gemini, la editara y la guardara para su uso posterior.
Gemini vs GPT-3 y GPT-4
Google Gemini es un competidor directo de los modelos GPT-3 y GPT-4 de OpenAI. En la siguiente tabla se comparan algunas características clave de los productos Google Gemini y OpenAI.
Gemini | GPT-3 y GPT-4 | |
---|---|---|
Desarrollador | Google DeepMind | OpenAI |
Interfaz de chatbot | Gemini; anteriormente Bard | ChatGPT |
Modalidad | Multimodal; capacitado en texto, imágenes, audio y video. | Construido originalmente como un modelo de lenguaje de sólo texto; GPT-4 es multimodal |
Variaciones del modelo | Variaciones basadas en el tamaño, incluidas Ultra, Pro y Nano | Optimizaciones de tamaño, incluidos GPT-3.5 Turbo y GPT-4 Turbo |
Longitud de la ventana de contexto | 32000 tokens | 32000 tokens |
Google Gemini vs ChatGPT
Tanto Gemini como ChatGPT son chatbots de IA diseñados para interactuar con personas a través de PNL y aprendizaje automático. Ambos utilizan un LLM subyacente para generar y crear texto conversacional.
ChatGPT utiliza IA generativa para producir contenido original. Por ejemplo, los usuarios pueden pedirle que escriba una tesis sobre las ventajas de la IA. Gemini también utiliza IA generativa. Ambos están orientados a hacer que la búsqueda sea más natural y útil, así como a sintetizar nueva información en sus respuestas.
En enero de 2023, Microsoft firmó un acuerdo por valor de 10 mil millones de dólares con OpenAI para licenciar e incorporar ChatGPT en su motor de búsqueda Bing para proporcionar resultados de búsqueda más conversacionales, similar a Google Bard en ese momento. Eso abrió la puerta para que otros motores de búsqueda obtuvieran licencias de ChatGPT, mientras que Gemini sólo admite Google.
Otra similitud entre los dos chatbots es su potencial para generar contenido plagiado y su capacidad para controlar este problema. Ni Gemini ni ChatGPT tienen funciones integradas de detección de plagio en las que los usuarios puedan confiar para verificar que los resultados sean originales. Sin embargo, existen herramientas independientes para detectar plagio en contenido generado por IA, por lo que los usuarios tienen otras opciones. Gemini puede citar otro contenido en sus respuestas y vincular a fuentes. La función de doble verificación de Gemini proporciona URL a las fuentes de información de las que extrae para generar contenido basado en un prompt.
Alternativas a Google Gemini
Gemini no surgió de la nada. Los chatbots de IA existen desde hace un tiempo, en formas menos versátiles. Varias empresas emergentes tienen tecnologías de chatbot similares, pero sin la atención que ha recibido ChatGPT.
Ejemplos de competidores de chatbots Gemini que generan texto o código original, como lo menciona Audrey Chee-Read, analista principal de Forrester Research, y otros expertos de la industria, incluyen los siguientes:
Chatsonic
Comercializado como una «alternativa a ChatGPT con superpoderes», Chatsonic es un chatbot de IA impulsado por la Búsqueda de Google con un generador de texto basado en IA, Writesonic, que permite a los usuarios discutir temas en tiempo real para crear texto o imágenes.
Claude
Claude de Anthropic es un chatbot impulsado por IA que lleva el nombre del LLM subyacente que lo impulsa. Se ha sometido a pruebas rigurosas para garantizar que cumple con los estándares éticos de IA y que no produce resultados ofensivos o inexactos.
Copy.ai
Copy.ai se creó originalmente para ayudar a los equipos de ventas y marketing. Genera texto original, como publicaciones en redes sociales, blogs, correos electrónicos y otros tipos de contenido, y también automatiza las tareas del flujo de trabajo.
Copilot de GitHub
Copilot se especializa en generación de código para desarrolladores. El objetivo es simplificar las tediosas tareas de desarrollo de software involucradas en la producción de software moderno. Si bien no está diseñado para la generación de texto, sirve como una alternativa viable a ChatGPT o Gemini para la generación de código.
Jasper Chat
Jasper Chat es una herramienta de inteligencia artificial conversacional que se centra en generar texto. Está dirigido a empresas que buscan crear contenido relevante para la marca y mantener conversaciones con los clientes. Permite a los creadores de contenido especificar palabras clave de optimización de motores de búsqueda y tono de voz en sus indicaciones.
Microsoft Bing
Microsoft y su asociación con Open AI ofrecen exactamente lo que Google hace con Gemini: búsqueda impulsada por IA que reconoce consultas en lenguaje natural y brinda respuestas en lenguaje natural. Cuando un usuario realiza una consulta de búsqueda, recibe los resultados de búsqueda estándar de Bing y una respuesta generada por GPT-4, así como la capacidad de interactuar con la IA con respecto a su respuesta.
SpinBot
Esta herramienta de IA generativa se especializa en la generación de texto original, así como en reescribir contenido y evitar el plagio. Maneja otras tareas simples para ayudar a los profesionales en tareas de redacción, como la corrección de pruebas.
YouChat
YouChat es el chatbot de IA del motor de búsqueda You.com con sede en Alemania. YouChat responde preguntas y proporciona citas de sus respuestas para que los usuarios puedan revisar las fuentes y verificar sus respuestas.
La historia y el futuro de Gemini
Gemini, bajo su nombre original Bard, se diseñó inicialmente en torno a la búsqueda. Su objetivo era permitir consultas en lenguaje más natural, en lugar de palabras clave, para la búsqueda. Su IA fue entrenada en torno a consultas y respuestas conversacionales que suenan naturales. En lugar de dar una lista de respuestas, proporcionó contexto a las respuestas. Bard fue diseñado para ayudar con preguntas de seguimiento: algo nuevo para buscar. También tenía una función para compartir conversación y una función de doble verificación que ayudaba a los usuarios a verificar los resultados generados.
Bard también se integró con varias aplicaciones y servicios de Google, incluidos YouTube, Maps, Hotels, Flights, Gmail, Docs y Drive, permitiendo a los usuarios aplicar la herramienta de inteligencia artificial a su contenido personal.
La primera versión de Bard utilizó una versión de modelo más ligero de Lamda que requería menos potencia informática para escalar a más usuarios simultáneos. La incorporación del modelo de lenguaje Palm 2 permitió a Bard ser más visual en sus respuestas a las consultas de los usuarios. Bard también incorporó Google Lens, lo que permite a los usuarios cargar imágenes además de indicaciones escritas. La incorporación posterior del modelo de lenguaje Gemini permitió un razonamiento, planificación y comprensión más avanzado.
Luego, como parte del lanzamiento inicial de Gemini el 6 de diciembre de 2023, Google brindó orientación sobre el futuro de sus LLMs de próxima generación. Si bien Google anunció Gemini Ultra, Pro y Nano ese día, no puso Ultra a disposición al mismo tiempo que Pro y Nano. Inicialmente, Ultra solo estaba disponible para clientes, desarrolladores, socios y expertos seleccionados; se lanzó por completo en febrero de 2024.
El futuro de Gemini también pasa por una implementación más amplia e integraciones en todo el portafolio de Google. Gemini eventualmente se incorporará al navegador Google Chrome para mejorar la experiencia web de los usuarios. Google también se ha comprometido a integrar Gemini en la plataforma Google Ads, proporcionando a los anunciantes nuevas formas de conectarse e involucrar a los usuarios. El asistente Duet AI también se beneficiará de Gemini en el futuro.
El 15 de febrero de 2024, Google anunció las primeras pruebas de Gemini 1.5. Esta versión está optimizada para una variedad de tareas en las que se desempeña de manera similar a Gemini 1.0 Ultra, pero con una característica experimental adicional centrada en la comprensión de contextos prolongados. Según Google, las primeras pruebas muestran que Gemini 1.5 Pro supera a 1.0 Pro en aproximadamente el 87% de los puntos de referencia de Google establecidos para desarrollar LLM. Se esperan pruebas continuas hasta que se anuncie el lanzamiento completo de 1.5 Pro.