El gigante tecnológico Google lanzó Gemini 1.5 Pro, un modelo de inteligencia artificial (IA) que puede procesar grandes cantidades de información de una sola vez, incluida una hora de video, once horas de audio, 30.000 líneas de código de programación o más de 700.000 palabras. Por ahora tienen acceso un grupo selecto de desarrolladores tecnológicos a modo de prueba y más adelante se haría público.
"Hace unos años, memorizar u obtener el contexto de cientos de palabras era bastante difícil, dijo a la prensa Oriol Vinyals, vicepresidente de investigación de Google DeepMind y director ejecutivo de Gemini. Para ejemplificar las capacidades de Gemini 1.5 Pro, Vinyals usó un video demostrando que el modelo era capaz de analizar un texto de 402 páginas de transcripciones del viaje en el Apolo 11 --la misión a la Luna-- y lograr identificar tres citas graciosas, lo cual significa que esta IA está comenzando a analizar el sentido de las oraciones.
Cuando esté accesible al público, los usuarios podrán solicitar la creación de fotos y dibujos. En el video se ve a un usuario proveerle a Gemini 1,5 Pro un dibujo muy sencillo de una bota pisando el suelo y le preguntó: "¿Qué momento es este? Respóndeme con una cita textual". La respuesta de la máquina fue la famosa cita del astronauta Neil Armstrong: "Ese es un pequeño paso para el hombre".
Con respecto a la programación, un comunicado de la empresa señala que Gemini 1,5 Pro "puede realizar tareas de resolución de problemas relevantes en bloques de código largos. Cuando se le presenta un mensaje con más de 100.000 líneas de código, puede sugerir modificaciones útiles y dar explicaciones sobre cómo funcionan las diferentes partes del código". "En cierto modo, funciona de manera muy similar a nuestro cerebro", explicó Vinyals.
El director ejecutivo de Google y Alphabet, Sundar Pichai, informó que Gemini 1.5 Pro ayudará a los desarrolladores ´de software a crear modelos y aplicaciones mucho más útiles: "Nos complace ofrecer una vista previa limitada de esta función experimental a desarrolladores y clientes empresariales".
En lo referente a las 'alucinaciones' --respuestas bien estructuradas pero incorrectas-- Vinyals señala que sigue siendo un problema de la IA en general en el que se sigue trabajando.
La semana pasada, Google cambió el nombre de su chatbot con inteligencia artificial (IA) de Bard a Gemini. Y anunció que esta tecnología estará disponible en la nueva aplicación Gemini para Android y a través de la aplicación de Google en iOS.
Gemini 1.5 Pro es un modelo multimodal de tamaño mediano donde la novedad es que puede razonar documentos muy extensos, desde comparar detalles de contratos hasta resumir y analizar temas y opiniones en informes de analistas, estudios de investigación o incluso una serie de libros.
Al analizar y comparar contenido a lo largo de horas de video, puede encontrar detalles específicos en imágenes deportivas u obtener información detallada de resúmenes de reuniones en video que respalden preguntas y respuestas precisas. Su sistema de chatbot puede mantener conversaciones largas sin olvidar detalles, incluso durante tareas complejas o con muchas interacciones de seguimiento. Y también habilita experiencias muy personalizadas incorporando información relevante del usuario.