La competencia por ver qué chatbot es más inteligente, más creativo y, ahora, más visual, se ha puesto seria. Google sorprendió a todos al lanzar mejoras para su modelo Gemini, específicamente su generador de imágenes Flash 2.0.
PUBLICIDAD
Te puede interesar: [Google está implementando nuevas funciones de video con inteligencia artificial]
¿La sorpresa? Su habilidad para quitar marcas de agua dejó a más de uno con la boca abierta (y con preguntas éticas en la cabeza).
Pero OpenAI no se quedó quieto. En respuesta directa, actualizó la generación de imágenes de ChatGPT con su flamante modelo GPT-4o. Y sí, esta nueva versión viene con todo: más detalles, más control y, según ellos, mucho más realismo.
Así que si creías que los chatbots solo servían para escribir cosas, prepárate: ahora también compiten para ver quién genera la imagen más impresionante.
De DALL·E 3 a GPT-4o: el salto visual de ChatGPT
Hasta hace poco, ChatGPT usaba el modelo DALL·E 3 para generar imágenes. Buenas, sí, pero con sus limitaciones. Con la llegada de GPT-4o, OpenAI le dio un cambio radical a esta función.
Esta nueva versión reemplaza por completo a DALL·E 3 y está disponible para usuarios de planes Plus, Pro, Team y hasta en el plan gratuito. Y no solo eso: pronto estará habilitada para empresas, escuelas y desarrolladores mediante API.
PUBLICIDAD
¿La promesa? Imágenes mucho más detalladas, precisas y útiles para tareas complejas. Aunque, ojo, lograr estos resultados puede tomar un poquito más de tiempo. Paciencia, que vale la pena.
¿Qué tan buena es esta nueva herramienta de imágenes?
GPT-4o con generación de imágenes viene con varias mejoras que la ponen a competir seriamente con lo que ofrece Google.
Por ejemplo, representa mejor el texto (sí, ahora escribir cosas en imágenes no es un desastre), puede editar o transformar imágenes existentes, inspirarse en otras que ya le diste, y manejar múltiples estilos, desde fotorrealismo hasta arte más experimental.
También es mucho más coherente cuando se trata de generar imágenes con varios elementos. Es decir, si le pides un dragón abrazando a un cactus sobre una montaña de pizza, probablemente te lo entregue sin que todo se vea como una mezcla extraña salida de un mal sueño digital.
¿Todo perfecto? No exactamente
Como buen modelo en evolución, GPT-4o todavía tiene sus tropiezos. Puede fallar al recortar imágenes largas, representar idiomas no latinos, o mostrar detalles diminutos con precisión.
A veces también “alucina”, es decir, se inventa cosas que no pediste, sobre todo si la instrucción que le das es vaga o muy general. Así que mientras más claro seas, mejores resultados tendrás.
Seguridad ante todo: ChatGPT no quiere escándalos
OpenAI ha puesto reglas claras para evitar que esta herramienta se use con fines problemáticos. Todas las imágenes generadas incluyen metadatos C2PA, lo que significa que pueden rastrearse hasta su origen.
Además, ChatGPT bloquea directamente las solicitudes que impliquen crear contenido sensible, como imágenes ofensivas, deepfakes o material abusivo.
Es un movimiento clave en una época donde la IA visual puede ser tanto una maravilla como un arma. Y OpenAI parece haber aprendido que no solo se trata de generar, sino de generar con responsabilidad.
Una guerra de imágenes donde todos ganamos (más o menos)
Entre el poder de generación de imágenes de Gemini y las mejoras de GPT-4o, está claro que la carrera por dominar la IA creativa está más viva que nunca. Ambos sistemas tienen fortalezas, limitaciones y estilos diferentes.
Te puede interesar: [¿Una nueva oportunidad? Estas son las actualizaciones del software de Meta Quest 3]
Pero si eres creador, diseñador, o simplemente un curioso con buenas ideas, estás en el mejor momento para experimentar con estas herramientas. Porque si el texto fue el inicio… el futuro, claramente, también se verá increíble.