GPT4-Vision tiene problemas con Hackeos

octubre 30, 2023

[Prompt: GPT4-Vision Hacking Issues, in dynamics style, high dynamic range, hyper realistic, highly detailed, 8K, intense close, uhd image']

GPT-4, uno de los modelos de inteligencia artificial más avanzados, se ha vuelto vulnerable a un tipo de ataque que utiliza imágenes con texto para engañar su sistema de visión.

A pesar de contar con exhaustivos controles de seguridad y contramedidas, el sistema de visión de GPT-4 es vulnerable a lo que se conoce como "inyección de indicaciones" o "prompt injections," que engañan a los modelos de inteligencia artificial en tareas que normalmente no deberían realizar, como generar texto ofensivo.

Estos ataques pueden tomar diversas formas, desde palabras específicas hasta engañar al modelo sobre el contenido o su función. Un ejemplo de esto es presentar una fotografía al modelo como una pintura, lo que lo lleva a burlarse de las personas en la imagen, algo que no haría normalmente con una foto, ya que no se supone que describa personas en imágenes.

[Prompt: Hackers from Twitter, in dynamics style, high dynamic range, hyper realistic, highly detailed, 8K, intense close, uhd image']

Los usuarios tempranos de GPT-4 han demostrado en Twitter lo fácil que es explotar esta capacidad de análisis de imágenes para realizar ataques. Por ejemplo, algunos han insertado instrucciones ocultas en imágenes, similares a marcas de agua, para que el modelo siga las indicaciones, incluso si estas son invisibles para las personas. Otros han utilizado esta técnica para alterar currículums o engañar a sistemas de contratación basados en el análisis de imágenes.

En un ejemplo más evidente, un atacante inserta código malicioso en el globo de diálogo de una imagen de dibujo animado, lo que permite al modelo leer el texto en el globo y ejecutar el código de la manera indicada. Esto representa un riesgo potencial de seguridad, ya que la información de un chat podría ser enviada a un servidor externo si estas imágenes se cargan en GPT-4.

OpenAI es consciente de los riesgos de estos ataques, que califican como "text-screenshot jailbreak prompt," y han tomado medidas para reducir el riesgo en la versión de lanzamiento de GPT-4. Sin embargo, ejemplos recientes muestran que todavía es posible realizar ataques exitosos.

Este tipo de ataques también plantea problemas con la detección de contenido inapropiado, ya que las imágenes manipuladas pueden evadir fácilmente las técnicas de búsqueda de textos inapropiados. Aunque se están tomando medidas para abordar esta vulnerabilidad, sigue siendo un desafío importante para la comunidad de inteligencia artificial.

En resumen, el texto en imágenes se ha convertido en una forma efectiva de burlar el sistema de visión de GPT-4, lo que plantea desafíos de seguridad y éticos en la detección y prevención de contenido inapropiado. A pesar de los esfuerzos por abordar esta vulnerabilidad, sigue siendo un problema en evolución en el campo de la inteligencia artificial.

Fuente de Información:

All You need is an image with some text - https://the-decoder.com/to-hack-gpt-4s-vision-all-you-need-is-an-image-with-some-text-on-it/

Procesamiento de texto realizado gracias a:
OpenAI - https://chat.openai.com/

Procesamiento de imagen realizado gracias a:
HuggingFace - https://hugginface.co/

Buscar este blog

AI en Corto

GPT4-Vision tiene problemas con Hackeos

Comentarios

Publicar un comentario

Entradas más populares de este blog

Flet: Aplicaciones Interactivas con Python

Docker: Introducción a Contenedores e Imágenes

Machine Learning: ¿Qué es el Aprendizaje Automático?