OpenAI expande capacidades de voz e imagen en ChatGPT

29/09/2023

OpenAI expande capacidades de voz e imagen en ChatGPT

OpenAI, creadora de ChatGPT, anunció en su sitio web que está comenzando a implementar nuevas capacidades de voz e imagen en la popular plataforma de inteligencia artificial.

Estas nuevas funcionalidades prometen brindar a los usuarios una experiencia más inmersiva y versátil en su interacción con la IA.

La compañía planea ofrecer acceso a estas capacidades a usuarios de Plus y Enterprise en las próximas semanas, y luego a otros grupos de usuarios, como desarrolladores. Esta estrategia gradual le permite mejorar las herramientas y perfeccionar las medidas de seguridad a medida que avanza hacia sistemas más poderosos en el futuro, según explicaron.

Habla con ChatGPT y recibe una respuesta

Una de las nuevas características más destacadas es la posibilidad de mantener conversaciones de ida y vuelta con ChatGPT utilizando la voz, utilizando un asistente de voz.

Para comenzar a usar esta funcionalidad, los usuarios deben dirigirse a la configuración en la aplicación móvil, seleccionar «Nuevas Funciones» y habilitar las conversaciones por voz. Una vez configurado, pueden elegir entre cinco voces diferentes para personalizar su experiencia.

Procesamiento de imágenes

Además, OpenAI ha introducido la capacidad de procesar imágenes en ChatGPT. Así, los usuarios pueden mostrar una o varias imágenes a la IA para obtener información o soluciones a sus consultas. Por ejemplo, un usuario podría mostrar a la plataforma una foto del contenido de su refrigerador para obtener un menú con los productos que tiene, o pedir ayuda para analizar un gráfico complejo.

Para utilizar esta función, se debe tocar el botón de la cámara para capturar o seleccionar una imagen, e incluso utilizar la herramienta de dibujo en la aplicación móvil si se desea enfocar en una parte específica de la imagen.

El poder detrás de la tecnología

Estas capacidades son posibles gracias a los modelos multimodales GPT-3.5 y GPT-4, que aplican su razonamiento lingüístico a una amplia variedad de imágenes, incluyendo fotografías, capturas de pantalla y documentos que contienen texto e imágenes.

OpenAI trabajó en colaboración con actores de voz profesionales para garantizar la calidad de las voces en sus conversaciones. Además, utiliza Whisper, su sistema de reconocimiento de voz de código abierto, para transcribir las palabras habladas.

Enfoque en seguridad

En su comunicado, OpenAI se muestra consciente de los riesgos que estas capacidades de voz y visión pueden presentar. Por esta razón, está aplicando estas tecnologías de manera específica, como el chat de voz, donde han colaborado con actores de voz y otros socios, como Spotify, plataforma que está utilizando la tecnología para expandir la traducción de podcasts.

En cuanto a la visión, OpenAI se ha centrado en que la tecnología sea útil y segura, con la capacidad de analizar imágenes, pero con medidas técnicas para proteger la privacidad de las personas. Además, la compañía es transparente acerca de las limitaciones del modelo y alienta un uso responsable.

Por Asociación Nacional de Avisadores de Chile

_{Image by Freepik}

También te podría interesar: https://www.anda.cl/cybermonday-caza-ofertas-y-planificadores-seran-los-mas-interesados-en-este-nuevo-evento-online/