Según un informe de Webmaster's Home del 8 de agosto, ICCV2023, la principal conferencia académica internacional sobre visión por computadora, aceptó un artículo académico "Traducción general de imagen a imagen con guía de imagen de un disparo" de Netease Interactive AI Lab. El artículo propone una técnica de edición de imágenes llamada VCT (Visual Concept Transformer), que puede transferir objetos o estilos a una imagen de origen desde una imagen de referencia sin modificar la estructura general de la imagen de origen. En comparación con los esquemas anteriores, VCT tiene varias ventajas: no requiere una gran cantidad de datos de entrenamiento, y la calidad de generación y la generalización son mejores; utiliza imágenes como guía de referencia para lograr una edición de imágenes más precisa; no requiere información de control adicional , directamente desde la fuente Las imágenes y las imágenes de referencia aprenden información estructural y semántica para generar imágenes.