A DeepMind, braço do Google focado em inteligência artificial (IA), apresentou uma nova ferramenta capaz de criar som para vídeos e descrição em texto. O recurso interpreta o comando do usuário e combina com o contexto das imagens para criar o áudio desejado.
Ainda sem nome, a solução é uma ferramenta de “vídeo para áudio” (“video-to-audio”, ou “V2A”, em inglês). A plataforma aproveita as capacidades de interpretação textual e visual dos modelos da DeepMind para gerar um áudio específico para uma variedade de contextos, incluindo músicas e diálogos.