Impressionante a nova foto de Inteligência Artificial do Google torna o ‘Zoom e aprimoramento’ uma coisa real

Compartilhe

Você pode muito bem ter visto filmes de ficção científica ou programas de televisão em que o protagonista pede para aumentar o zoom em uma imagem e melhorar os resultados – revelando um rosto, uma placa de número ou qualquer outro detalhe importante – e os mais novos mecanismos de inteligência artificial do Google , com base no que é conhecido como modelos de difusão, são capazes de realizar esse mesmo truque.

É um processo difícil de dominar, porque essencialmente o que está acontecendo é que detalhes da imagem estão sendo adicionados que a câmera não capturou originalmente, usando algumas suposições superinteligentes com base em outras imagens de aparência semelhante.

A técnica é chamada de síntese natural de imagem pelo Google e, neste cenário particular, super-resolução de imagem. Você começa com uma foto pequena, em blocos e pixelizada, e acaba com algo nítido, claro e de aparência natural. Pode não corresponder exatamente ao original, mas é perto o suficiente para parecer real a um par de olhos humanos.

GoogleUpscaling2
(Pesquisa Google)

O Google realmente revelou duas novas ferramentas de IA para o trabalho. O primeiro é chamado SR3, ou Super-Resolução via Refinamento Repetido , e funciona adicionando ruído ou imprevisibilidade a uma imagem e, em seguida, revertendo o processo e removendo-o – da mesma forma que um editor de imagens pode tentar melhorar as fotos das suas férias.

“Os modelos de difusão funcionam corrompendo os dados de treinamento ao adicionar progressivamente ruído gaussiano , apagando lentamente os detalhes dos dados até que se tornem ruído puro e, em seguida, treinando uma rede neural para reverter esse processo de corrupção”, explicam o cientista pesquisador Jonathan Ho e o engenheiro de software Chitwan Saharia do Google Research .

Por meio de uma série de cálculos de probabilidade baseados em um vasto banco de dados de imagens e alguma mágica de aprendizado de máquina , SR3 é capaz de imaginar como seria uma versão de resolução total de uma imagem em bloco de baixa resolução. Você pode ler mais sobre isso no artigo que o Google postou no arXiv .

A segunda ferramenta é o CDM, ou Modelos de Difusão em Cascata . O Google os descreve como “pipelines” por meio dos quais os modelos de difusão – incluindo SR3 – podem ser direcionados para atualizações de resolução de imagem de alta qualidade. Ele pega os modelos de aprimoramento e faz imagens maiores com eles, e o Google publicou um artigo sobre isso também.

Usando diferentes modelos de aprimoramento em diferentes resoluções, a abordagem do CDM é capaz de superar métodos alternativos para o upsizing de imagens, diz o Google. O novo mecanismo de IA foi testado no ImageNet , um banco de dados gigantesco de imagens de treinamento comumente usado para pesquisa de reconhecimento visual de objetos.

Os resultados finais do SR3 e do CDM são impressionantes. Em um teste padrão com 50 voluntários humanos, as imagens geradas pelo SR3 de rostos humanos foram confundidas com fotos reais cerca de 50 por cento das vezes – e considerando que um algoritmo perfeito deveria atingir uma pontuação de 50 por cento, isso é impressionante.

Vale a pena reiterar que essas imagens aprimoradas não são correspondências exatas com os originais, mas são simulações cuidadosamente calculadas com base em algumas matemáticas de probabilidade avançadas.

O Google diz que a abordagem de difusão produz melhores resultados do que opções alternativas, incluindo redes adversárias gerativas (GANs) que colocam duas redes neurais uma contra a outra para refinar os resultados.

GoogleUpscaling2(Pesquisa Google)

O Google está prometendo muito mais com seus novos mecanismos de IA e tecnologias associadas – não apenas em termos de aumento da escala de imagens de rostos e outros objetos naturais, mas também em outras áreas de modelagem de probabilidade.

“Estamos entusiasmados para testar ainda mais os limites dos modelos de difusão para uma ampla variedade de problemas de modelagem generativa” , explica a equipe .

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

www.clmbrasil.com.br