Ferramentas generativas de IA, como Midjourney, Stable Diffusion, Leonardo.ai e DALL-E 2, nos surpreenderam com sua capacidade de produzir imagens notáveis em questão de segundos.
Uma IA geradora de imagem a partir de texto é exatamente o que você pensa que é. É uma ferramenta baseada em Inteligência Artificial que pega seu prompt(sua solicitação) de texto, o processa e cria uma imagem que melhor corresponda à descrição fornecida por você.
As IAs geradoras de texto para imagem estão se tornando cada vez mais populares, pois oferecem uma maneira mais simples de gerar imagens visualmente atraentes e relevantes para o conteúdo. Basta inserirmos uma frase solicitando que desenhe algo e bum! Lá estará a imagem criada com perfeição e em poucos segundos.
Com essas ferramentas de IA, você pode obter uma representação visual de suas ideias em pouco tempo. Na verdade, essa tecnologia revolucionária tem o poder de transformar completamente o mundo da criação de conteúdo visual! Digo mais, não somente as IAs geradoras de imagens, mas todas as generativas em geral, vai mudar e está mudando a forma como o ser humano trabalha e se comporta. Ainda digo mais, novas formas de proteção, de regulamentação de uso dessas Inteligências Artificiais serão mandatórias se quisermos ter usabilidade adequada.
Exemplos Pedindo para IAs Criarem Imagem com Texto
Abaixo exibo os testes que realizei com duas IAs,
- Leonardo.ai
- bing.com/creator ou DALL-E
O bing usa a IA DALL_E em background. Veja: É Possível Usar Dall-e de Graça para Criar Imagens?
Teste com Leonardo.ai
No leonardo.ai pedi: “crie uma moeda gravada 10 reais” e olha o resultado:
Perceba que mesma pedindo para gravar 10 reais ela, além de gravar em apenas uma das imagens, escreveu 11 ao invés de 10. Mas a qualidade das fotos é inegável. Isso temos que admitir.
Teste com Bing Image Creator
No bing também pedir que gerasse uma imagem de moeda gravada “1 real”
Os resultados escritos ainda estão longe do que imaginamos
Como podemos ver, números são mais fáceis de serem gravados nas imagens geradas, mas os textos são total fracasso. Muito decepcionante. Os números são mais fáceis no sentido de que são escritos de forma legível, mas é frustante o resultado onde a IA escreve um número que não é o que pedimos.
Ainda não descobrir o porquê desse comportamento, se é um meio de proteção, se realmente é incapacidade desses modelos generativas e futuramente irá melhorar.
IAs Geradoras de Imagens Não Sabem Escrever?
Com certeza, algumas vezes, você pediu para uma IA geradora de imagem criar uma imagem com um texto gravado nela e a imagem veio mas o texto não, ou, poucas vezes, o texto vem tremido, ou apenas rabiscos aparecem como se a Inteligência Artificial dissesse: “isso vai contra meus princípios!”
Alguém pode estar falando que as instruções que passamos para a IA ao pedir para adicionar texto não estão claras, detalhadas e bem especificadas; que precisamos Incluir informações como a posição do texto na imagem, o conteúdo do texto, a fonte, o tamanho e a cor do texto, entre outros detalhes relevantes. Mas você sabe que não se trata disso. Simplesmente, todas as Inteligências Artificiais generativas de arte(imagens) que testei se recusam a gravar textos nas imagens.
Limitações da IA com a escrita
Nós, humanos, podemos reconhecer facilmente símbolos de texto – como letras, números e caracteres – escritos em várias fontes e caligrafias diferentes. Também podemos produzir texto em diferentes contextos e entender como o contexto pode mudar o significado.
Mas os atuais geradores de imagens de IA carecem desse entendimento inerente. Eles não têm uma compreensão verdadeira do significado de qualquer símbolo de texto. Esses geradores são construídos em redes neurais artificiais treinadas em grandes quantidades de dados de imagem, a partir das quais “aprendem” associações e fazem previsões.
As combinações de formas nas imagens de treinamento estão associadas a várias entidades. Por exemplo, duas linhas voltadas para dentro que se encontram podem representar a ponta de um lápis ou o telhado de uma casa.
Segundo o site theconversation,
Mas quando se trata de texto, as associações devem ser incrivelmente precisas, pois até mesmo pequenas imperfeições são perceptíveis. Nossos cérebros podem ignorar pequenos desvios na ponta de um lápis ou em um teto – mas não tanto quando se trata de como uma palavra é escrita ou do número de dedos em uma mão.
e
No que diz respeito aos modelos de texto para imagem, os símbolos de texto são apenas combinações de linhas e formas. Como o texto vem em tantos estilos diferentes – e como letras e números são usados em arranjos aparentemente infinitos – o modelo muitas vezes não aprenderá como reproduzir o texto com eficiência.
O site ainda ponta como essa sendo a principal razão pela qual uma IA generativa de imagem tem tanta dificuldade em gravar ou escrever textos,
A principal razão para isso são os dados de treinamento insuficientes. Os geradores de imagens AI exigem muito mais dados de treinamento para representar texto e quantidades com precisão do que para outras tarefas.
O Futuro das IAs Geradoras de Imagens
É importante lembrar que a conversão de texto em imagem e texto em vídeo é um conceito relativamente novo em IA. As plataformas generativas atuais são versões de “baixa resolução” do que podemos esperar no futuro. Com os avanços nos processos de treinamento e na tecnologia de IA, os futuros geradores de imagens de IA provavelmente serão muito mais capazes de produzir visualizações precisas.
Atualmente, as IAs pagas talvez poderão oferecer resultados mais adequados para os usuários no que diz respeito a escrita de texto em imagens.
E que fique claro, estamos falando de texto em bitmap, em pixel e não em uma IA geradora de imagem ser também capaz de gerar textos como se fossem um ChatGPT ou um Bard!