☄️ Essa newsletter *também* não existe
uma história contada por gatinhos usando chapéu de palha, criaturas mitológicas e cometas, pra variar.
*tentando recuperar o fôlego e a coragem pra escrever depois dessa troca toda de serviços, nova leva de assinaturas e tudo mais. algo no meu eu-sabotador me diz que eu preciso acertar no milhar a escrita dessa edição, porque é a primeira que as pessoas vão receber nesse novo serviço que, espero, realmente vai entregar os e-mails. o eu-sabotador é um saco. sai do meu pé, cara.
☄️
Lembra daquela edição d’O Cometa, enviada no dia 29 de março, que falava sobre imagens que não existem? As chances são de que você não se lembre - não porque aquela edição não existiu, já que ela de fato foi escrita e enviada, e sim porque ela provavelmente acabou chegando no seu spam. Pois é: Plataforma de newsletter nova, vida nova, assunto reciclado. Vim falar, de novo, sobre imagens que não existem!
De qualquer forma, se você realmente não leu aquela, recomendo que pelo menos dê uma passada de olho pra sacar, mais ou menos, qual era a ideia da coisa.
Explicando o assunto reciclado: Foi uma questão de timing bom e ruim. Bom por eu ter abordado logo o boom da geração artificial de imagens que rolou esse ano. Ruim por eu ter feito isso logo antes do seu principal expoente ganhar o protagonismo que tem hoje. Em coisa de, sei lá, um mês depois de eu ter enviado aquela edição, um novo serviço começou a decolar, mostrando resultados tão impressionantes que em pouco tempo praticamente monopolizou a cena: O DALL·E 2.
🤖
Diferentemente das iniciativas que citei na newsletter de março, que atendiam - muito bem, aliás - a uma única categoria dentro do universo da geração de imagens (This Person Does Not Exist para rostos de pessoas, NVidia Canvas para paisagens e Wombo.art para imagens surreais em estilos fantásticos), o DALL·E 2 meio que consegue fazer… tudo? Ou tudo que você imaginar, porque às vezes questiono se minha capacidade de abstração não é menor que a capacidade de geração do negócio. Basicamente, cabe a você dizer o que - e em qual estilo visual - quer. Para cada prompt (que é como se chamam esses conjuntos de instruções que a parte humana fornece à inteligência artificial), quatro imagens são geradas e você ainda tem a chance de desenvolver melhor cada uma dessas quatro, tomando-a como ponto de partida para gerações subsequentes, apagando partes dela que que trocar ou até expandindo o frame com ainda mais material gerado.
Mas o que é, exatamente, o DALL·E?
Pelo nome já dá pra ter uma ideia: É, literalmente, a mistura do Wall·E (um robô), com o Dalí (um artista). Porém, de acordo com sua página About:
DALL·E é um sistema de Inteligência Artificial desenvolvido pela OpenAI que consegue criar imagens realistas e artes originais a partir de uma descrição textual curta.
Ficamos na mesma, né?
Basicamente, é um sistema que identifica descrições de milhões de imagens e aprende a entender o que representa cada uma daquelas descrições. Além disso, começa a imaginar como descrições diferentes se misturam (no nosso caso, a descrição “gato calico” e a descrição “chapéu de palha”). O canal da OpenAI no YouTube tem um vídeo (em inglês) que explica de maneira acessível (e até bem pouco precisa - e quem é que quer entrar nas matemáticas da coisa, né? eu) o funcionamento da coisa.
🎟️
Mas em 2022 o internauta que só quer gerar centenas de imagens de gatinho com chapéu de palha não pode ser feliz: O acesso é controlado. Primeiro que existe uma lista de espera (você pode se inscrever aqui!), tipo o novo orkut, sabe? Depois que os créditos são limitados: Existem cotas mensais de usos gratuitos. Tendo queimado todos, só comprando mais ou esperando virar o mês.
🎨
E, pra mim, um dos principais fatores que ajudam no processo de queimar esses créditos e ter vontade de passar dias gerando imagens sem parar é o entendimento que a plataforma tem de estilos visuais, que constituem algo mais próximo da parte subjetiva da nossa percepção. Digo: Eu querer um gato usando chapéu de palha é uma coisa - outra coisa é eu querer uma pintura cubista de um gato usando um chapéu de palha, certo?
E é aqui que mora o meu fascínio total pela coisa: Essa fronteira do que a gente consegue imaginar como assunto (um gato usando chapéu de palha) com o que a gente precisa ver como resultado (uma foto realista, uma pintura cubista, um desenho feito à mão). Fico me perguntando como é que a gente realmente imagina alguma coisa e em um monte de teoria de imagem e semiótica que levaria qualquer leitor a um gostoso soninho. A gente só pensa no conceito? Ou a gente já pensa em imagem? Pensar é… visual? Ou a gente só formula uma coisa no cérebro e depois os olhos que se virem pra enxergar no mundo real? Não sei dizer (e imagino que existam centenzas de estudos que saibam), mas fico feliz em ter esse tipo de estímulo mezzo artístico, mezzo filosófico enquanto uso o serviço.
🐲
Pra deixar escancarada essa questão de estética, uma experiência: Parti de uma mesma base - “Criatura mitológica encontrada nas profundezas da floresta amazônica, Brasil.” - e adicionei diferentes toppings (como eu batizei os estilos visuais que finalizam os pedidos): “Fotografia antiga”, “Ilustração de livro científico”, “Ilustração vetorial minimalista”, “Render 3D em alta definição”, “Pintura a óleo abstrata” e “Fotografia ruim e granulada com objeto pouco visível”. Saca só!
🖼️
Pra além de criar composições originais do zero, uma característica bem interessante do DALL·E é o que eles chamam de Outpainting: Pintar pra fora de algo que já existe. O serviço permite que você faça upload de imagens, escolha uma porção de espaço fora dela e insira um prompt para que ele complete aquela imagem.
🤷
Certo, mas e aí? Qual é o uso real de um negócio desses?
Bom, primeiro que eu já não acho que essas coisas precisem ter um uso real e mensurável além do famigerado prazer estético - ver algo interessante ou bonito já basta por si só. Mas olha só: Este vídeo do canal Two Minute Papers, no YouTube, já mostra como esse tipo de geração por inteligência artificial solucionaria um problemão da criação de videogames, que é a obtenção de texturas aceitáveis a partir de fotografias. E, pra além disso, eu sinceramente acho que as possibilidades artísticas que uma coisa dessa nos gera são ricas demais. Desde busca por referências visuais a geração de símbolos e ícones para uso final, passando por uma ajudinha com o desenho da sua próxima tatuagem: O céu é o limite!
E, sobre a pergunta clássica: Não, o DALL·E (ainda) não vai tirar o trabalho do pessoal da arte. Dá uma olhada nessa matéria. Resgatando o que escrevi aqui em cima, hoje ele parece entrar mais como um complemento ao trabalho humano, e menos como um concorrente à altura da bagagem que um designer ou artista realmente trazem.
🚧
É claro que erros (ainda) acontecem e de vez em quando o problema não é só o fato de que o DALL·E entendeu errado o que você quis dizer - mas isso também é bem normal - e sim o fato de que ele literalmente não sabe fazer aquilo. No momento, o maior pepino parece ser a interpretação e geração de texto dentro das imagens. Pedir algo que envolva ter palavras visíveis costuma gerar resultados que, quando não são simplesmente inutilizáveis, servem pra gente dar uma risada da inteligência artificial e dizer pra nós mesmos que “a mente humana ainda segue insuperável”.
O ponto é que mesmo com todo esse universo de resultados inimagináveis até 2 anos atrás, ainda tem muito chão pela frente.
🔗
Pra complementar o assunto e ficar em paz comigo mesmo porque não dá pra escrever pra sempre:
Além do nosso protagonista da edição, existem outras tantas opções por aí:
O Crayion é a opção totalmente grátis mais conhecida e surgiu de desenvolvedores do próprio DALL·E. Seus resultados são bem inferiores, infelizmente, mas de graça até eleição na testa, né?
Um dos concorrentes mais em alta do serviço é o modelo Stable Diffusion, que pode ser usado nesse site chamado DreamStudio. Dá pra se cadastrar direto, sem esperar na fila, e tem um tanto de imagens grátis pra usar. É um tanto mais técnico e menos objetivo que o DALL·E, mas seus resultados são bem interessantes.
Outro dos principais na atualidade é o Midjourney, que também precisa de convite para o acesso e tem resultados que costumam pender mais para o abstrato e o surreal.
Falando nessa concorrência saudável, este artigo traz imagens de uma comparação feita entre prompts idênticos nos 3 principais serviços: DALL·E 2, Stable Diffusion e Midjourney. É bem interessante pra entender como cada um deles pensa. E também tem o Super Prompts, um “agregador” de prompts gerados também nesses três sites.
Como tudo no mundo tá no Reddit, também recomendo dar uma olhada no subreddit do r/dalle2, onde existem tanto posts incríveis de prompts absurdos e lindos, como muita coisa hilária que simplesmente deu errado.
Aqui, um cara resolveu recriar uma página dos quadrinhos do Batman usando o DALL·E. Os prompts? As próprias instruções do Alan Moore, criador do quadrinho, para a ilustração da HQ.
Por fim, como o que não tem fim é a zoeira: Já tem gente vencendo concurso de arte com imagem gerada por inteligência artificial!
💭
Bom, acho que agora sim fechamos esse papo sobre inteligências artificiais que criam imagens! (corta pra um novo site que gera FILMES que não existem sendo divulgado semana que vem)
E começamos intensamente aqui no Substack, né? Se essa aqui não for pro spam, com tanto texto, link e imagem, não vai nunca mais!
Obrigado por ler até aqui e até a próxima! ☄️
P.S.: Hoje é aniversário de dois amigões, ambos assintantes: O Raul e o Marcon (que, inclusive, tem uma das minhas newsletters preferidas)! Parabéns, queridos! ❤️