Um mundo de cores e texturas poderá em breve se tornar mais acessível para invisuais ou com baixa visão por meio de um novo software que narra o que uma camera registra
A ferramenta, chamada WorldScribe, foi projetada por investigadores da Universidade de Michigan. Esta utiliza modelos de linguagem de IA generativa (GenAI) para interpretar as imagens da camera e produzir descrições de texto e audio em tempo real para ajudar os utilizadores a terem perceção do que os rodeia rapidamente. Esta pode ajustar o nível de detalhes com base nos comandos do utilizador ou no tempo em que um objeto está no quadro da camera, e o volume adapta-se automaticamente a ambientes barulhentos, como salas cheias, ruas movimentadas e música alta.
“Para nós, cegos, esta ferramenta pode realmente revolucionar a maneira como lidamos com o mundo diariamente”, disse Sam Rau, que nasceu cego e participou na experiência do WorldScribe. “Não tenho nenhum conceito de visão, mas quando testei a ferramenta, obtive uma imagem do mundo real, e fiquei animado com todas as cores e texturas que não teria acesso de outra forma”, conta, explicando que “uma pessoa cega, está sempre a preencher a imagem do que está a acontecer ao seu redor pormenor por pormenor, sendo preciso muito esforço mental para criar uma imagem maior. Mas esta ferramenta pode ajudar-nos a ter a informação imediatamente. Não sei se consigo transmitir em palavras o milagre que isto realmente representa para nós.”
Durante a experiência, Sam Rau vestiu um headset equipado com um smartphone e andou pelo laboratório. A camera do telefone transferiu as imagens sem fio para um servidor, que gerou quase instantaneamente descrições de texto e audio de objetos no quadro da camera: um laptop numa mesa, uma pilha de papéis, uma TV e pinturas penduradas na parede.
As descrições mudavam constantemente, priorizando objetos que estavam mais próximos. Um rápido olhar numa mesa produziu uma descrição simples de uma palavra, mas uma inspeção mais longa deu informações mais precisas sobre as pastas e papéis que estavam sobre ela.
A ferramenta pode ajustar o nível de detalhes das suas descrições alternando entre três modelos de linguagem de IA. O modelo YOLO World gera rapidamente descrições muito simples de objetos que aparecem brevemente no quadro da camera. Descrições detalhadas de objetos que permanecem no quadro por um período maior de tempo e são manipuladas pelo GPT-4, o modelo por trás do ChatGPT. Por fim, um outro modelo, Moondream, fornece um nível intermediário de detalhes.
“Muitas das tecnologias assistivas existentes que alavancam a IA focam em tarefas específicas ou exigem algum tipo de interação passo a passo. Por exemplo, tira uma foto e obtém algum resultado”, explica Anhong Guo , professor assistente de ciência da computação e engenharia e autor correspondente do estudo.
“Fornecer descrições ricas e detalhadas para uma experiência ao vivo é um grande desafio para ferramentas de acessibilidade.Vimos uma oportunidade de usar os modelos de IA cada vez mais capazes para criar descrições automatizadas e adaptáveis em tempo real.”
Como depende do GenAI, o WorldScribe também pode responder a tarefas ou consultas fornecidas pelo utilizador, como priorizar descrições de objetos que este pediu para a ferramenta encontrar. Alguns participantes do estudo notaram problemas para detectar certos objetos, como um frasco conta-gotas, no entanto. Sam Rau afirma que a ferramenta ainda é um pouco desajeitada, mas diz que a usaria todos os dias se pudesse ser integrada nuns óculos inteligentes ou em outro dispositivo vestível.
Os investigadores solicitaram proteção da patente com a assistência da UM Innovation Partnerships e estão à procura parceiros para ajudar a refinar a tecnologia e colocá-la no mercado.
Mais informações aqui


