Clique aqui para voltar à página inicial http://www.novomilenio.inf.br/ano97/9712bfu1.htm
Publicado originalmente pelo editor de Novo Milênio no caderno Informática
do jornal A Tribuna de Santos/SP, em 9 de dezembro de 1997
Última modificação em (mês/dia/ano/horário): 12/04/00 04:42:06

HISTÓRIA DO COMPUTADOR - 26 - O futuro que vem aí
Pesquisadores estudam formas de localizar e
classificar imagens

Lembra daquela cena que viu num filme, não sabe qual, nem quem eram os astros, ou quando foi rodado – mas que você quer rever? Impossível? Não, porque há um grupo de cientistas pesquisando formas de identificar imagens. Da mesma forma como você procura uma palavra no dicionário (e se você conhece o Aurélio Eletrônico, sabe o que é procura reversa – em que você cita as palavras medo e altura e ele devolve acrofobia), bastaria informar ao sistema de buscas como é a imagem (suponhamos, para simplificar, que você tenha a foto de uma cena do filme, sem identificação) e o sistema vasculharia os arquivos até encontrar o filme ou os filmes com essa cena.

Mais um exemplo: você tem a foto de alguém, mas não lembra o nome do sujeito. Trabalho para um sistema computacional de localização por imagem. Se o banco filma o assalto, a polícia poderia colocar a imagem no sistema de buscas e ele faria automaticamente a localização de quem fez a retirada indevida. Como a identificação é por pontos coincidentes, como hoje é feito com as impressões digitais (na busca datiloscópica), quanto mais pontos de referência o computador localizar na imagem do ladrão, menor a lista de suspeitos... e voltamos assim à importância da qualidade da imagem original.

Juntando as pesquisas sobre qualidade (chamada resolução) de imagem com as de técnicas para compressão, não é preciso bola de cristal para adivinhar que logo teremos em casa televisão via Internet, de qualquer ponto do mundo, com qualidade melhor e mais recursos do que os da TV atual. E, com a busca por imagem, o patrão preocupado com a febre do empregado colocará no sistema a foto do funcionário febril (retirada do Departamento de Pessoal) e requerer que o televisor computadorizado localize o dito cujo no meio da torcida... (e - falando sério - é fácil imaginar o que essas tecnologias podem significar para a localização de crianças desaparecidas, não?).

Um dos projetos em estudo no MIT é o sistema de pesquisas VideoBook, que usa informações de textura, iluminação e cor para gerar  informações que permitam localizar imagens semelhantes num banco de dados de vídeo. No experimento, o sistema é alimentado com os últimos cinco segundos de um clipe de vídeo contido num banco de dados com 165 clipes de vídeo com 15 segundos cada um, e instruído a procurar todos os clipes com trechos semelhantes ao original, nos dez segundos iniciais de todos esses vídeos, apresentando os três mais assemelhados.

Projeto Escala Livre

Escala livre – O projeto de imagens em escala livre de Chris Dodge, também pesquisador do MIT trabalha com o ultra-rápido redesenho de uma imagem (estática ou dinâmica). Uma das aplicações da técnica é acelerar a reapresentação de uma página Web quando o tamanho da janela do programa navegador é alterado. Explica o pesquisador que tradicionalmente, uma imagem é transformada num sinal análogo ou digital que segue uma especificação técnica fixa para assegurar que ela seja recebida adequadamente, como no padrão NTSC: desde que o número de linhas de um sinal NTSC seja fixo, o tamanho da tela do televisor não influi significativamente na apresentação da imagem.

Na Web, tem sido preferido o formato GIF para os arquivos de imagem, em que é formada uma matriz de 640x480 pixels ligeiramente espaçados entre si, cada um com dados para a formação de até 256 níveis de cor, sendo esses padrões reconhecidos pelos diversos tipos de computador ligados à Internet – a imagem deve ser vista da mesma forma num computador simples ou numa super-estação de trabalho computadorizada. Do mesmo modo como, ao vermos uma fotografia com uma lente de aumento, só encontraremos uma série de pontos, não há na imagem GIF informação adicional a ser buscada quando ampliamos a imagem. Toda a informação disponível já está contida na imagem, ignorando-se o desejo do usuário de obter algum detalhe a mais.

A idéia de Chris é acabar com a relação direta entre resolução espacial e informação de uma imagem, para que se possa ter a mesma imagem apresentada com alta resolução num monitor mais sofisticado, e com baixa resolução num monitor mais simples: a escala da imagem se torna interativa, quanto maior a sofisticação do equipamento.

Um exemplo de imagens em escala livre

Um exemplo de imagens em escala livre

Um exemplo de imagens em escala livre

Um exemplo de imagens em escala livre

Exemplos de imagens em escala livre

Adequação – No sentido inverso, hoje acontece dos programas de navegação apresentarem imagens maiores que a tela do monitor, forçando o usuário a usar a barra de deslocamento da tela para ver as partes escondidas, enquanto no sistema proposto a imagem sempre apareceria inicialmente no tamanho adequado à tela.

De forma resumida, a técnica consiste numa série de filtros (algoritmos) que vão retirando elementos de informação da imagem original, formando amostras que voltam a ser processadas, até se ter uma amostra adequada ao tamanho desejado. No final, temos uma pirâmide de imagens sobrepostas de diferentes tamanhos, cada uma com ¼ da informação disponível na amostra anterior: a base da pirâmide é a imagem original e o topo é um único pixel, a menor unidade de informação disponível sobre essa imagem.

Como a relação entre as imagens segue é uma potência de dois, pode-se usar esses níveis para guiar um processo de interpolação (formação de imagens intermediárias), com a vantagem de que algum erro na reconstrução da imagem transmitida pode ser corrigido nesse processo, que também leva em conta a largura da banda de transmissão. Adicionalmente, o processo facilita a compressão das imagens para até o fator 8 (um bit por pixel) sem que apareça distorção perceptível.