Sistema inteligente de análise em fontes de informação abertas para vigilância/ controlo da criminalidade

Cofinanciado por:
Acrónimo | AGATHA
Designação do projeto | Sistema inteligente de análise em fontes de informação abertas para vigilância/ controlo da criminalidade
Código do projecto | POCI-01-0247-FEDER-018022 e LISBOA-01-0247-FEDER-018022
Objetivo principal | Reforçar a Investigação, o desenvolvimento tecnológico e a inovação

Região de intervenção | Norte, Lisboa, Alentejo

Entidade beneficiária |
  • Compta Emerging Bussiness(líder)
  • Associação C.C.G./ZGDV(parceiro)
  • Universidade de Évora(parceiro)
  • VOICEINTERACTION(parceiro)

Data de aprovação | 23-09-2016
Data de inicio | 01-10-2016
Data de conclusão | 30-09-2019

Custo total elegível | 2354805.42 €
Apoio financeiro da União Europeia | FEDER - 1386907.35 €
Apoio financeiro público nacional/regional |
Apoio financeiro atribuído à Universidade de Évora | 173982.41 €

Resumo

Tem-se vindo a verificar nos últimos anos um crescente aumento da utilização de meios de comunicação digitais e a presença na web, que servem hoje de suporte a muitas operações quotidianas. Embora estas tecnologias tenham trazido grandes benefícios, verifica-se também a sua utilização para fins ilícitos ou planeamento de atividades de criminalidade organizada, que ameaçam os cidadãos, empresas, governos e infraestruturas críticas. Uma das vertentes associadas a estas atividades é a distribuição de conteúdo online ilegal (material de abuso sexual de menores, incitação ao ódio racial, incitamento de atos terroristas e glorificação da violência, terrorismo, etc.).
Com este projeto pretende-se desenvolver uma ferramenta, dirigida às polícias de investigação criminal e serviços de inteligência, que facilite a recolha de indícios de práticas criminosas. Ou seja, será desenvolvida uma plataforma que utilize toda a informação disponível em fontes abertas e procederá a uma análise automática dessa informação. Estas fontes de informação incluem as redes sociais, fóruns, imagens, informação da blogosfera, fontes de informação presentes na web, e meios de difusão na web como rádio ou TV. Para tal, serão desenvolvidas ferramentas que permitirão a análise automática de conteúdos em diversos formatos(vídeo/imagem, áudio, voz e texto), obtidos a partir de um módulo de aquisição de dados, munido de algoritmos de crawling e data mining, que recolherá estes conteúdos de forma seletiva e direcionada. Pretende-se detetar objetos específicos, identificar intervenientes por reconhecimento facial e de voz, e analisar texto publicado. O sistema será munido de capacidades de classificação e segmentação semântica (para deteção de tópicos, diálogos e extração de entidades mencionadas) e incorporará um sistema de visualização de dados que apresentará a informação de forma relacionada.


Objetivos, atividades e resultados esperados/atingidos

O projeto tem como objetivo desenvolver uma ferramenta, dirigida às polícias de investigação criminal e serviços de inteligência, que facilite a recolha de indícios de práticas criminosas. Trata-se de um sistema que utilizará toda a informação disponível em fontes abertas e procederá a uma análise automática dessa informação. Estas fontes de informação incluem as redes sociais, fóruns, imagens, informação da blogosfera e demais fontes de informação presentes na web,
incluindo fontes de áudio e vídeo. Estas fontes incluem igualmente meios de difusão na web como rádio ou TV.
A análise a efetuar a estes recursos visa a identificação de elementos que indiquem procedimentos ilegais ou a deteção de padrões, que sem uma abordagem sistemática e automatizada não seriam passíveis de ser detetados. Deste modo, o conteúdo obtido de cada uma destas fontes é avaliado usando metodologias de análise semântica e ontológica, que o relaciona, juntamente com a sua fonte, com bases de dados de referência. A análise de conteúdos utilizará não só fontes de informação abertas, mas também a informação presente nos registos confidenciais das entidades de investigação criminal ou serviços de inteligência. Por outro lado, o sistema disporá de ferramentas de identificação biométrica para reconhecimento e identificação quer de voz quer de rostos. No que respeita ao conteúdo falado pretende-se desenvolver um módulo de reconhecimento de fala que seja multilingue e forneça uma transcrição de conteúdo a partir da qual é efetuada a sua análise.

Deste modo será desenvolvida uma componente responsável pela recolha de dados de forma automatizada e de acordo com objetivos e critérios baseados em ontologias especificadas pelo utilizador e linha de investigação em causa. Esta componente de aquisição de dados ou, web crawler, criará cópias locais dos conteúdos a analisar, que servirão de base para o processamento a efetuar subsequentemente, e indexará estes conteúdos de acordo com o seu formato, fonte ou
endereço, etc...
Pretende-se adicionalmente que este módulo de crawling possa ser realimentado de forma automatizada por um módulo de gestão e organização (descrito adiante), com o objetivo de otimizar as pesquisas. Ou seja, os resultados obtidos após uma primeira recolha e análise de conteúdos, respetivo contexto e deteção de elementos internos, servirão de base para a refinação dos critérios e ontologia associada à recolha de conteúdos efetuada por este módulo.
Os dados obtidos através do crawler serão guardados na sua forma original (dados Brutos) numa base de dados dedicada/repositório.
Serão ainda criadas duas bases de dados adicionais, numa das quais será guardada a mesma informação, mas na forma normalizada, e na outra os dados resultantes da análise de conteúdos efetuada aos dados..
Um dos desafios de monta que se coloca neste projeto prende-se com as opções a tomar para a definição destas bases de dados, que terão de operar de forma inter-relacional e homogeneizada para que seja garantida a correspondência entre toda a informação armazenada relativa aos conteúdos recolhidos.

Perante a elevada quantidade de dados que será recolhida, e subsequente análise a efetuar através de cada módulo unitário, um dos principais desafios deste projeto assenta no desenvolvimento de uma ferramenta que torne útil e potencie a capacidade de retirar elações, toda a informação recolhida e analisada de modo a que possa ser obtido conhecimento.
Deste modo, terão de ser implementadas metodologias que permitam aceder e relacionar conteúdos com base em meta-data produzida pelos vários módulos de análise de diferentes formatos. Pretende-se, assim, que esta ferramenta esteja munida de capacidades de relacionar conteúdos multidomínio como sendo, por exemplo, um rosto presente em vídeo com um registo áudio obtido de outra fonte, ou conteúdo textual de um blog ou mensagem de uma rede social.
O conhecimento de que as várias fontes de dados implicadas neste exemplo estão relacionadas, não tem de ser necessariamente adquirido, tirando-se assim partido do potencial obtido a partir da análise automática de muito elevadas quantidades de dados.
Esta será então a ferramenta de agregação funcional de todas as vertentes de análise automática de conteúdos, a desenvolver no âmbito deste projeto, no bom funcionamento de qual recairá parte significativa da mais-valia do sistema AGATHA, para os inspetores e investigadores. Ainda no âmbito dos requisitos funcionais que têm de ser acautelados, há a referir que o sistema a desenvolver tem de cumprir com os procedimentos específicos inerentes às atividades de
investigação desta natureza, de acordo com os quais, cada investigador só pode ter acesso e trabalhar com informação relativa às linhas de investigação específicas em que esteja envolvido.
Deste modo, a interface para o utilizador terá de permitir a definição de linhas de investigação autónomas e deverá cumprir com rigorosos mecanismos de autenticação.

Adicionalmente o sistema deverá garantir a total rastreabilidade relativamente à informação guardada, pesquisas efetuadas e meta-data associada com os conteúdos analisados. Toda esta informação, bem como a identificação dos investigadores e linhas de investigação associadas deverá ser passível de ser auditada.
Numa outra vertente, pretende-se integrar, neste projeto, uma componente de visualização avançada que proporcione aos utilizadores uma apresentação dos resultados que saliente elementos de interesse, relações prováveis, padrões, ou forneça uma apresentação dos dados de acordo com uma ordem cronológica implícita às evidências recolhidas. Este componente de Visual Analytics será fundamental para que o próprio utilizador consiga lidar de forma proveitosa
e eficiente com a informação recolhida e a rede complexa de relações nela contida.

 

Attribute Type Value
id integer 3532