AGATHA: Sistema inteligente de análise em fontes de informação abertas para vigilância/ controlo da criminalidade

Cofinanciado por:
Acronym | AGATHA
Project title | AGATHA: Sistema inteligente de análise em fontes de informação abertas para vigilância/ controlo da criminalidade
Project Code | POCI-01-0247-FEDER-018022 e LISBOA-01-0247-FEDER-018022
Main objective | Reforçar a Investigação, o desenvolvimento tecnológico e a inovação

Region of intervention | Norte, Lisboa, Alentejo

Beneficiary entity |
  • Compta Emerging Bussiness(líder)
  • Associação C.C.G./ZGDV(parceiro)
  • Universidade de Évora(parceiro)
  • VOICEINTERACTION(parceiro)

Approval date | 23-09-2016
Start date | 01-10-2016
Date of the conclusion | 30-09-2019

Total eligible cost | 2354805.42 €
European Union financial support | FEDER - 1386907.35 €
National/regional public financial support |

Summary

We are witnessing today a rapid evolution in information and communication technology, and consequently an increase in criminal activity based on these mediums, which threaten citizens, businesses, governments and critical infrastructures alike. One of the aspects associated with cybercrime is illegal online content distribution (child sexual abuse material, incitement to racial hatred, incitement of terrorist acts and glorification of violence, terrorism, etc.).
This project aims to develop a tool intended for the criminal investigative police and intelligence services, which will aid in the gathering of criminal practice evidences. In other words, a platform that resorts to all the information openly available and carry out an automatic analysis of it will be developed. These sources of information include social networks, forums, images, blogosphere information, sources of information present on the web, and broadcast media on the web such as radio or TV. For such, modules and components will be developed that allow the execution of various tasks, to highlight the acquisition of data (based on crawling algorithms, data mining and ETL tools), analysis of video/image, audio/voice, text and biometrics (which allow the detection of specific images, facial and speaker identification, translation information, etc.), classification and semantic segmentation (for detection of topics and dialogues and extraction of entities). And finally data management, organization and visualization (which will incorporate criminal ontologies, will retrieve information from the databases and visual analysis of large amounts of data). In addition, security mechanisms will be developed to ensure compliance with specific procedures inherent to research activities and full traceability of the stored information.


Objectives, activities and expected/achieved results

O projeto tem como objetivo desenvolver uma ferramenta, dirigida às polícias de investigação criminal e serviços de inteligência, que facilite a recolha de indícios de práticas criminosas. Trata-se de um sistema que utilizará toda a informação disponível em fontes abertas e procederá a uma análise automática dessa informação. Estas fontes de informação incluem as redes sociais, fóruns, imagens, informação da blogosfera e demais fontes de informação presentes na web,
incluindo fontes de áudio e vídeo. Estas fontes incluem igualmente meios de difusão na web como rádio ou TV.
A análise a efetuar a estes recursos visa a identificação de elementos que indiquem procedimentos ilegais ou a deteção de padrões, que sem uma abordagem sistemática e automatizada não seriam passíveis de ser detetados. Deste modo, o conteúdo obtido de cada uma destas fontes é avaliado usando metodologias de análise semântica e ontológica, que o relaciona, juntamente com a sua fonte, com bases de dados de referência. A análise de conteúdos utilizará não só fontes de informação abertas, mas também a informação presente nos registos confidenciais das entidades de investigação criminal ou serviços de inteligência. Por outro lado, o sistema disporá de ferramentas de identificação biométrica para reconhecimento e identificação quer de voz quer de rostos. No que respeita ao conteúdo falado pretende-se desenvolver um módulo de reconhecimento de fala que seja multilingue e forneça uma transcrição de conteúdo a partir da qual é efetuada a sua análise.

Deste modo será desenvolvida uma componente responsável pela recolha de dados de forma automatizada e de acordo com objetivos e critérios baseados em ontologias especificadas pelo utilizador e linha de investigação em causa. Esta componente de aquisição de dados ou, web crawler, criará cópias locais dos conteúdos a analisar, que servirão de base para o processamento a efetuar subsequentemente, e indexará estes conteúdos de acordo com o seu formato, fonte ou
endereço, etc...
Pretende-se adicionalmente que este módulo de crawling possa ser realimentado de forma automatizada por um módulo de gestão e organização (descrito adiante), com o objetivo de otimizar as pesquisas. Ou seja, os resultados obtidos após uma primeira recolha e análise de conteúdos, respetivo contexto e deteção de elementos internos, servirão de base para a refinação dos critérios e ontologia associada à recolha de conteúdos efetuada por este módulo.
Os dados obtidos através do crawler serão guardados na sua forma original (dados Brutos) numa base de dados dedicada/repositório.
Serão ainda criadas duas bases de dados adicionais, numa das quais será guardada a mesma informação, mas na forma normalizada, e na outra os dados resultantes da análise de conteúdos efetuada aos dados..
Um dos desafios de monta que se coloca neste projeto prende-se com as opções a tomar para a definição destas bases de dados, que terão de operar de forma inter-relacional e homogeneizada para que seja garantida a correspondência entre toda a informação armazenada relativa aos conteúdos recolhidos.

Perante a elevada quantidade de dados que será recolhida, e subsequente análise a efetuar através de cada módulo unitário, um dos principais desafios deste projeto assenta no desenvolvimento de uma ferramenta que torne útil e potencie a capacidade de retirar elações, toda a informação recolhida e analisada de modo a que possa ser obtido conhecimento.
Deste modo, terão de ser implementadas metodologias que permitam aceder e relacionar conteúdos com base em meta-data produzida pelos vários módulos de análise de diferentes formatos. Pretende-se, assim, que esta ferramenta esteja munida de capacidades de relacionar conteúdos multidomínio como sendo, por exemplo, um rosto presente em vídeo com um registo áudio obtido de outra fonte, ou conteúdo textual de um blog ou mensagem de uma rede social.
O conhecimento de que as várias fontes de dados implicadas neste exemplo estão relacionadas, não tem de ser necessariamente adquirido, tirando-se assim partido do potencial obtido a partir da análise automática de muito elevadas quantidades de dados.
Esta será então a ferramenta de agregação funcional de todas as vertentes de análise automática de conteúdos, a desenvolver no âmbito deste projeto, no bom funcionamento de qual recairá parte significativa da mais-valia do sistema AGATHA, para os inspetores e investigadores. Ainda no âmbito dos requisitos funcionais que têm de ser acautelados, há a referir que o sistema a desenvolver tem de cumprir com os procedimentos específicos inerentes às atividades de
investigação desta natureza, de acordo com os quais, cada investigador só pode ter acesso e trabalhar com informação relativa às linhas de investigação específicas em que esteja envolvido.
Deste modo, a interface para o utilizador terá de permitir a definição de linhas de investigação autónomas e deverá cumprir com rigorosos mecanismos de autenticação.

Adicionalmente o sistema deverá garantir a total rastreabilidade relativamente à informação guardada, pesquisas efetuadas e meta-data associada com os conteúdos analisados. Toda esta informação, bem como a identificação dos investigadores e linhas de investigação associadas deverá ser passível de ser auditada.
Numa outra vertente, pretende-se integrar, neste projeto, uma componente de visualização avançada que proporcione aos utilizadores uma apresentação dos resultados que saliente elementos de interesse, relações prováveis, padrões, ou forneça uma apresentação dos dados de acordo com uma ordem cronológica implícita às evidências recolhidas. Este componente de Visual Analytics será fundamental para que o próprio utilizador consiga lidar de forma proveitosa
e eficiente com a informação recolhida e a rede complexa de relações nela contida.