Notícias

10 de novembro de 2017

O programa computacional que analisa narrativa de textos

Reconhecer os textos de seus escritores preferidos pode ser uma tarefa fácil para algumas pessoas. O estilo da narrativa, o uso de certas palavras, a descrição dos personagens, entre outras características de famosos textos literários, podem dar pistas sobre os autores e sobre a época que um texto foi produzido, mas, muitas vezes, essas características não são nítidas, mesmos para os leitores mais assíduos.

Assinaturas típicas obtidas para livros de três autores diferentes (um em cada linha). Os ciclos correspondem a retomadas de assuntos ao longo dos enredos (Imagem: Filipi Nascimento Silva e Luciano da Fontoura Costa)

Essa tarefa, no entanto, está sendo “automatizada” por programas de computador, como o criado por pesquisadores do Instituto de Física de São Carlos (IFSC/USP) e do Instituto de Matemática e de Computação (ICMC/USP)*, utilizando uma técnica de análise de imagens e visualização de grafos. Com participação do docente Luciano da Fontoura Costa, o estudo foi destacado pela MIT Technology Review por sua criatividade. “Através da caracterização de textos, é frequentemente possível identificar o estilo do autor, a época em que o texto foi escrito, o próprio autor, entre outras coisas”, explica Luciano.

Diante do dilúvio de informações que são geradas todos os dias na Internet, o interesse nesse tipo de análise é sempre crescente, já que, através dela, é possível filtrar informações pertinentes, facilitando as buscas por textos específicos, ou mesmo fazer-se recomendações de textos semelhantes.

Para caracterizar textos, uma das possibilidades é se trabalhar com a estatística de palavras, ou seja, analisar quantas vezes uma palavra específica é repetida no texto. Outra possibilidade mais conhecida é a análise por adjacência de palavras, isto é, analisar quantas vezes duas palavras aparecem juntas no texto.  “Para a construção de um grafo de relação entre palavras, transformamos cada palavra em um nó, gerando um grafo que analisará a adjacência das palavras”, elucida o docente. “Nós fizemos uma abordagem mesoscópica, ou seja, selecionamos diversas palavras seguidas, por exemplo 20, de trechos do texto, e analisamos as ligações entre os trechos semelhantes”.

Nesse tipo de análise, é possível identificar semelhanças não somente entre palavras, mas também na própria narrativa. “Se um evento é repetido no começo e no meio do texto, por exemplo, conseguimos observar como a narrativa se desenrola, extrapolando a análise para além da adjacência de palavras”, exemplifica Luciano.

Na pesquisa em questão, as obras de dez escritores diferentes foram analisadas, e em algumas delas é possível visualizar uma forte linearidade no enredo, o que é refletido nas imagens geradas. “Fizemos também a análise de todos os trechos de ‘Alice no país das maravilhas’, e só de se observar as figuras, é possível ter uma noção do enredo. Isso permite uma organização textual também através de trechos”, explica.

Diferentes técnicas podem ser empregadas para visualizar redes complexas. Algumas delas são herdadas dos métodos de visualização de grafos, enquanto outras levam em consideração a estrutura topológica destas redes, como a presença de hubs ou comunidades. Em geral, a visualização de uma rede baseia-se em determinar os vetores de posições (2D ou 3D) referentes a cada um dos vértices da rede. Outras propriedades como cor, forma, tamanho, etc. podem ser atribuídos aos vértices ou arestas, tanto usando informações extras, quanto utilizando propriedades obtidas de sua estrutura topológica. Métodos dirigidos por forças utilizam uma analogia física na qual cada vértice é representado por uma partícula carregada, e cada aresta por uma interação de forças entre elas. Vértices conectados ficam sujeitos a forças atrativas ao mesmo tempo em que todos os vértices repelem-se mutualmente. A figura ilustra o processo de visualização. À esquerda, é mostrada a rede na configuração inicial, com vértices aleatoriamente distribuídos sobre o plano. Técnicas de simulação molecular podem ser usadas para solucionar o sistema de partículas de modo que as novas posições representem um estado de equilíbrio (à direita). Na configuração final, vértices conectados são naturalmente dispostos mais próximos do que àqueles sem conexão. (Texto e imagem: Filipi Nascimento Silva e Luciano da Fontoura Costa)

Sob esse viés, vê-se que o estudo em questão caminha um pouco além em relação às análises tradicionais que, normalmente, consideram somente palavras adjacentes, e não o estilo ou enredo de textos. E, nesse sentido, a pesquisa também caminha em direção a análises de conteúdo de textos, algo que ainda é feito por poucos programas de computador até o momento. “No que se refere ao conteúdo, o desafio é um pouco maior, pois exige interpretação, algo que, além de desafiador, possui certo grau de subjetividade. Mas já conseguimos caminhar um pouco mais no que se refere à identificação da narrativa e/ou do enredo”, diz Luciano.

Ele enfatiza que a análise semântica de textos é bastante complexa, e que pode ser que demore alguns anos para que isso seja possível.  Na verdade, a solução plena deste problema deverá envolver a incorporação de boa parte da inteligência humana no computador (clique aqui para saber mais).

*Colaboraram no estudo o docente do Instituto de Ciências Matemáticas e de Computação (ICMC/USP), Diego Raphael Amancio, e os pesquisadores, Henrique Ferraz Arruda (ICMC/USP), Vanessa Queiroz Marinho (ICMC/USP) e Thales Sinelli Lima (ICMC/USP)

**O estudo inclui três artigos, que estão disponíveis nos seguintes endereços: https://arxiv.org/abs/1708.07265https://arxiv.org/pdf/1606.09636.pdf e https://arxiv.org/pdf/1705.10415.pdf

Imprimir artigo
Compartilhe!
Share On Facebook
Share On Twitter
Share On Google Plus
Fale conosco
Instituto de Física de São Carlos - IFSC Universidade de São Paulo - USP
Obrigado pela mensagem! Assim que possível entraremos em contato..