quinta-feira, 23 de junho de 2011

O universo vocabular no Documento Final da CONAE/2010 e no PL 8035

De vez em quando gosto de usar o Mathematica para coisas mais inusitadas. Desta vez, queria saber se era possível extrair o tema geral de um documento, e a forma como eles estavam conectados, usando o Mathematica (para os que não conhecem, é um programa de cálculo que sou, digamos, um pouco viciado).
O primeiro passo foi simples, uma rotina para contar quantas vezes cada palavra aparece no documento. Usei como base dois documentos importantes, a CONAE/2010 e no PL 8035. O primeiro é o documento produzido pela conferência nacional de educação, e da as diretrizes para os próximos 10 anos em que o país deve seguir. O segundo é um resumo do primeiro em forma de lei.
Segue abaixo o resultado da contagem de palavras em ambos os documentos.







Achei o resultado bacana, mas queria ir um passo adiante. Qual a relação entre as palavras? Como seria possível extrair isso?
Tentei algumas formas, e a que achei mais interessante foi através da distância entre as palavras mais importantes. Segue abaixo resultado do CONAE.

Como o espaço é pequeno para a imagem, segue pdf dos graphos nos links abaixo:

Acho que da uma idéia da relação entre os principais tópicos.

Nenhum comentário:

Postar um comentário