quinta-feira, 23 de junho de 2011

O universo vocabular no Documento Final da CONAE/2010 e no PL 8035

De vez em quando gosto de usar o Mathematica para coisas mais inusitadas. Desta vez, queria saber se era possível extrair o tema geral de um documento, e a forma como eles estavam conectados, usando o Mathematica (para os que não conhecem, é um programa de cálculo que sou, digamos, um pouco viciado).
O primeiro passo foi simples, uma rotina para contar quantas vezes cada palavra aparece no documento. Usei como base dois documentos importantes, a CONAE/2010 e no PL 8035. O primeiro é o documento produzido pela conferência nacional de educação, e da as diretrizes para os próximos 10 anos em que o país deve seguir. O segundo é um resumo do primeiro em forma de lei.
Segue abaixo o resultado da contagem de palavras em ambos os documentos.