ALENCAR, Leonel Figueiredo de. Novos recursos do Aelius para o processamento computacional raso do português. In:
LAPORTE, E.; SMARSARO, A.; VALE, O. (Orgs.). Dialogar é preciso:
linguística para o processamento de línguas.1 ed.Vitória:
PPGEL/UFES, 2013, p. 7-20. ISBN: 978-85-8087-104-3
Resumo: A fim de tornar acessível a estudantes e pesquisadores de Letras e
Linguística a análise automática de textos por meio de diversas bibliotecas
livremente disponíveis e como forma de iniciação na linguística computa-
cional, também por parte de alunos de engenharia e computação, iniciamos
o desenvolvimento do Aelius. Esse software, implementado em Python com
base no NLTK, constitui-se de ferramentas específicas para o processamento
sintático raso do português, complementando, desse modo, essa biblioteca,
carente de recursos para essa língua, ao mesmo tempo em que oferece uma
interface ainda mais amigável, viabilizando, desse modo, a sua utilização
por não programadores. Neste artigo, focamos os novos recursos do Aelius
para a toquenização e etiquetagem morfossintática do português, comparan-
do-os com os da biblioteca Apache OpenNLP, aparentemente a caixa de fer-
ramentas para o PALN que mais se aproxima do NLTK. Nessa comparação,
o Aelius revelou-se uma alternativa superior no que concerne à toquenização
e etiquetagem morfossintática do português, não só por apresentar melhor
acurácia, mas também por permitir anotar textos morfossintaticamente se-
gundo estratégias diferentes de toquenização e conforme conjuntos de eti-
quetas distintos, inclusive por meio de ferramentas externas, a partir de uma
única interface.
Palavras-chave: Análise sintática rasa. Toquenização. Etiquetagem morfos-
sintática automática. Anotação de corpora linguísticos. NLTK. Python.
Áreas: Linguística computacional, Processamento automático de linguagem natural, Processamento computacional do português, Linguística de corpus.
O artigo está disponível em versão integral para download ou leitura on-line:
Nenhum comentário:
Postar um comentário