sexta-feira, 6 de setembro de 2013

Capítulo sobre o Aelius 2013 na coletânea do LiPrAL 2012

Finalmente foi publicado, na coletânea de trabalhos selecionados do 1º Colóquio de Linguística para o Processamento Automático de Linguagem Natural – LiPrAL, realizado na UFES em 2012, o meu capítulo sobre toquenização e etiquetagem morfossintática do português no âmbito da versão do Aelius PosTagger de 2013:

ALENCAR, Leonel Figueiredo de. Novos recursos do Aelius para o processamento computacional raso do português. In: LAPORTE, E.; SMARSARO, A.; VALE, O. (Orgs.). Dialogar é preciso: linguística para o processamento de línguas.1 ed.Vitória: PPGEL/UFES, 2013, p. 7-20. ISBN: 978-85-8087-104-3


Resumo: A fim de tornar acessível a estudantes e pesquisadores de Letras e 
Linguística a análise automática de textos por meio de diversas bibliotecas 
livremente disponíveis e como forma de iniciação na linguística computa- 
cional, também por parte de alunos de engenharia e computação, iniciamos 
o desenvolvimento do Aelius. Esse software, implementado em Python com 
base no NLTK, constitui-se de ferramentas específicas para o processamento 
sintático raso do português, complementando, desse modo, essa biblioteca, 
carente de recursos para essa língua, ao mesmo tempo em que oferece uma 
interface ainda mais amigável, viabilizando, desse modo, a sua utilização 
por não programadores. Neste artigo, focamos os novos recursos do Aelius 
para a toquenização e etiquetagem morfossintática do português, comparan- 
do-os com os da biblioteca Apache OpenNLP, aparentemente a caixa de fer- 
ramentas para o PALN que mais se aproxima do NLTK. Nessa comparação, 
o Aelius revelou-se uma alternativa superior no que concerne à toquenização 
e etiquetagem morfossintática do português, não só por apresentar melhor 
acurácia, mas também por permitir anotar textos morfossintaticamente se- 
gundo estratégias diferentes de toquenização e conforme conjuntos de eti- 
quetas distintos, inclusive por meio de ferramentas externas, a partir de uma 
única interface. 
Palavras-chave: Análise sintática rasa. Toquenização. Etiquetagem morfos- 
sintática automática. Anotação de corpora linguísticos. NLTK. Python. 

Áreas: Linguística computacional, Processamento automático de linguagem natural, Processamento computacional do português, Linguística de corpus.

O artigo está disponível em versão integral para download ou leitura on-line:


Nenhum comentário:

Postar um comentário