Grupo de Pesquisa Computação e Linguagem Natural: Capítulo sobre o Aelius 2013 na coletânea do LiPrAL 2012

Finalmente foi publicado, na coletânea de trabalhos selecionados do 1º Colóquio de Linguística para o Processamento Automático de Linguagem Natural – LiPrAL, realizado na UFES em 2012, o meu capítulo sobre toquenização e etiquetagem morfossintática do português no âmbito da versão do Aelius PosTagger de 2013:

ALENCAR, Leonel Figueiredo de. Novos recursos do Aelius para o processamento computacional raso do português. In: LAPORTE, E.; SMARSARO, A.; VALE, O. (Orgs.). Dialogar é preciso: linguística para o processamento de línguas.1 ed.Vitória: PPGEL/UFES, 2013, p. 7-20. ISBN: 978-85-8087-104-3

Resumo: A fim de tornar acessível a estudantes e pesquisadores de Letras e

Linguística a análise automática de textos por meio de diversas bibliotecas

livremente disponíveis e como forma de iniciação na linguística computa-

cional, também por parte de alunos de engenharia e computação, iniciamos

o desenvolvimento do Aelius. Esse software, implementado em Python com

base no NLTK, constitui-se de ferramentas específicas para o processamento

sintático raso do português, complementando, desse modo, essa biblioteca,

carente de recursos para essa língua, ao mesmo tempo em que oferece uma

interface ainda mais amigável, viabilizando, desse modo, a sua utilização

por não programadores. Neste artigo, focamos os novos recursos do Aelius

para a toquenização e etiquetagem morfossintática do português, comparan-

do-os com os da biblioteca Apache OpenNLP, aparentemente a caixa de fer-

ramentas para o PALN que mais se aproxima do NLTK. Nessa comparação,

o Aelius revelou-se uma alternativa superior no que concerne à toquenização

e etiquetagem morfossintática do português, não só por apresentar melhor

acurácia, mas também por permitir anotar textos morfossintaticamente se-

gundo estratégias diferentes de toquenização e conforme conjuntos de eti-

quetas distintos, inclusive por meio de ferramentas externas, a partir de uma

única interface.

Palavras-chave: Análise sintática rasa. Toquenização. Etiquetagem morfos-

sintática automática. Anotação de corpora linguísticos. NLTK. Python.

Áreas: Linguística computacional, Processamento automático de linguagem natural, Processamento computacional do português, Linguística de corpus.

O artigo está disponível em versão integral para download ou leitura on-line:

Grupo de Pesquisa Computação e Linguagem Natural