Finalmente, está disponível no SourceForge a nova versão do Aelius Brazilian Portuguese POS-Tagger and Corpus Annotation Tool, que conta, agora, com um detalhado manual:
http://aelius.sourceforge.net/
O Aelius 2013 está muito mais poderoso. Entre outras coisas, consegue etiquetar morfossintaticamente textos com base em três tag sets e vários algoritmos de aprendizagem de máquina! A etiquetagem morfossintática pelo Apache OpenNLP via Aelius é mais precisa do que pela própria ferramenta de etiquetagem do Apache OpenNLP porque o Aelius toqueniza corretamente as contrações e ênclises.
Palavras-chave: Linguística computacional. Processamento computacional do português. Toquenização. NLTK. Python. Etiquetagem morfossintática. Anotação de corpora linguísticos.
Keywords: Computational linguistics. Shallow processing of Brazilian Portuguese. Tokenization. Tokenizing. NLTK. Python. POS-tagging. Part-of-speech tagging. Morpho-syntactic tagging. Corpus annotation.
O grupo CompLin – Computação e Linguagem Natural foca a investigação, em nível teórico, dos aspectos computacionais das gramáticas das línguas naturais bem como a aplicação prática desses estudos no desenvolvimento de programas de processamento automático da linguagem humana em diferentes níveis, inserindo-se, portanto, na confluência entre a linguística teórica e descritiva, a linguística de corpus e a linguística computacional.
Nenhum comentário:
Postar um comentário