sábado, 28 de setembro de 2013

Mescla nos fazeres linguístico e informático

A respeito de Paul Meurer, que desenvolveu a interface de análise sintática computacional e o ambiente de florestas sintáticas do INESS (Norwegian Infrastructure for the Exploration of Syntax and Semantics), cabe abrir uns parênteses: esse pesquisador é um representante típico da comunidade de linguística computacional europeia, onde, nas carreiras de muitos profissionais, se dissiparam as fronteiras entre os fazeres linguístico e informático ou se mesclaram essas duas atividades. De fato, a formação desse pesquisador é na área de matemática. No entanto, além de programador, ele é o responsável pela gramática do georgiano, implementada em LFG por meio do XLE, no âmbito do Projeto ParGram.  

quinta-feira, 26 de setembro de 2013

Exemplos de análises sintáticas automáticas

A BrGram, minha gramática computacional do português do Brasil, realizou automaticamente, por meio do XLE (Xerox Linguistic Environment), a análise das 50 sentenças que compõem o por-pargram, um banco de árvores sintáticas (treebank em inglês, termo que se costuma traduzir como floresta sintática) nos moldes da Gramática Léxico-Funcional (LFG, do inglês Lexical-Functional Grammar), modelo gerativo baseado na unificação.

Para visualizar a floresta sintática gerada pela BrGram, acesse o site http://iness.uib.no/iness/main-page e clique em Treebank selection. É necessária uma versão atual do navegador Firefox ou Chrome para que as análises sejam apresentadas corretamente. Esse recurso é um dos vários disponibilizados pelo INESS (Norwegian Infrastructure for the Exploration of Syntax and Semantics). No caso do ambiente para florestas sintáticas no formato da LFG, a interface, desenvolvida por Paul Meurer, permite visualizar que nós da C-structure corresponde a que partes da F-structure.

Sobre essa interface, consultar:

Victoria Rosén, Koenraad De Smedt, Paul Meurer, and Helge Dyvik. An open infrastructure for advanced treebanking. In Jan Hajič, Koenraad De Smedt, Marko Tadić, and António Branco (eds.) META-RESEARCH Workshop on Advanced Treebanking at LREC2012, pages 22–29, Istanbul, Turkey, May 2012.

A seguir, apresento algumas das análises do por-pargram ou geradas pela BrGram diretamente no XLE:







segunda-feira, 16 de setembro de 2013

Agradecimentos

Diversas pessoas contribuíram de forma decisiva para que a BrGram, minha gramática computacional do português do Brasil no formalismo da LFG, implementada no sistema XLE, se tornasse possível. Em primeiro lugar, cabe agradecer a Valeria de Paiva pela intermediação junto a John Maxwell e Daniel Bobrow, ambos do PARC, para obtenção de licença do XLE, pelo que sou grato também a essa instituição. Agradecimentos são devidos, também, a Alexandre Rademaker (IBM Research e Escola de Matemática Aplicada/FGV), no Rio de Janeiro, por dicas sobre a instalação do XLE.
Em terceiro lugar, agradeço aos participantes do ParGram/ParSem Meeting 2013, em Debrecen, na Hungria, pelos valiosos comentários e sugestões.
Finalmente, mas não menos importante, agradeço à Fundação CAPES e ao DAAD (Serviço Alemão de Intercâmbio Acadêmico) pelas bolsas para duas estadas, em 2012 e 2013, no Departamento de Linguística da Universität Konstanz, na qualidade, respectivamente, de Professor Visitante e Cientista Visitante. Essa última estada ocorreu no âmbito do Programa de Estágio Sênior Pós-Doutoral da CAPES, Processo nº BEX 10175/12-1.

sexta-feira, 6 de setembro de 2013

Processamento computacional sintático profundo do português do Brasil

BrGram: uma gramática computacional para o parsing profundo do português do Brasil

Objetivo

Visando ao processamento computacional sintático profundo (deep syntactic parsing) do português do Brasil, desenvolvi, durante o meu estágio sênior pós-doutoral na Universität Konstanz, Alemanha, financiado pela CAPES (Processo nº BEX 10175/12-1), a BrGram, uma gramática computacional do português do Brasil.

A LFG como teoria gramatical subjacente e o XLE como ambiente de desenvolvimento

Implementada no formalismo gerativo da Gramática Léxico-Funcional (LFG, do inglês Lexical-Functional Grammar), utilizando o Xerox Linguistic Environment (XLE), o estado da arte no desenvolvimento de gramáticas computacionais nesse formalismo, a BrGram, que segue a filosofia do Projeto ParGram,  ainda se encontra num estágio inicial, uma vez que foi desenvolvida em apenas poucos meses. Colaborações para ampliar a BrGram, sobretudo na área do léxico, são bem-vindas, visto que são necessárias centenas de milhares de entradas lexicais para que se possam analisar textos irrestritos em português do Brasil.

Integração da BrGram aos projetos ParGram e ParGramBank

Apesar de representar, no momento, apenas um protótipo, a BrGram já é capaz de analisar as 50 sentenças do Projeto ParGramBank, um esforço internacional para a construção de um corpus paralelo, sintaticamente anotado, constituído de análises de um mesmo conjunto de sentenças em línguas de diversas famílias linguísticas, com base na notação do Projeto ParGram. No momento, o ParGramBank, que pode ser acessado on-line pelo INESS, um sistema de código-aberto para recursos linguísticos, conta com 11 línguas, entre as quais o português do Brasil figura como única representante das línguas neolatinas. No INESS, a floresta sintática (treebank) do português do Brasil denominada por-pargram, que integra o ParGramBank, foi gerada pela minha gramática BrGram. Para visualizar as análises, é necessária uma versão atualizada dos navegador Firefox ou Chrome.

Publicações sobre a BrGram

Listo a seguir as produções científicas sobre a BrGram em diferentes estágios de desenvolvimento. 

Artigo em periódico do estrato QUALIS A1


ALENCAR, L. F. de. Modelação computacional de padrões variáveis de concordância em português. Revista de Estudos da Linguagem, v. 21, n. 1, p. 43 -110, jan./jun. 2013.



Apresentação de palestra
ALENCAR, L. F. de. A ParGram Grammar of Brazilian Portuguese, 2013.

Palavras-chave: Análise sintática automática, Gramática Léxico-Funcional (LFG), Parsing, Processamento Computacional do Português, Sintaxe, Teoria X-barra
Áreas do conhecimento: Linguística Computacional, Teoria e Análise Linguística, Gramática Gerativa
Referências adicionais: Hungria/Inglês. Meio de divulgação: Hipertexto. Home page: http://hungram.unideb.hu/ParGram_ParSem_2013/; Local: University of Debrecen; Cidade: Debrecen, Hungria; Evento: ParGram-ParSem Meeting 2013; Inst.promotora/financiadora: Department of English Linguistics, University of Debrecen

Trabalhos publicados em anais de eventos (resumo expandido)


ALENCAR, L. F. de. Computer modeling of syntactic microvariation: the problem of co-existing verb agreement patterns in European and Brazilian Portuguese dialects, 2013. 
Palavras-chave: Análise sintática automática, Concordância semântica, Gramática Léxico-Funcional (LFG), Hipótese DP, Sintaxe dialetal, Concordância verbal
Áreas do conhecimento: Linguística Computacional, Teoria e Análise Linguística, Gramática Gerativa
Referências adicionais: Alemanha/Português. Meio de divulgação: Meio digital. Home page: http://ling.uni-konstanz.de/pages/home/edisyn2013/leonel_alencar.pdf; Local: Universidade de Konstanz; Cidade: Konstanz; Evento: Workshop European Dialect Syntax VII; Inst.promotora/financiadora: Departamento de Linguística da Universidade de Konstanz


Trabalhos publicados em anais de eventos (trabalho completo)



ALENCAR, L. F. de. BrGram: uma gramática computacional de um fragmento do português brasileiro no formalismo da LFG. In: BRAZILIAN SYMPOSIUM IN INFORMATION AND HUMAN LANGUAGE TECHNOLOGY – STIL, n. 9, 21 e 22 de outubro de 2013, Fortaleza. Proceedings... [No prelo.]



Capítulo sobre o Aelius 2013 na coletânea do LiPrAL 2012

Finalmente foi publicado, na coletânea de trabalhos selecionados do 1º Colóquio de Linguística para o Processamento Automático de Linguagem Natural – LiPrAL, realizado na UFES em 2012, o meu capítulo sobre toquenização e etiquetagem morfossintática do português no âmbito da versão do Aelius PosTagger de 2013:

ALENCAR, Leonel Figueiredo de. Novos recursos do Aelius para o processamento computacional raso do português. In: LAPORTE, E.; SMARSARO, A.; VALE, O. (Orgs.). Dialogar é preciso: linguística para o processamento de línguas.1 ed.Vitória: PPGEL/UFES, 2013, p. 7-20. ISBN: 978-85-8087-104-3


Resumo: A fim de tornar acessível a estudantes e pesquisadores de Letras e 
Linguística a análise automática de textos por meio de diversas bibliotecas 
livremente disponíveis e como forma de iniciação na linguística computa- 
cional, também por parte de alunos de engenharia e computação, iniciamos 
o desenvolvimento do Aelius. Esse software, implementado em Python com 
base no NLTK, constitui-se de ferramentas específicas para o processamento 
sintático raso do português, complementando, desse modo, essa biblioteca, 
carente de recursos para essa língua, ao mesmo tempo em que oferece uma 
interface ainda mais amigável, viabilizando, desse modo, a sua utilização 
por não programadores. Neste artigo, focamos os novos recursos do Aelius 
para a toquenização e etiquetagem morfossintática do português, comparan- 
do-os com os da biblioteca Apache OpenNLP, aparentemente a caixa de fer- 
ramentas para o PALN que mais se aproxima do NLTK. Nessa comparação, 
o Aelius revelou-se uma alternativa superior no que concerne à toquenização 
e etiquetagem morfossintática do português, não só por apresentar melhor 
acurácia, mas também por permitir anotar textos morfossintaticamente se- 
gundo estratégias diferentes de toquenização e conforme conjuntos de eti- 
quetas distintos, inclusive por meio de ferramentas externas, a partir de uma 
única interface. 
Palavras-chave: Análise sintática rasa. Toquenização. Etiquetagem morfos- 
sintática automática. Anotação de corpora linguísticos. NLTK. Python. 

Áreas: Linguística computacional, Processamento automático de linguagem natural, Processamento computacional do português, Linguística de corpus.

O artigo está disponível em versão integral para download ou leitura on-line: