sexta-feira, 6 de setembro de 2013

Processamento computacional sintático profundo do português do Brasil

BrGram: uma gramática computacional para o parsing profundo do português do Brasil

Objetivo

Visando ao processamento computacional sintático profundo (deep syntactic parsing) do português do Brasil, desenvolvi, durante o meu estágio sênior pós-doutoral na Universität Konstanz, Alemanha, financiado pela CAPES (Processo nº BEX 10175/12-1), a BrGram, uma gramática computacional do português do Brasil.

A LFG como teoria gramatical subjacente e o XLE como ambiente de desenvolvimento

Implementada no formalismo gerativo da Gramática Léxico-Funcional (LFG, do inglês Lexical-Functional Grammar), utilizando o Xerox Linguistic Environment (XLE), o estado da arte no desenvolvimento de gramáticas computacionais nesse formalismo, a BrGram, que segue a filosofia do Projeto ParGram,  ainda se encontra num estágio inicial, uma vez que foi desenvolvida em apenas poucos meses. Colaborações para ampliar a BrGram, sobretudo na área do léxico, são bem-vindas, visto que são necessárias centenas de milhares de entradas lexicais para que se possam analisar textos irrestritos em português do Brasil.

Integração da BrGram aos projetos ParGram e ParGramBank

Apesar de representar, no momento, apenas um protótipo, a BrGram já é capaz de analisar as 50 sentenças do Projeto ParGramBank, um esforço internacional para a construção de um corpus paralelo, sintaticamente anotado, constituído de análises de um mesmo conjunto de sentenças em línguas de diversas famílias linguísticas, com base na notação do Projeto ParGram. No momento, o ParGramBank, que pode ser acessado on-line pelo INESS, um sistema de código-aberto para recursos linguísticos, conta com 11 línguas, entre as quais o português do Brasil figura como única representante das línguas neolatinas. No INESS, a floresta sintática (treebank) do português do Brasil denominada por-pargram, que integra o ParGramBank, foi gerada pela minha gramática BrGram. Para visualizar as análises, é necessária uma versão atualizada dos navegador Firefox ou Chrome.

Publicações sobre a BrGram

Listo a seguir as produções científicas sobre a BrGram em diferentes estágios de desenvolvimento. 

Artigo em periódico do estrato QUALIS A1


ALENCAR, L. F. de. Modelação computacional de padrões variáveis de concordância em português. Revista de Estudos da Linguagem, v. 21, n. 1, p. 43 -110, jan./jun. 2013.



Apresentação de palestra
ALENCAR, L. F. de. A ParGram Grammar of Brazilian Portuguese, 2013.

Palavras-chave: Análise sintática automática, Gramática Léxico-Funcional (LFG), Parsing, Processamento Computacional do Português, Sintaxe, Teoria X-barra
Áreas do conhecimento: Linguística Computacional, Teoria e Análise Linguística, Gramática Gerativa
Referências adicionais: Hungria/Inglês. Meio de divulgação: Hipertexto. Home page: http://hungram.unideb.hu/ParGram_ParSem_2013/; Local: University of Debrecen; Cidade: Debrecen, Hungria; Evento: ParGram-ParSem Meeting 2013; Inst.promotora/financiadora: Department of English Linguistics, University of Debrecen

Trabalhos publicados em anais de eventos (resumo expandido)


ALENCAR, L. F. de. Computer modeling of syntactic microvariation: the problem of co-existing verb agreement patterns in European and Brazilian Portuguese dialects, 2013. 
Palavras-chave: Análise sintática automática, Concordância semântica, Gramática Léxico-Funcional (LFG), Hipótese DP, Sintaxe dialetal, Concordância verbal
Áreas do conhecimento: Linguística Computacional, Teoria e Análise Linguística, Gramática Gerativa
Referências adicionais: Alemanha/Português. Meio de divulgação: Meio digital. Home page: http://ling.uni-konstanz.de/pages/home/edisyn2013/leonel_alencar.pdf; Local: Universidade de Konstanz; Cidade: Konstanz; Evento: Workshop European Dialect Syntax VII; Inst.promotora/financiadora: Departamento de Linguística da Universidade de Konstanz


Trabalhos publicados em anais de eventos (trabalho completo)



ALENCAR, L. F. de. BrGram: uma gramática computacional de um fragmento do português brasileiro no formalismo da LFG. In: BRAZILIAN SYMPOSIUM IN INFORMATION AND HUMAN LANGUAGE TECHNOLOGY – STIL, n. 9, 21 e 22 de outubro de 2013, Fortaleza. Proceedings... [No prelo.]



2 comentários:

  1. Excelente trabalho Leonel! Legal ver as 50 sentencas em portugues. eu queria saber porque "agricultor" e nao "fazendeiro" que me parece uma traducao melhor. E queria saber se voce pode usar/esta' usando a OpenWN-PT como parte do seu lexico.

    ResponderExcluir
  2. Obrigado, Valéria! Fiquei com muitas dúvidas em relação às traduções, sobretudo porque se trata de sentenças sem contexto. Mas vou levar em conta sua sugestão de substituir "agricultor" por "fazendeiro" na próxima versão do por-pargram. No momento, o grande desafio da BrGram é expandir o léxico. Vou verificar se dá para aproveitar a OpenWN-PT.

    ResponderExcluir