sábado, 28 de setembro de 2013

Mescla nos fazeres linguístico e informático

A respeito de Paul Meurer, que desenvolveu a interface de análise sintática computacional e o ambiente de florestas sintáticas do INESS (Norwegian Infrastructure for the Exploration of Syntax and Semantics), cabe abrir uns parênteses: esse pesquisador é um representante típico da comunidade de linguística computacional europeia, onde, nas carreiras de muitos profissionais, se dissiparam as fronteiras entre os fazeres linguístico e informático ou se mesclaram essas duas atividades. De fato, a formação desse pesquisador é na área de matemática. No entanto, além de programador, ele é o responsável pela gramática do georgiano, implementada em LFG por meio do XLE, no âmbito do Projeto ParGram.  

quinta-feira, 26 de setembro de 2013

Exemplos de análises sintáticas automáticas

A BrGram, minha gramática computacional do português do Brasil, realizou automaticamente, por meio do XLE (Xerox Linguistic Environment), a análise das 50 sentenças que compõem o por-pargram, um banco de árvores sintáticas (treebank em inglês, termo que se costuma traduzir como floresta sintática) nos moldes da Gramática Léxico-Funcional (LFG, do inglês Lexical-Functional Grammar), modelo gerativo baseado na unificação.

Para visualizar a floresta sintática gerada pela BrGram, acesse o site http://iness.uib.no/iness/main-page e clique em Treebank selection. É necessária uma versão atual do navegador Firefox ou Chrome para que as análises sejam apresentadas corretamente. Esse recurso é um dos vários disponibilizados pelo INESS (Norwegian Infrastructure for the Exploration of Syntax and Semantics). No caso do ambiente para florestas sintáticas no formato da LFG, a interface, desenvolvida por Paul Meurer, permite visualizar que nós da C-structure corresponde a que partes da F-structure.

Sobre essa interface, consultar:

Victoria Rosén, Koenraad De Smedt, Paul Meurer, and Helge Dyvik. An open infrastructure for advanced treebanking. In Jan Hajič, Koenraad De Smedt, Marko Tadić, and António Branco (eds.) META-RESEARCH Workshop on Advanced Treebanking at LREC2012, pages 22–29, Istanbul, Turkey, May 2012.

A seguir, apresento algumas das análises do por-pargram ou geradas pela BrGram diretamente no XLE:







segunda-feira, 16 de setembro de 2013

Agradecimentos

Diversas pessoas contribuíram de forma decisiva para que a BrGram, minha gramática computacional do português do Brasil no formalismo da LFG, implementada no sistema XLE, se tornasse possível. Em primeiro lugar, cabe agradecer a Valeria de Paiva pela intermediação junto a John Maxwell e Daniel Bobrow, ambos do PARC, para obtenção de licença do XLE, pelo que sou grato também a essa instituição. Agradecimentos são devidos, também, a Alexandre Rademaker (IBM Research e Escola de Matemática Aplicada/FGV), no Rio de Janeiro, por dicas sobre a instalação do XLE.
Em terceiro lugar, agradeço aos participantes do ParGram/ParSem Meeting 2013, em Debrecen, na Hungria, pelos valiosos comentários e sugestões.
Finalmente, mas não menos importante, agradeço à Fundação CAPES e ao DAAD (Serviço Alemão de Intercâmbio Acadêmico) pelas bolsas para duas estadas, em 2012 e 2013, no Departamento de Linguística da Universität Konstanz, na qualidade, respectivamente, de Professor Visitante e Cientista Visitante. Essa última estada ocorreu no âmbito do Programa de Estágio Sênior Pós-Doutoral da CAPES, Processo nº BEX 10175/12-1.

sexta-feira, 6 de setembro de 2013

Processamento computacional sintático profundo do português do Brasil

BrGram: uma gramática computacional para o parsing profundo do português do Brasil

Objetivo

Visando ao processamento computacional sintático profundo (deep syntactic parsing) do português do Brasil, desenvolvi, durante o meu estágio sênior pós-doutoral na Universität Konstanz, Alemanha, financiado pela CAPES (Processo nº BEX 10175/12-1), a BrGram, uma gramática computacional do português do Brasil.

A LFG como teoria gramatical subjacente e o XLE como ambiente de desenvolvimento

Implementada no formalismo gerativo da Gramática Léxico-Funcional (LFG, do inglês Lexical-Functional Grammar), utilizando o Xerox Linguistic Environment (XLE), o estado da arte no desenvolvimento de gramáticas computacionais nesse formalismo, a BrGram, que segue a filosofia do Projeto ParGram,  ainda se encontra num estágio inicial, uma vez que foi desenvolvida em apenas poucos meses. Colaborações para ampliar a BrGram, sobretudo na área do léxico, são bem-vindas, visto que são necessárias centenas de milhares de entradas lexicais para que se possam analisar textos irrestritos em português do Brasil.

Integração da BrGram aos projetos ParGram e ParGramBank

Apesar de representar, no momento, apenas um protótipo, a BrGram já é capaz de analisar as 50 sentenças do Projeto ParGramBank, um esforço internacional para a construção de um corpus paralelo, sintaticamente anotado, constituído de análises de um mesmo conjunto de sentenças em línguas de diversas famílias linguísticas, com base na notação do Projeto ParGram. No momento, o ParGramBank, que pode ser acessado on-line pelo INESS, um sistema de código-aberto para recursos linguísticos, conta com 11 línguas, entre as quais o português do Brasil figura como única representante das línguas neolatinas. No INESS, a floresta sintática (treebank) do português do Brasil denominada por-pargram, que integra o ParGramBank, foi gerada pela minha gramática BrGram. Para visualizar as análises, é necessária uma versão atualizada dos navegador Firefox ou Chrome.

Publicações sobre a BrGram

Listo a seguir as produções científicas sobre a BrGram em diferentes estágios de desenvolvimento. 

Artigo em periódico do estrato QUALIS A1


ALENCAR, L. F. de. Modelação computacional de padrões variáveis de concordância em português. Revista de Estudos da Linguagem, v. 21, n. 1, p. 43 -110, jan./jun. 2013.



Apresentação de palestra
ALENCAR, L. F. de. A ParGram Grammar of Brazilian Portuguese, 2013.

Palavras-chave: Análise sintática automática, Gramática Léxico-Funcional (LFG), Parsing, Processamento Computacional do Português, Sintaxe, Teoria X-barra
Áreas do conhecimento: Linguística Computacional, Teoria e Análise Linguística, Gramática Gerativa
Referências adicionais: Hungria/Inglês. Meio de divulgação: Hipertexto. Home page: http://hungram.unideb.hu/ParGram_ParSem_2013/; Local: University of Debrecen; Cidade: Debrecen, Hungria; Evento: ParGram-ParSem Meeting 2013; Inst.promotora/financiadora: Department of English Linguistics, University of Debrecen

Trabalhos publicados em anais de eventos (resumo expandido)


ALENCAR, L. F. de. Computer modeling of syntactic microvariation: the problem of co-existing verb agreement patterns in European and Brazilian Portuguese dialects, 2013. 
Palavras-chave: Análise sintática automática, Concordância semântica, Gramática Léxico-Funcional (LFG), Hipótese DP, Sintaxe dialetal, Concordância verbal
Áreas do conhecimento: Linguística Computacional, Teoria e Análise Linguística, Gramática Gerativa
Referências adicionais: Alemanha/Português. Meio de divulgação: Meio digital. Home page: http://ling.uni-konstanz.de/pages/home/edisyn2013/leonel_alencar.pdf; Local: Universidade de Konstanz; Cidade: Konstanz; Evento: Workshop European Dialect Syntax VII; Inst.promotora/financiadora: Departamento de Linguística da Universidade de Konstanz


Trabalhos publicados em anais de eventos (trabalho completo)



ALENCAR, L. F. de. BrGram: uma gramática computacional de um fragmento do português brasileiro no formalismo da LFG. In: BRAZILIAN SYMPOSIUM IN INFORMATION AND HUMAN LANGUAGE TECHNOLOGY – STIL, n. 9, 21 e 22 de outubro de 2013, Fortaleza. Proceedings... [No prelo.]



Capítulo sobre o Aelius 2013 na coletânea do LiPrAL 2012

Finalmente foi publicado, na coletânea de trabalhos selecionados do 1º Colóquio de Linguística para o Processamento Automático de Linguagem Natural – LiPrAL, realizado na UFES em 2012, o meu capítulo sobre toquenização e etiquetagem morfossintática do português no âmbito da versão do Aelius PosTagger de 2013:

ALENCAR, Leonel Figueiredo de. Novos recursos do Aelius para o processamento computacional raso do português. In: LAPORTE, E.; SMARSARO, A.; VALE, O. (Orgs.). Dialogar é preciso: linguística para o processamento de línguas.1 ed.Vitória: PPGEL/UFES, 2013, p. 7-20. ISBN: 978-85-8087-104-3


Resumo: A fim de tornar acessível a estudantes e pesquisadores de Letras e 
Linguística a análise automática de textos por meio de diversas bibliotecas 
livremente disponíveis e como forma de iniciação na linguística computa- 
cional, também por parte de alunos de engenharia e computação, iniciamos 
o desenvolvimento do Aelius. Esse software, implementado em Python com 
base no NLTK, constitui-se de ferramentas específicas para o processamento 
sintático raso do português, complementando, desse modo, essa biblioteca, 
carente de recursos para essa língua, ao mesmo tempo em que oferece uma 
interface ainda mais amigável, viabilizando, desse modo, a sua utilização 
por não programadores. Neste artigo, focamos os novos recursos do Aelius 
para a toquenização e etiquetagem morfossintática do português, comparan- 
do-os com os da biblioteca Apache OpenNLP, aparentemente a caixa de fer- 
ramentas para o PALN que mais se aproxima do NLTK. Nessa comparação, 
o Aelius revelou-se uma alternativa superior no que concerne à toquenização 
e etiquetagem morfossintática do português, não só por apresentar melhor 
acurácia, mas também por permitir anotar textos morfossintaticamente se- 
gundo estratégias diferentes de toquenização e conforme conjuntos de eti- 
quetas distintos, inclusive por meio de ferramentas externas, a partir de uma 
única interface. 
Palavras-chave: Análise sintática rasa. Toquenização. Etiquetagem morfos- 
sintática automática. Anotação de corpora linguísticos. NLTK. Python. 

Áreas: Linguística computacional, Processamento automático de linguagem natural, Processamento computacional do português, Linguística de corpus.

O artigo está disponível em versão integral para download ou leitura on-line:


sexta-feira, 1 de março de 2013

Aelius na coletânea de artigos do 1º LiPrAL

Está para ser publicada coletânea com artigos de ministrantes de minicursos, conferencistas e participantes do 1º Colóquio de Linguística para o Processamento Automático de Linguagem Natural (LiPrAL).
Nessa coletânea, há o seguinte artigo sobre o Aelius:

ALENCAR, Leonel Figueiredo de. Novos recursos do Aelius para o processamento computacional raso do português. In: Laporte, Eric; Smarsaro, Aucione; Vale, Oto. (Orgs.). Dialogar é preciso: Linguística para processamento de línguas. Vitória: PPGEL/UFES, 2013.

quarta-feira, 27 de fevereiro de 2013

Aelius POS-Tagger 2013

Finalmente, está disponível no SourceForge a nova versão do Aelius Brazilian Portuguese POS-Tagger and Corpus Annotation Tool, que conta, agora, com um detalhado manual:

http://aelius.sourceforge.net/

O Aelius 2013 está muito mais poderoso. Entre outras coisas, consegue etiquetar morfossintaticamente  textos com base em três tag sets e vários algoritmos de aprendizagem de máquina! A etiquetagem morfossintática pelo Apache OpenNLP via Aelius é mais precisa do que pela própria ferramenta de etiquetagem do Apache OpenNLP porque o Aelius toqueniza corretamente as contrações e ênclises.

Palavras-chave: Linguística computacional. Processamento computacional do português. Toquenização. NLTK. Python. Etiquetagem morfossintática. Anotação de corpora linguísticos. 

Keywords: Computational linguistics. Shallow processing of Brazilian Portuguese. Tokenization. Tokenizing. NLTK. Python. POS-tagging. Part-of-speech tagging. Morpho-syntactic tagging. Corpus annotation.

quinta-feira, 7 de fevereiro de 2013

Caixas de ferramentas para o PLN

Panorama sucinto e principais bibliotecas para o processamento automático da linguagem natural que constituem software livre e de código aberto


Abaixo, uma descrição concisa e bem elaborada da função do processamento automático da linguagem natural no mundo empresarial, descrevendo algumas das principais bibliotecas (caixas de ferramentas) para execução de diversas tarefas de análise computacional de textos, as quais desempenham um papel cada vez mais importante no setor de tecnologia da informação:

http://osintegrators.com/opensoftwareintegrators%7Chowyoucanbenefitfromopensourcenaturallanguageprocessing

sexta-feira, 1 de fevereiro de 2013

Novos etiquetadores do Aelius

Exemplo de texto


Dois parágrafos iniciais de Luzia-Homem de Domingos Olímpio

O morro do Curral do Açougue emergia em suave declive da campina ondulada. Escorchado, indigente de arvoredo, o cômoro enegrecido pelo sangue de reses sem conto, deixara de ser o sítio sinistro do matadouro e a pousada predileta de bandos de urubutingas e camirangas vorazes.

Bateram-se os vastos currais, de grossos esteios de aroeira, fincados a pique, rijos como barras de ferro, currais seculares, obra ciclópica, da qual restava apenas, como lúgubre vestígio, o moirão ligeiramente inclinado, adelgaçado no centro, polido pelo contínuo atrito das cordas de laçar as vítimas, que a ele eram arrastadas aos empuxões, bufando, resistindo, ou entregando, resignadas e mansas, o pescoço à faca do magarefe. Ali, no sítio de morte, fervilhavam, então, em ruidosa diligência, legiões de operários construindo a penitenciária de Sobral.

Etiquetagem morfossintática pelo Aelius

Utilização do conjunto de etiquetas do Corpus Histórico do Português Tycho Brahe

>>> import os
>>> os.chdir("../analises")
>>> texto="luzia_inicio.txt"
>>> texto
'luzia_inicio.txt'
>>> print open(texto).read()
O morro do Curral do Açougue emergia em suave declive da campina ondulada. Escorchado, indigente de arvoredo, o cômoro enegrecido pelo sangue de reses sem conto, deixara de ser o sítio sinistro do matadouro e a pousada predileta de bandos de urubutingas e camirangas vorazes.

Bateram-se os vastos currais, de grossos esteios de aroeira, fincados a pique, rijos como barras de ferro, currais seculares, obra ciclópica, da qual restava apenas, como lúgubre vestígio, o moirão ligeiramente inclinado, adelgaçado no centro, polido pelo contínuo atrito das cordas de laçar as vítimas, que a ele eram arrastadas aos empuxões, bufando, resistindo, ou entregando, resignadas e mansas, o pescoço à faca do magarefe. Ali, no sítio de morte, fervilhavam, então, em ruidosa diligência, legiões de operários construindo a penitenciária de Sobral.





>>> from Aelius import Extras, Toqueniza, AnotaCorpus
>>> h=Extras.carrega("AeliusHunPos")
>>> AnotaCorpus.anota_texto(texto,h,"hunpos",Toqueniza.TOK_PORT)
Arquivo anotado:
luzia_inicio.hunpos.txt
>>> print open("luzia_inicio.hunpos.txt").read()
O/D morro/N do/P+D Curral/NPR do/P+D Açougue/N emergia/VB-D em/P suave/ADJ-G declive/N da/P+D-F campina/N ondulada/VB-AN-F ./.
Escorchado/VB-AN ,/, indigente/ADJ-G de/P arvoredo/N ,/, o/D cômoro/NPR enegrecido/VB-AN pelo/P+D sangue/N de/P reses/N-P sem/P conto/N ,/, deixara/VB-RA de/P ser/SR o/D sítio/N sinistro/N do/P+D matadouro/N e/CONJ a/D-F pousada/N predileta/ADJ-F de/P bandos/N-P de/P urubutingas/N-P e/CONJ camirangas/N-P vorazes/ADJ-G-P ./.


Bateram/VB-D -/+ se/SE os/D-P vastos/ADJ-P currais/N-P ,/, de/P grossos/ADJ-P esteios/N-P de/P aroeira/N ,/, fincados/VB-AN-P a/P pique/N ,/, rijos/ADJ-P como/CONJS barras/N-P de/P ferro/N ,/, currais/N-P seculares/ADJ-G-P ,/, obra/N ciclópica/ADJ-F ,/, da/P+D-F qual/WPRO restava/VB-D apenas/ADV ,/, como/CONJS lúgubre/ADJ-G vestígio/N ,/, o/D moirão/N ligeiramente/ADV inclinado/VB-AN ,/, adelgaçado/VB-AN no/P+D centro/N ,/, polido/VB-AN pelo/P+D contínuo/ADJ atrito/N das/P+D-F-P cordas/N-P de/P laçar/VB as/D-F-P vítimas/N-P ,/, que/WPRO a/P ele/PRO eram/SR-D arrastadas/VB-AN-F-P aos/P+D-P empuxões/N-P ,/, bufando/VB-G ,/, resistindo/VB-G ,/, ou/CONJ entregando/VB-G ,/, resignadas/VB-AN-F-P e/CONJ mansas/VB-AN-F-P ,/, o/D pescoço/N à/P+D-F faca/N do/P+D magarefe/N ./.
Ali/ADV ,/, no/P+D sítio/N de/P morte/N ,/, fervilhavam/VB-D ,/, então/ADV ,/, em/P ruidosa/ADJ-F diligência/N ,/, legiões/N-P de/P operários/N-P construindo/VB-G a/D-F penitenciária/N de/P Sobral/NPR ./.


Utilização do conjunto de etiquetas do corpus MAC-Morpho

>>> m=Extras.carrega("AeliusHunPosMM")
>>> AnotaCorpus.INFIXO="hunpos_macmorpho"
>>> AnotaCorpus.anota_texto(texto,m,"hunpos",Toqueniza.TOK_PORT_MM,separacao_contracoes=True)
Arquivo anotado:
luzia_inicio.hunpos_macmorpho.txt
>>> print open("luzia_inicio.hunpos_macmorpho.txt").read()
O/ART morro/N de/PREP|+ o/ART Curral/N de/PREP|+ o/ART Açougue/N emergia/V em/PREP suave/ADJ declive/N de/PREP|+ a/ART campina/N ondulada/PCP ./.
Escorchado/NPROP ,/, indigente/N de/PREP arvoredo/N ,/, o/ART cômoro/N enegrecido/PCP por/PREP|+ o/ART sangue/N de/PREP reses/N sem/PREP conto/N ,/, deixara/VAUX de/PREP ser/V o/ART sítio/N sinistro/ADJ de/PREP|+ o/ART matadouro/N e/KC a/ART pousada/N predileta/ADJ de/PREP bandos/N de/PREP urubutingas/N e/KC camirangas/N vorazes/ADJ ./.


Bateram/V se/KS os/ART vastos/ADJ currais/N ,/, de/PREP grossos/ADJ esteios/N de/PREP aroeira/N ,/, fincados/PCP a/ART pique/N ,/, rijos/PCP como/PREP barras/N de/PREP ferro/N ,/, currais/N seculares/ADJ ,/, obra/N ciclópica/ADJ ,/, de/PREP|+ a/PRO-KS-REL qual/PRO-KS-REL restava/V apenas/PDEN ,/, como/PREP lúgubre/ADJ vestígio/N ,/, o/ART moirão/N ligeiramente/ADV inclinado/PCP ,/, adelgaçado/PCP em/PREP|+ o/ART centro/N ,/, polido/PCP por/PREP|+ o/ART contínuo/ADJ atrito/N de/PREP|+ as/ART cordas/N de/PREP laçar/V as/ART vítimas/N ,/, que/PRO-KS-REL a/PREP ele/PROPESS eram/V arrastadas/PCP a/PREP|+ os/ART empuxões/N ,/, bufando/V ,/, resistindo/V ,/, ou/KC entregando/V ,/, resignadas/PCP e/KC mansas/PCP ,/, o/ART pescoço/N a/PREP|+ a/ART faca/N de/PREP|+ o/ART magarefe/N ./.
Ali/ADV ,/, em/PREP|+ o/ART sítio/N de/PREP morte/N ,/, fervilhavam/V ,/, então/ADV ,/, em/PREP ruidosa/ADJ diligência/N ,/, legiões/N de/PREP operários/N construindo/V a/ART penitenciária/N de/PREP Sobral/NPROP ./.





Avaliação de etiquetadores pelo Aelius

Etiquetagem nos moldes do Corpus Histórico do Português Tycho Brahe



 

>>> from Aelius import Avalia
>>> ouro="luzia_inicio.chptb.gold.txt"
>>> print open(ouro).read()
O/D morro/N do/P+D Curral/NPR do/P+D Açougue/NPR emergia/VB-D em/P suave/ADJ-G declive/N da/P+D-F campina/N ondulada/VB-AN-F ./.
Escorchado/VB-AN ,/, indigente/ADJ-G de/P arvoredo/N ,/, o/D cômoro/N enegrecido/VB-AN pelo/P+D sangue/N de/P reses/N-P sem/P conto/N ,/, deixara/VB-RA de/P ser/SR o/D sítio/N sinistro/ADJ do/P+D matadouro/N e/CONJ a/D-F pousada/N predileta/ADJ-F de/P bandos/N-P de/P urubutingas/N-P e/CONJ camirangas/N-P vorazes/ADJ-G-P ./.


Bateram/VB-D -/+ se/SE os/D-P vastos/ADJ-P currais/N-P ,/, de/P grossos/ADJ-P esteios/N-P de/P aroeira/N ,/, fincados/VB-AN-P a/P pique/N ,/, rijos/ADJ-P como/CONJS barras/N-P de/P ferro/N ,/, currais/N-P seculares/ADJ-G-P ,/, obra/N ciclópica/ADJ-F ,/, da/P+D-F qual/WPRO restava/VB-D apenas/ADV ,/, como/CONJS lúgubre/ADJ-G vestígio/N ,/, o/D moirão/N ligeiramente/ADV inclinado/VB-AN ,/, adelgaçado/VB-AN no/P+D centro/N ,/, polido/VB-AN pelo/P+D contínuo/ADJ atrito/N das/P+D-F-P cordas/N-P de/P laçar/VB as/D-F-P vítimas/N-P ,/, que/WPRO a/P ele/PRO eram/SR-D arrastadas/VB-AN-F-P aos/P+D-P empuxões/N-P ,/, bufando/VB-G ,/, resistindo/VB-G ,/, ou/CONJ entregando/VB-G ,/, resignadas/VB-AN-F-P e/CONJ mansas/ADJ-F-P ,/, o/D pescoço/N à/P+D-F faca/N do/P+D magarefe/N ./.
Ali/ADV ,/, no/P+D sítio/N de/P morte/N ,/, fervilhavam/VB-D ,/, então/ADV ,/, em/P ruidosa/ADJ-F diligência/N ,/, legiões/N-P de/P operários/N-P construindo/VB-G a/D-F penitenciária/N de/P Sobral/NPR ./.

>>> Avalia.TestaEtiquetador(h,"hunpos",ouro=ouro)
Total de erros: 4
Total de palavras:158
Acurácia:97.468354
>>> Avalia.VERBOSE=True
>>> Avalia.TestaEtiquetador(h,"hunpos",ouro=ouro)
Total de erros: 4
Total de palavras:158
Acurácia:97.468354
>>> Avalia.exibe_erros()
Anotação automática    Anotação humana

Açougue/N    Açougue/NPR
cômoro/NPR    cômoro/N
sinistro/N    sinistro/ADJ
mansas/VB-AN-F-P    mansas/ADJ-F-P
>>>


Etiquetagem nos moldes do corpus MAC-Morpho

>>> gold="luzia_inicio.macmorpho.gold.txt"
>>> Avalia.TestaEtiquetador(m,"hunpos",ouro=gold)
Total de erros: 9
Total de palavras:170
Acurácia:94.705882
>>> Avalia.exibe_erros()
Anotação automática    Anotação humana

Curral/N    Curral/NPROP
Açougue/N    Açougue/NPROP
indigente/N    indigente/ADJ
Bateram/V    Bateram/V|+
se/KS    se/PROPESS
a/ART    a/PREP
rijos/PCP    rijos/ADJ
a/PRO-KS-REL    a/PROSUB
mansas/PCP    mansas/ADJ
>>>










 





terça-feira, 29 de janeiro de 2013

Simpósio de Linguística Computacional em Fortaleza

O STIL 2013 – The 9th Brazilian Symposium in Information and Human Language Technology será realizado em Fortaleza, no período de 21 a 23 de outubro de 2013.  São aceitas, até 31 de março de 2013, submissões de trabalhos nas áreas de liguística computacional, linguística de corpus e outras subdisciplinas linguístiicas relevantes para o processamento automático da linguagem natural, conforme a chamada de trabalhos que reproduzo abaixo.



FIRST CALL FOR PAPERS

STIL 2013 - The 9th Brazilian Symposium in Information and Human Language Technology
Fortaleza/Ceará, October 21-23, 2013

STIL is the bi-annual Language Technology event supported by the Brazilian Computer Society (SBC - http://www.sbc.org.br) and by the Brazilian Special Interest Group on Natural Language Processing (CE-PLN -  http://www.nilc.icmc.usp.br/cepln/).

In 2013, it will be held in conjunction with both BRACIS 2013 (Brazilian Conference on Intelligent Systems), the combination of the Brazilian Symposium on Artificial Intelligence (SBIA) and the Brazilian Symposium on Neural Networks (SBRN), and ENIAC 2013 (Encontro Nacional de Inteligência Artificial e Computacional).

STIL will have the following collocated events: III Workshop on Portuguese Description, III Student Workshop on Information and Human Language Technology (TILic) and IV Workshop RST and the Lexical Studies.

The conference has a multidisciplinary nature and covers a broad spectrum of disciplines related to Human Language Technology, such as Linguistics, Computer Science, Psycholinguistics, Information Science, among others. It aims at bringing together both academic and industrial participants working on those areas.

STIL 2013 welcomes research work in human language technology in general (and not only Portuguese) in various fields. Topics of interest include, but are not limited to:
-       Natural Language Processing Applications
-       Natural Language Resources & Tools
-       User Studies and Evaluation Methods
-       Corpus Linguistics
-       Phonology/Morphology, Tagging and Chunking, Word Segmentation
-       Terminology, Lexicology and Lexicography
-       Lexical Semantics
-       Grammar Formalisms, Syntax and Parsing
-       Semantics, Semantic Representations and Semantic Parsing
-       Discourse, Dialogue and Pragmatics
-       Information Extraction & Retrieval
-       Question Answering
-       Human and Machine Translation, Multilinguality
-       Summarization and Generation
-       Sentiment Analysis and Opinion Mining
-       Text Classification
-       Text/Web Mining
-       Spoken Language Processing
-       Statistical and Machine Learning Methods for Language Processing
-       Semantic web
-       Ontologies
-       NLP for Web 2.0
-       Natural language interfaces
-       Computer-aided writing tools
-       Psycholinguistics
-       Information filtering and retrieval
-       Digital libraries
-       Document and knowledge management
-       Knowledge representation and modeling

GUIDELINES FOR SUBMISSION OF PAPERS

* Language

Papers can be written in English, Portuguese or Spanish.

*Length

We accept submissions of long and short papers. Long papers should describe complete work with significant results. Short papers can report work in progress, negative results, position papers, application papers.

Long papers may have up to eight (8) pages of content (including tables and pictures), with two (2) additional pages of references, and will be presented orally. Short papers should have up to four (4) pages of content, and one (1) additional page of references, and will be presented as posters. Authors should also indicate whether they accept their long paper to be reallocated as a poster should the reviewers recommend so.

* Format

Paper formatting must follow the SBC guidelines available at this address: http://www.sbc.org.br/index.php?option=com_jdownloads&Itemid=195&task=view.download&catid=32&cid=38

* Reviewing Process

All submitted papers will be reviewed by at least two experts in the field.

The reviewing will be double blind and therefore papers should not display any information regarding their authorship in the header or body of the text. Self-references that reveal the author's identity, e.g., "As we previously showed (Silva, 2005)...", must be avoided. Instead, authors such use "Silva previously showed (Silva, 2005) ...".

* Proceedings and Best Papers

All accepted papers (long and short) will be published in the online conference proceedings available  at the STIL website (soon available), under an ISBN reference. Authors of best selected papers will be invited to submit extended versions to one of the following:
- Journal of the Brazilian Computer Society (http://www.springer.com/computer/journal/13173) and
- a specialized journal of Artificial Intelligence and Natural Language Processing (TBA)

* Submission Policy

By submitting papers to STIL 2013, the authors agree that in case of acceptance at least one author  registers to the conference and presents the paper. Furthermore, it is the conference policy that at least one of the authors of accepted papers has to register **before** the deadline for sending the camera-ready paper. Accepted papers without the respective author registration **before** the deadline will not be included in the online proceedings.

* Important Dates

Deadline Submission for Long and Short Papers: March 31, 2013
Acceptance notification: May 31, 2013
Final camera-ready papers due: June 23, 2013

* Submission System

Long and short papers should only be submitted in PDF files via JEMS system  by the deadline indicated above. More information about the submission, using the system, will be given soon.

PROGRAM CHAIRS

Profa. Sandra Maria Aluísio (ICMC/USP)
Profa. Valéria Delisandra Feltrim (DIN/UEM)

LOCAL CHAIR

Profa. Vladia Pinheiro (UNIFOR)

EMAIL CONTACT

stil.secretaria.2013@gmail.com

Anais do X Encontro de Linguística de Corpus

CARVALHO, C. I. da C. ; VASCONCELOS, D. M. ; ALENCAR, L. F. de . Superando o estado da arte na etiquetagem morfossintática por meio de regras de pós-etiquetagem. In: X Encontro de Linguística de Corpus, 2011, Belo Horizonte. X Encontro de Linguística de Corpus, 2011.

Palavras-chave: Algoritmo; anotação automática de corpora; etiquetagem morfossintática; NLTK; Python.


Grande área: Lingüística, Letras e Artes / Área: Lingüística / Subárea: Lingüística Computacional. 


Grande Área: Lingüística, Letras e Artes / Área: Lingüística / Subárea: Lingüística de Corpus.
 
Grande Área: Lingüística, Letras e Artes / Área: Lingüística / Subárea: Teoria e Análise Lingüística. 



Referências adicionais: Classificação do evento: Internacional; Brasil/ Português; Meio de divulgação: Digital; Homepage: http://www.letras.ufmg.br/CMS/index.asp?pasta=linguisticacorpus2011; ISSN/ISBN: 9788577581535.