Grupo de Pesquisa Computação e Linguagem Natural

O grupo CompLin – Computação e Linguagem Natural foca a investigação, em nível teórico, dos aspectos computacionais das gramáticas das línguas naturais bem como a aplicação prática desses estudos no desenvolvimento de programas de processamento automático da linguagem humana em diferentes níveis, inserindo-se, portanto, na confluência entre a linguística teórica e descritiva, a linguística de corpus e a linguística computacional.

quinta-feira, 13 de dezembro de 2012

Minicurso no 1º LiPrAL

1º Colóquio de Linguística para o Processamento Automático de Linguagem Natural – 1º LiPrAL

UFES - Campus universitário de Goiabeiras

novembro 29, 2012 – novembro 30, 2012

Minicurso Introdução à análise sintática automática do português

Leonel Figueiredo de Alencar

Universidade Federal o Ceará (UFC)

No âmbito das tecnologias da linguagem natural, a análise sintática automática (parsing) tem um amplo leque de aplicações, que vão da extração de informações à tradução automática, passando pela resolução de perguntas. Por outro lado, na linguística teórica e descritiva, a implementação computacional de uma gramática de uma língua permite verificar a sua consistência, adequação empírica e plausibilidade psicológica, por meio da aplicação de um parser a uma grande quantidade de textos. Neste minicurso, mostramos como desenvolver e testar parsers do português por meio do Aelius e do Donatus, que juntos constituem uma caixa de ferramentas para o parsing tanto raso quanto profundo e a anotação de corpora, combinando o processamento estatístico da linguagem natural com a abordagem baseada em regras. Implementados em Python e distribuídos sob uma licença livre, esses pacotes oferecem não só uma interface mais amigável para o NLTK (no qual estão sobretudo baseados) e outras bibliotecas, mas também várias outras facilidades, ao mesmo tempo em que contribuem para diminuir a carência de recursos livres para o processamento morfossintático computacional do português do Brasil.

Leituras recomendadas

ALENCAR, L. F. de. Donatus: uma interface amigável para o estudo da sintaxe formal utilizando a biblioteca em Python do NLTK. Alfa, rev. linguíst. (São José Rio Preto) [online]. 2012, vol.56, n.2, pp. 523-555. ISSN 1981-5794.

ALENCAR, L. F. de (Org.) ; OTHERO, G. A. (Org.) . Abordagens computacionais da teoria da gramática. 1. ed. Campinas: Mercado de Letras, 2012. 304 p.

ALENCAR, L. F. de. Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, Belo Horizonte, vol. 19, n. 1, p. 7-85, jan./jun. 2011.

Cursos de Python:

Learn to Program: The Fundamentals

https://class.coursera.org/programming1-2012-001/class/index

Think Python: How to Think Like a Computer Scientist

http://www.greenteapress.com/thinkpython/

Python Brasil

http://www.python.org.br/wiki

Artigo sobre parsing com o Donatus

Artigo recém-publicado sobre análise sintática automática do português usando o NLTK

ALENCAR, Leonel Figueiredo de. Donatus: uma interface amigável para o estudo da sintaxe formal utilizando a biblioteca em Python do NLTK. Alfa, rev. linguíst. (São José Rio Preto) [online]. 2012, vol.56, n.2, pp. 523-555. ISSN 1981-5794. (Qualis A1)

Disponível no seguinte endereço:

http://www.scielo.br/scielo.php?script=sci_serial&pid=1981-5794&lng=pt&nrm=is

sexta-feira, 5 de outubro de 2012

Aelius e Donatus: ferramentas de análise computacional do português

Aelius is a suite of Python, NLTK-based modules and language data for training and evaluating POS-taggers for Brazilian Portuguese and annotating corpora in this language variety:
http://aelius.sourceforge.net/

Donatus is an on-going project consisting of Python, NLTK-based tools and grammars for deep parsing and syntactical annotation of Brazilian Portuguese corpora. It includes a user-friendly graphical user interface for building syntactic parsers with the NLTK, providing some additional functionalities:
http://donatus.sourceforge.net/

terça-feira, 2 de outubro de 2012

Trabalhos no prelo

Artigo aceito para publicação

ALENCAR, L. F. de. "Donatus: uma interface amigável para o estudo da sintaxe formal utilizando a biblioteca em Python do NLTK". Alfa Revista de Linguística, São José do Rio Preto, Universidade Estadual Paulista, vol. 56, n. 2. ISSN Impresso: 0002-5216 ISSN Eletrônico: 1981-5794.

Capítulo de livro aceito para publicação

ALENCAR, L. F. de. "Aelius: uma ferramenta para anotação automática de corpora usando o NLTK". Livro com trabalhos selecionados do IX Encontro de Linguística de Corpus, Editora Mercado de Letras, Série Espaços da Linguística de Corpus, Campinas, São Paulo.

quinta-feira, 5 de abril de 2012

Publicações recentes

Publicações recentes de Leonel F. de Alencar, líder do CompLin, nas áreas de linguística computacional, linguística de corpus, processamento automático da linguagem natural, processamento computacional do português, sintaxe formal, gramática gerativa e morfologia computacional.

Para uma lista exaustiva das publicações de todos os membros do CompLin, consultar página do grupo no Diretório de Grupos de Pesquisa do Brasil.

Livros publicados/organizados ou edições

ALENCAR, L. F. de (Org.) ; OTHERO, G. A. (Org.) . Abordagens computacionais da teoria da gramática. 1. ed. Campinas: Mercado de Letras, 2012. 304 p.

Artigo em periódico QUALIS A1

Capítulos de livros publicados

ALENCAR, L. F. de . Línguas formais, gramáticas e autômatos no processamento automático das palavras. In: ALENCAR, L. F. de; OTHERO, G. A.. (Org.). Abordagens computacionais da teoria da gramática. 1 ed. Campinas: Mercado de Letras, 2012, p. 13-75.

ALENCAR, L. F. de ; OTHERO, G. A. . Introdução. In: ALENCAR, L. F. de; OTHERO, G. A.. (Org.). Abordagens computacionais da teoria da gramática. 1 ed. Campinas: Mercado de Letras, 2012, p. 9-12.

SILVA, A. L. R. ; ALENCAR, L. F. de . Aspectos da formação de adjetivos em -vel: um estudo com base em corpora. In: Eulália Vera Lúcia Fraga Leurquin; José de Ribamar Mendes Bezerra; Maria Elias Soares. (Org.). Gênero, ensino e formação de professores. 1 ed. Campinas: Mercado de Letras, 2011, v. 1, p. 85-98.

Comunicação em workshop internacional realizado no Brasil com publicação de resumo

ALENCAR, L. F. de. A wide-coverage free/open-source deep parser for Brazilian Portuguese: a work in progress. Trabalho apresentado via teleconferência no Encontro Logics and Ontologies for Portuguese, na Escola de Matemática Aplicada da Fundação Getúlio Vargas, Rio de Janeiro, de 21 a 25 de novembro de 2011. Disponível em: http://emap.fgv.br/events/nlp-2011/program.html Acesso em: 1º dez. 2011.

Comunicação em workshop internacional realizado no Brasil com publicação de artigo

ALENCAR, L. F. de. TRAGBRA: um tradutor automático bidirecional alemão-português de textos turísticos. Trabalho apresentado na mesa redonda “O tratamento automático das línguas: tradução e informatização” do II Simpósio Internacional sobre o Multilinguismo no Ciberespaço, na Universidade de Brasília, de 7 a 9 de novembro de 2011. Disponível em: http://let.unb.br/simc/celular/img/pdf/Alencar_Leonel.pdf Acesso em: 5 abr. 2011.

Comunicação em encontro nacional com publicação de resumo

CARVALHO, C. I. da C.; VASCONCELOS, D. M.; ALENCAR, L. F. de. Superando o estado da arte na etiquetagem morfossintática por meio de regras de pós-etiquetagem. Trabalho apresentado ao X Encontro de Linguística de Corpus, Belo Horizonte, UFMG, 11 e 12 de novembro de 2011. Disponível em:<http://www.letras.ufmg.br/CMS/index.asp?pasta=linguisticacorpus2011> Acesso em: 12 dez. 2011.

Comunicações em encontros locais (co-autor na qualidade de orientador)

SANTIAGO, A. C. ; SANTOS, A. F.; ALENCAR, L. F. de. Etiquetagem automática de textos de divulgação científica: comparação entre dois etiquetadores. Trabalho apresentado no XXX Encontro de Iniciação Científica da UFC, Fortaleza, 20 de outubro de 2011.

SILVA FILHO, R. L.; SILVA, G. R.; COSTA, E. L. da; ALENCAR, L. F. de. DIVCIE: um corpus de textos de divulgação científica. Trabalho apresentado no XXX Encontro de Iniciação Científica da UFC, Fortaleza, 20 de outubro de 2011.

terça-feira, 13 de março de 2012

Corpus de textos históricos

CORPTEXLIT – Corpus de Língua Portuguesa de Textos Literários do Século XIX

Projeto vinculado ao CompLin – Computação e Linguagem Natural, grupo de pesquisa sobre lingüística computacional, lingüística de corpus e gramática gerativa na Universidade Federal do Ceará

Descrição

O CORPTEXLIT é um corpus de textos de literatura brasileira do século XIX que compreenderá 40 obras do período anotadas morfossintaticamente de forma automática, totalizando cerca de 2,500,000 tokens, com 10% a serem revistos manualmente, constituindo base para versões mais robustas do etiquetador utilizado, o Aelius (Alencar, 2010). Dada a dimensão histórica do CORPTEXLIT, adotamos o sistema de anotação do Corpus Histórico do Português Tycho Brahe (CHPTB). Dessa forma, o CORPTEXLIT preencherá lacuna deixada em aberto pelo CHPTB, que, no momento, só dispõe de um único texto brasileiro do século XIX anotado (Alencar, 2010).
O projeto iniciou-se em junho de 2010 e tem uma duração prevista de 4 anos. No momento, está anotado automaticamente o romance Luzia-Homem, com os oito primeiros capítulos (quase 25% do total) manualmente corrigidos (para mais detalhes, ver Alencar, 2010).
Adotando a filosofia do software livre, o CORPTEXLIT será distribuído livremente à comunidade de estudantes e pesquisadores para utilização sem finalidades comerciais. O projeto está aberto, igualmente, à participação de quem quer que, imbuído dessa filosofia, se disponha a colaborar. Especialmente bem-vinda é a colaboração na revisão dos textos. Escreva-nos caso se interesse em participar do projeto.

Equipe

Prof. Dr. Leonel Figueiredo de Alencar – Coordenador
Andréa Feitosa dos Santos – Bolsista da FUNCAP – Doutoranda – Programa de Pós-Graduação em Lingüística
André Chaves Santiago – Bolsista de Iniciação Científica (PIBIC) do CNPq
Roberto Lopes da Silva Filho – Bolsista de Iniciação Científica (PIBIC) da UFC

Amostra do Corpus

Luzia-Homem (1903), de Domingos Olímpio (1850-1906)

Início do 1º capítulo

Anotação automática pelo Aelius

Etiquetador RUBT com cadeia de backoff [RegexpTagger, UnigramTagger, BigramTagger, TrigramTagger]

Versão anotada automaticamente sem correções (erros destacados em negrito)

Neste trecho de Luzia-Homem, o etiquetador RUBT do Aelius comete 5 erros em um total de 158 tokens, alcançando índice de acurácia de 96.84%.

O/D<1> morro/N<2> do/P+D<3> Curral/NPR<4> do/P+D<5> Açougue/NPR<6> emergia/VB-D<7> em/P<8> suave/ADJ-G<9> declive/N<10> da/P+D-F<11> campina/N<12> ondulada/VB-AN-F<13> ./.<14>
Escorchado/VB-AN<15> ,/,<16> indigente/ADJ-G<17> de/P<18> arvoredo/N<19> ,/,<20> o/D<21> cômoro/N<22> enegrecido/VB-AN<23> pelo/P+D<24> sangue/N<25> de/P<26> reses/N-P<27> sem/P<28> conto/N<29> ,/,<30> deixara/VB-RA<31> de/P<32> ser/SR<33> o/D<34> sítio/N<35> sinistro/N<36> do/P+D<37> matadouro/N<38> e/CONJ<39> a/D-F<40> pousada/N<41> predileta/ADJ-F<42> de/P<43> bandos/N-P<44> de/P<45> urubutingas/N-P<46> e/CONJ<47> camirangas/N-P<48> vorazes/ADJ-G-P<49> ./.<50>

Bateram/VB-D<51> -/+<52> se/SE<53> os/D-P<54> vastos/ADJ-P<55> currais/N-P<56> ,/,<57> de/P<58> grossos/ADJ-P<59> esteios/N-P<60> de/P<61> aroeira/N<62> ,/,<63> fincados/VB-AN-P<64> a/P<65> pique/N<66> ,/,<67> rijos/ADJ-P<68> como/CONJS<69> barras/N-P<70> de/P<71> ferro/N<72> ,/,<73> currais/N-P<74> seculares/ADJ-G-P<75> ,/,<76> obra/N<77> ciclópica/ADJ-F<78> ,/,<79> da/P+D-F<80> qual/WPRO<81> restava/VB-D<82> apenas/ADV<83> ,/,<84> como/CONJS<85> lúgubre/ADJ-G<86> vestígio/N<87> ,/,<88> o/D<89> moirão/VB-R<90> ligeiramente/ADV<91> inclinado/VB-AN<92> ,/,<93> adelgaçado/VB-AN<94> no/P+D<95> centro/N<96> ,/,<97> polido/ADJ<98> pelo/P+D<99> contínuo/ADJ<100> atrito/N<101> das/P+D-F-P<102> cordas/N-P<103> de/P<104> laçar/VB<105> as/D-F-P<106> vítimas/N-P<107> ,/,<108> que/WPRO<109> a/D-F<110> ele/PRO<111> eram/SR-D<112> arrastadas/VB-AN-F-P<113> aos/P+D-P<114> empuxões/N-P<115> ,/,<116> bufando/VB-G<117> ,/,<118> resistindo/VB-G<119> ,/,<120> ou/CONJ<121> entregando/VB-G<122> ,/,<123> resignadas/VB-AN-F-P<124> e/CONJ<125> mansas/N-P<126> ,/,<127> o/D<128> pescoço/N<129> à/P+D-F<130> faca/N<131> do/P+D<132> magarefe/N<133> ./.<134>
Ali/ADV<135> ,/,<136> no/P+D<137> sítio/N<138> de/P<139> morte/N<140> ,/,<141> fervilhavam/VB-D<142> ,/,<143> então/ADV<144> ,/,<145> em/P<146> ruidosa/ADJ-F<147> diligência/N<148> ,/,<149> legiões/N-P<150> de/P<151> operários/N-P<152> construindo/VB-G<153> a/D-F<154> penitenciária/N<155> de/P<156> Sobral/NPR<157> ./.<158>

Versão anotada corrigida (correções em negrito)

O/D<1> morro/N<2> do/P+D<3> Curral/NPR<4> do/P+D<5> Açougue/NPR<6> emergia/VB-D<7> em/P<8> suave/ADJ-G<9> declive/N<10> da/P+D-F<11> campina/N<12> ondulada/VB-AN-F<13> ./.<14>
Escorchado/VB-AN<15> ,/,<16> indigente/ADJ-G<17> de/P<18> arvoredo/N<19> ,/,<20> o/D<21> cômoro/N<22> enegrecido/VB-AN<23> pelo/P+D<24> sangue/N<25> de/P<26> reses/N-P<27> sem/P<28> conto/N<29> ,/,<30> deixara/VB-RA<31> de/P<32> ser/SR<33> o/D<34> sítio/N<35> sinistro/ADJ<36> do/P+D<37> matadouro/N<38> e/CONJ<39> a/D-F<40> pousada/N<41> predileta/ADJ-F<42> de/P<43> bandos/N-P<44> de/P<45> urubutingas/N-P<46> e/CONJ<47> camirangas/N-P<48> vorazes/ADJ-G-P<49> ./.<50>

Bateram/VB-D<51> -/+<52> se/SE<53> os/D-P<54> vastos/ADJ-P<55> currais/N-P<56> ,/,<57> de/P<58> grossos/ADJ-P<59> esteios/N-P<60> de/P<61> aroeira/N<62> ,/,<63> fincados/VB-AN-P<64> a/P<65> pique/N<66> ,/,<67> rijos/ADJ-P<68> como/CONJS<69> barras/N-P<70> de/P<71> ferro/N<72> ,/,<73> currais/N-P<74> seculares/ADJ-G-P<75> ,/,<76> obra/N<77> ciclópica/ADJ-F<78> ,/,<79> da/P+D-F<80> qual/WPRO<81> restava/VB-D<82> apenas/ADV<83> ,/,<84> como/CONJS<85> lúgubre/ADJ-G<86> vestígio/N<87> ,/,<88> o/D<89> moirão/N<90> ligeiramente/ADV<91> inclinado/VB-AN<92> ,/,<93> adelgaçado/VB-AN<94> no/P+D<95> centro/N<96> ,/,<97> polido/VB-AN<98> pelo/P+D<99> contínuo/ADJ<100> atrito/N<101> das/P+D-F-P<102> cordas/N-P<103> de/P<104> laçar/VB<105> as/D-F-P<106> vítimas/N-P<107> ,/,<108> que/WPRO<109> a/P<110> ele/PRO<111> eram/SR-D<112> arrastadas/VB-AN-F-P<113> aos/P+D-P<114> empuxões/N-P<115> ,/,<116> bufando/VB-G<117> ,/,<118> resistindo/VB-G<119> ,/,<120> ou/CONJ<121> entregando/VB-G<122> ,/,<123> resignadas/VB-AN-F-P<124> e/CONJ<125> mansas/ADJ-F-P<126> ,/,<127> o/D<128> pescoço/N<129> à/P+D-F<130> faca/N<131> do/P+D<132> magarefe/N<133> ./.<134>
Ali/ADV<135> ,/,<136> no/P+D<137> sítio/N<138> de/P<139> morte/N<140> ,/,<141> fervilhavam/VB-D<142> ,/,<143> então/ADV<144> ,/,<145> em/P<146> ruidosa/ADJ-F<147> diligência/N<148> ,/,<149> legiões/N-P<150> de/P<151> operários/N-P<152> construindo/VB-G<153> a/D-F<154> penitenciária/N<155> de/P<156> Sobral/NPR<157> ./.<158>

Anotação por etiquetadores do Projeto Lácio-Web (http://www.nilc.icmc.usp.br/lacioweb/ferramentas.htm)

TreeTagger

Neste trecho de Luzia-Homem, o TreeTagger comete 25 erros em um total de 164 tokens, alcançando índice de acurácia de 84,76%. As etiquetas precedidas de @ assinalam correções manuais desses erros. O/ART morro/N de/PREP|+ o/ART Curral/N@NPROP de/PREP|+ o/ART Açougue/NPROP emergia/N@V em/PREP suave/ADJ declive/N de/PREP|+ a/ART campina/N ondulada/PCP ./. Escorchado/NPROP@PCP ,/, indigente/N@ADJ de/PREP arvoredo/N ,/, o/ART cômoro/N enegrecido/PCP pelo/PDEN@PREP|+ART sangue/N de/PREP reses/N sem/PREP conto/N ,/, deixara/V@VAUX de/PREP ser/V o/ART sítio/N sinistro/N@ADJ de/PREP|+ o/ART matadouro/N e/KC a/ART pousada/PCP@N predileta/N@ADJ de/PREP bandos/N de/PREP urubutingas/N e/KC camirangas/N vorazes/ADJ ./. Bateram-se/KS@V|+PROPESS os/ART vastos/ADJ currais/N ,/, de/PREP grossos/PROADJ@ADJ esteios/N de/PREP aroeira/N ,/, fincados/N@PCP a/PREP pique/N ,/, rijos/N@ADJ como/PREP barras/N de/PREP ferro/N ,/, currais/N seculares/ADJ ,/, obra/N ciclópica/ADJ ,/, de/PREP@PREP|+ a/PROSUB qual/PRO-KS-REL restava/V apenas/PDEN ,/, como/PREP lúgubre/ADJ vestígio/N ,/, o/ART moirão/N ligeiramente/ADV inclinado/PCP ,/, adelgaçado/PCP em/PREP|+ o/ART centro/N ,/, polido/N@PCP pelo/PDEN@PREP|+ART contínuo/ADJ atrito/N das/NPROP@PREP|+ART cordas/N de/PREP laçar/V as/ART vítimas/N ,/, que/KS@PRO-KS-REL a/PROSUB@PREP ele/PROPESS eram/V@VAUX arrastadas/PCP aos/ADV@PREP|+ART empuxões/N ,/, bufando/N@V ,/, resistindo/V ,/, ou/KC entregando/V ,/, resignadas/N@PCP e/KC mansas/N@ADJ ,/, o/ART pescoço/N à/PREP@PREP|+ART faca/N de/PREP|+ o/ART magarefe/N ./. Ali/ADV ,/, em/PREP|+ o/ART sítio/N de/PREP morte/N ,/, fervilhavam/V ,/, então/ADV ,/, em/PREP ruidosa/ADJ diligência/N ,/, legiões/N de/PREP operários/N construindo/V a/ART penitenciária/N de/PREP Sobral/NPROP ./.

BrillTagger

Neste trecho de Luzia-Homem, o BrillTagger comete 26 erros em um total de 164 tokens, alcançando índice de acurácia de 84,15%. As etiquetas precedidas de @ assinalam correções manuais desses erros.

O/ART morro/N de/PREP@PREP|+ o/ART Curral/NPROP de/PREP@PREP|+ o/ART Açougue/NPROP emergia/N@V em/PREP|+@PREP suave/ADJ declive/N de/PREP@PREP|+ a/ART campina/N ondulada/PCP ./. Escorchado/PCP ,/, indigente/N@ADJ de/PREP arvoredo/N ,/, o/ART cômoro/N enegrecido/PCP pelo/PDEN@PREP|+ART sangue/N de/PREP reses/N sem/PREP conto/N ,/, deixara/VAUX de/PREP ser/VAUX@V o/ART sítio/N sinistro/ADJ de/PREP o/ART matadouro/N e/KC a/ART pousada/N predileta/N@ADJ de/PREP bandos/N de/PREP urubutingas/N e/KC camirangas/N vorazes/N@ADJ ./.
Bateram-se/NPROP@V|+PROPESS os/ART vastos/N@ADJ currais/N ,/, de/PREP grossos/ADJ esteios/N de/PREP aroeira/N ,/, fincados/PCP a/ART@P pique/N ,/, rijos/N@ADJ como/PREP barras/N de/PREP ferro/N ,/, currais/N seculares/ADJ ,/, obra/N ciclópica/ADJ ,/, de/PREP@PREP|+ a/ART@PROSUB qual/PRO-KS-REL restava/V apenas/PDEN ,/, como/PREP lúgubre/N@ADJ vestígio/N ,/, o/ART moirão/N ligeiramente/ADV inclinado/PCP ,/, adelgaçado/PCP em/PREP|+ o/ART centro/N ,/, polido/PCP pelo/PDEN@PREP|+ART contínuo/ADJ atrito/N das/NPROP@PREP|+ART cordas/N de/PREP laçar/V as/ART vítimas/N ,/, que/PRO-KS-REL a/ART@PREP ele/PROPESS eram/V@VAUX arrastadas/PCP aos/ADV@PREP|+ART empuxões/N ,/, bufando/V ,/, resistindo/V ,/, ou/KC entregando/V ,/, resignadas/PCP e/KC mansas/N@ADJ ,/, o/ART pescoço/N à/NPROP@PREP|+ART faca/N de/PREP@PREP|+ART o/ART magarefe/N ./. Ali/ADV ,/, em/PREP|+ o/ART sítio/N de/PREP morte/N ,/, fervilhavam/V ,/, então/ADV ,/, em/PREP|+@PREP ruidosa/ADJ diligência/N ,/, legiões/N de/PREP operários/N construindo/V a/ART penitenciária/N de/PREP Sobral/NPROP ./.

Anotação por etiquetador construído por meio do VLMMTagger

Neste trecho de Luzia-Homem, um etiquetador treinado em 100% de uma versao depurada CHPTB, usando o VLMMTagger, comete 8 erros em um total de 158 tokens, alcançando índice de acurácia de 94,94%. As etiquetas precedidas de @ assinalam correções manuais desses erros.

O/D morro/N do/P+D Curral/N@NPR do/P+D Açougue/N@NPR emergia/NPR@VB-D em/P suave/ADJ-G declive/N da/P+D-F campina/N ondulada/NPR@VB-AN-F ./. Escorchado/VB-AN ,/, indigente/ADJ-G de/P arvoredo/N ,/, o/D cômoro/N enegrecido/VB-AN pelo/P+D sangue/N de/P reses/N-P sem/P conto/N ,/, deixara/VB-RA de/P ser/SR o/D sítio/N sinistro/NPR@ADJ do/P+D matadouro/N e/CONJ a/D-F pousada/N predileta/ADJ-F de/P bandos/N-P de/P urubutingas/N-P e/CONJ camirangas/N-P vorazes/ADJ-G-P ./. Bateram/VB-D -/+ se/SE os/D-P vastos/ADJ-P currais/N-P ,/, de/P grossos/ADJ-P esteios/N-P de/P aroeira/N ,/, fincados/VB-AN-P a/P pique/N ,/, rijos/ADJ-P como/CONJS barras/N-P de/P ferro/N ,/, currais/N-P seculares/ADJ-G-P ,/, obra/N ciclópica/ADJ-F ,/, da/P+D-F qual/WPRO restava/VB-D apenas/ADV ,/, como/CONJS lúgubre/ADJ-G vestígio/N ,/, o/D moirão/N ligeiramente/ADV inclinado/VB-AN ,/, adelgaçado/VB-AN no/P+D centro/N ,/, polido/VB-AN pelo/P+D contínuo/ADJ atrito/N das/P+D-F-P cordas/N-P de/P laçar/VB as/D-F-P vítimas/N-P ,/, que/C@WPRO a/P ele/PRO eram/SR-D arrastadas/VB-AN-F-P aos/P+D-P empuxões/N-P ,/, bufando/VB-G ,/, resistindo/VB-G ,/, ou/CONJ entregando/VB-G ,/, resignadas/VB-AN-F-P e/CONJ mansas/N-P@ADJ-F-P ,/, o/D pescoço/N à/P+D-F faca/N do/P+D magarefe/NPR@N ./. Ali/ADV ,/, no/P+D sítio/N de/P morte/N ,/, fervilhavam/VB-D ,/, então/ADV ,/, em/P ruidosa/ADJ-F diligência/N ,/, legiões/N-P de/P operários/N-P construindo/VB-G a/D-F penitenciária/N de/P Sobral/NPR ./.

Acesso ao corpus

Em construção.

Documentos

Guia de revisão da anotação morfossintática automática

Publicações

ALENCAR, Leonel Figueiredo de. Aelius: uma ferramenta para anotação automática de corpora usando o NLTK. Trabalho aceito para apresentação como pôster no ELC 2010 – IX Encontro de Linguística de Corpus, na PUCRS, em Porto Alegre, em 8 e 9 de outubro de 2010.

SANTOS, Andréa Feitosa dos; OLIVEIRA JÚNIOR, Raimundo Cleodimar. Etiquetagem morfossintática de um corpus do português do Nordeste para extração automática de entradas lexicais. Trabalho aceito para apresentação como work in progress no ELC 2010 – IX Encontro de Linguística de Corpus, na PUCRS, em Porto Alegre, em 8 e 9 de outubro de 2010.

ALENCAR, L. F. de. A wide-coverage free/open-source deep parser for Brazilian Portuguese: a work in progress. Trabalho apresentado via teleconferência no Encontro Logics and Ontologies for Portuguese, na Escola de Matemática Aplicada da Fundação Getúlio Vargas, Rio de Janeiro, de 21 a 25 de novembro de 2011. Disponível em: http://emap.fgv.br/events/nlp-2011/program.html Acesso em: 1º dez. 2011.

ALENCAR, Leonel Figueiredo de. Aelius Brazilian Portuguese POS-Tagger. Disponível em: http://aelius.sourceforge.net/

Última atualização desta página: 05/04/2012

© 2010 – 2012 Leonel F. de Alencar

Página do CompLin – Lingüística Computacional e Lingüística de Corpus no Diretório dos Grupos de Pesquisa no Brasil

segunda-feira, 12 de março de 2012

Disciplina Linguística Computacional

Lingüística Computacional e Lingüística de Corpus na Universidade Federal do Ceará

Programa da disciplina HBP727: Lingüística Computacional do Programa de Pós-Graduação em Lingüística da Universidade Federal do Ceará

Palavras-chave: Unix, Prolog, Python, NLTK, Natural Language Toolkit, sintaxe, semântica, morfologia, linguistica computacional, linguistica de corpus, lingüística computacional, lingüística de corpus, autômatos de estados finitos, transdutores de estados finitos, processamento computacional da linguagem natural, engenharia da gramática, corpora digitais, corpora eletrônicos

Ministério da Educação
Universidade Federal do Ceará
Pró-Reitoria de Pesquisa e Pós-Graduação

PROGRAMA DE DISCIPLINA

1. Identificação do Curso:

1.1 Curso:

Lingüística

2. Modalidades:

Mestrado ( X )
Doutorado ( X )

3. Turno(s)

Diurno ( X )
Noturno ( )

4. Departamentos participantes

Letras Vernáculas
Letras Estrangeiras

5. Identificação da Disciplina:

Nome:

Lingüística Computacional

Código:

HBP727

Carga Horária:

Créditos:

Optativa:

Sim ( X ) Não ( )

Obrigatória:

Sim ( ) Não ( X )

6. Pré-Requisitos:

7. Professor Responsável:

Leonel Figueiredo de Alencar Araripe

8. JUSTIFICATIVA

A lingüística computacional constitui área de interseção entre os estudos da linguagem natural e a ciência da computação. Esse enfoque interdisciplinar permite aos lingüistas não apenas direcionar suas pesquisas para aplicações tecnológicas, mas também verificar a consistência e a plausibilidade de análises descritivas de línguas particulares e de modelos teóricos da linguagem humana. A presente disciplina, que contempla subárea da Linha de Pesquisa Lingüística Aplicada do Programa de Pós-Graduação em Lingüística, oferece uma introdução ao processamento computacional das línguas naturais tanto no nível da gramática quanto do texto, voltada especialmente para estudantes de pós-graduação em lingüística sem embasamento em matemática, lógica e computação. A graduados dessas áreas, contudo, esta disciplina também poderá ser de proveito, na medida em que o processamento automático da linguagem natural pressupõe teorias, abordagens e ferramentas específicas que normalmente não integram a grade curricular desses cursos (pelo menos no Ceará).

9. OBJETIVOS

i. Familiarizar com conceitos-chave da matemática e da lógica pressupostos pela lingüística formal e pela programação nos paradigmas procedural, lógico e de estados finitos.
ii. Desenvolver a capacidade de realizar análises gramaticais formais.
iii. Familiarizar com os elementos básicos da interface de linha de comandos bash do sistema operacional Unix, das linguagens de programação Prolog e Python, com ênfase na biblioteca NLTK (Natural Language Toolkit), e da programação de estados finitos nos sistemas FSA Utilities e xfst.
iv. Familiarizar com a metalinguagem das expressões regulares no sistema operacional Unix e na linguagem Python e desenvolver a habilidade de construir comandos com expressões regulares para extração de padrões em textos.
v. Desenvolver a habilidade de manipular corpora lingüísticos utilizando as ferramentas da biblioteca em Python do NLTK.
vi. Desenvolver a habilidade de implementar computacionalmente análises gramaticais nos formalismos do NLTK.
vii. Familiarizar com aplicações exemplares do processamento computacional da gramática.

10. EMENTA

Estudo de formalismos para a modelação computacional da gramática das línguas naturais, de sua aplicação no desenvolvimento de ferramentas para o processamento automático da linguagem natural bem como de técnicas computacionais para a análise automática de textos no âmbito da lingüística de corpus.

11. PROGRAMA DA DISCIPLINA

Fundamentos lógico-matemáticos: lógica proposicional; teoria dos conjuntos; relações e funções; lógica de predicados; línguas formais.
A organização da gramática: divisão de trabalho entre léxico, morfologia e sintaxe; regras de reescrita categoriais; propriedades morfossintáticas dos itens lexicais; teoria X-barra; interface semântica-sintaxe.
Elementos da linguagem de programação lógica PROLOG: predicados e cláusulas; fatos e regras; átomos, variáveis e listas; diretivas; unificação; operações sobre listas; mecanismo de resolução.
Emprego de PROLOG no processamento automático da morfologia e sintaxe: flexão e formação de palavras como concatenação de átomos; estruturação sintagmática como concatenação de listas; a Gramática de Cláusulas Definidas (Definite Clause Grammar - DCG).
Morfologia de estados finitos: processos morfológicos concatenativos e não-concatenativos; regras de formação de palavras; regras morfofonológicas; ferramentas de estados finitos dos pacotes FSA Utilities e xfst.
Lingüística de corpus: compilação e anotação de corpora; expressões regulares; ferramentas do Unix para extração de dados de corpora; processamento de textos em Python utilizando o NLTK.
Processamento automático da sintaxe no NLTK: Gramática livre de contexto; gramática baseada em estrutura de traços; métodos e estratégias de parsing.
Aplicações da análise morfológica e sintática computacionais: corretores gramaticais, sistemas de tradução automática e de diálogo homem-máquina etc.

12. FORMA DE AVALIAÇÃO

Participação nas aulas. Desempenho na resolução de exercícios teóricos e práticos, na apresentação de seminários e em provas escritas. Construção de um fragmento de gramática computacional de uma língua natural e elaboração da respectiva documentação. Desenvolvimento, apresentação e documentação de um miniprojeto na lingüística de corpus.

13. BIBLIOGRAFIA BÁSICA

ABEILLE, Anne. Les nouvelles syntaxes. Paris: Armand Colin, 2003.
ALENCAR, Leonel Figueiredo de. Linguagem e inteligência artificial. In: MATTES, Marlene Gonçalves (Org.). Linguagens: as expressões do múltiplo. Fortaleza: Premius, 2006. p. 11-53.
ARARIBÓIA, G. Inteligência artificial: um curso prático. Rio de Janeiro: Livros Técnicos e Científicos, 1988.
BAILLY, Yves. Initiation à la programmation avec Python et C++. Paris: Pearson Education France, 2008.
BEESLEY, Kenneth R.; KARTTUNEN, Lauri. Finite state morphology. Stanford: CSLI Publications, 2003.
BIRD, S.; KLEIN, E.; LOPER, E. Natural language processing with Python: analyzing text with the Natural Language Toolkit. Sebastopol, CA, O'Reilly, 2009.
BLACKBURN, Patrick; BOS, Johan; STRIEGNITZ, Kristina. Learn Prolog now! Saarbrücken: Universität des Saarlandes, 2001. Disponível em:< http://www.coli.uni-saarland.de/~kris/learn-prolog-now/html/prolog-notes.pdf> Acesso em: 29.04.2005.
BUTT, Miriam et al. A grammar writer's cookbook. Stanford: CSLI Publications, 1999.
CARNIE, Andrew. Syntax: a generative introduction. Oxford: Blackwell, 2002.
CLOCKSIN, William F.; MELLISH, Christopher S. Programming in Prolog: using the ISO standard. 5. ed. Berlin: Springer, 2003.
DEVLIN, Keith. O gene da matemática. Tradução de Sérgio Moraes Rego. Rio de Janeiro: Record, 2004.
FALK, Yehuda N. Lexical-Functional Grammar: an introduction to parallel constraint-based syntax. Stanford: CSLI Publications, 2001.
JURAFSKY, Daniel; MARTIN, James H. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, NJ: Prentice Hall, 2008.
KLABUNDE, Ralf et al. (Orgs.). Computerlinguistik und Sprachtechnologie: eine Einführung. Heidelberg: Spektrum Akademischer Verlag, 2004.
KLENK, Ursula. Generative Syntax. Tübingen: Narr, 2003.
LANGENDOEN, D. Terence. Linguistic theory. In: BECHTEL, William; GRAHAM, George (Orgs.). A companion to cognitive science. Oxford: Blackwell, 1999. p.235-244.
LEMNITZER, Lothar; ZINSMEISTER, Heike. Korpuslinguistik: eine Einführung. Tübingen: Narr, 2006.
MIOTO, Carlos; FIGUEIREDO, Maria Cristina; LOPES, Ruth. Novo Manual de Sintaxe. Florianópolis: Insular, 2005.
MITKOV, Ruslan. The Oxford handbook of computational linguistics. Oxford: Oxford University Press, 2005.
MENUZZI, Sérgio de Moura; OTHERO, Gabriel de Ávila. Lingüística Computacional: teoria & prática. São Paulo: Parábola, 2005.
OTHERO, Gabriel de Ávila. Teoria X-barra: descrição do português e aplicação computacional. São Paulo: Contexto, 2006.
PAGANI, Luiz Arthur. Analisador gramatical em Prolog para gramáticas de estrutura sintagmática. Revista Virtual de Estudos em Linguagem - ReVEL. Ano 2, n.3, ag. 2004. [www.revelhp.cjb.net].
PARTEE, Barbara; TER MEULEN, Alice; WALL, Robert. Mathematical methods in linguistics. Kluwer, Dordrecht, 1990.
RANCHHOD, Elisabete Marques (Org.). Tratamento das línguas por computador: uma introdução à linguística computacional e suas aplicações. Lisboa: Caminho, 2001.
RAPOSO, Eduardo Paiva. Teoria da gramática: a faculdade da linguagem. 2. ed. Lisboa: Caminho, 1998.
REPPEN, Randi. Review of MonoConc Pro and WordSmith Tools. Language Learning & Technology, Vol. 5, No. 3, May 2001, pp. 32-36. Disponível em: <http://llt.msu.edu/vol5num3/review4/default.html> Acesso em: 03.09.2008
SAG, Ivan A.; WASOW, Thomas; BENDER, Emily. Syntactic theory: a formal introduction. 2. ed. Stanford: CSLI Publications, 2003.
SARDINHA, Tony Berber. Usando WordSmith Tools na investigação da linguagem. Direct Papers 40, LAEL, PUCSP, 1999. Disponível em:<www2.lael.pucsp.br/direct/DirectPapers40.pdf > Acesso em: 03.09.2008.
______. Preparação de material didático para Aprendizagem Baseada em Tarefas com WordSmith Tools e corpora. Calidoscópio, São Leopoldo, v. 4, n. 3, p. 148-155, 2006.
SOBELL, Mark G.; SEEBACH, Peter. A practical guide to UNIX for Mac OS X users. Upper Saddle River, NJ: Prentice Hall, 2006.
SOCHER, Guido. Regular expressions. LinuxFocus, July 1998. Disponível em: <http://www.linuxfocus.org/English/July1998/article53.html> Acesso em: 30.8.2008.
VIEIRA, Renata ; STRUBE DE LIMA, V. L. . Lingüística Computacional: princípios e aplicações. In: Ana Teresa Martins; Díbio leandro Borges. (Org.). SBC - Jornadas de Atualização em Inteligência Artificial (JAIA). Fortaleza - CE: , 2001, v. 3, p. 47-86. Disponível em: <http://www.di.ubi.pt/~pln/jaia12-vf.pdf>. Acesso em: 6 set. 2005.
ZELLE, John. Python programming: an introduction to computer science. Wilsonville, Oregon: Franklin, Beedle & Associates, 2004.

14. BIBLIOGRAFIA COMPLEMENTAR

ABEILLE, Anne. Une grammaire électronique du français. Paris: CNRS Editions, 2002.
ALENCAR, Leonel Figueiredo de. Complementos verbais oracionais: uma análise léxico-funcional. Lingua(gem), Santa Maria, v. 1, n. 1, p. 173-218, jan./jun. 2004.
BAADER, Franz. Logic-based knowledge representation. In: WOOLDRIDGE, Michael J.;VELOSO, Manuela (Orgs.). Artificial intelligence today: recent trends and developments. Berlin: Springer, 1999. p.13-41.
BERMAN, Judith;FRANK, Anette. Deutsche und französische Syntax im Formalismus der LFG. Tübingen: Niemeyer, 1996.
BLACKBURN, Patrick; BOS, Johan. Representation and inference for natural language: a first course in computational semantics. Stanford: CSLI Publications, 2005.
BRESNAN, Joan. Lexical-functional syntax. Oxford: Blackwell, 2001.
CHUN, Wesley J. Core Python programming. 2. ed. Upper Saddle River, NJ: Prentice Hall, 2008.
FORST, Martin. La traduction automatique dans le cadre formel de la LFG - Un système de traduction entre l'allemand standard et le zurichois. Cahiers du Centre de Traduction Littéraire de l'Université de Lausanne, Lausanne, n. 41, 2002.
GOMEZ, Xavier Guinovart. Lingüística computacional. In: RAMALLO, Fernando; REI-DOVAL, Gabriel; RODRIGUEZ, Xoán Paulo (Orgs.). Manual de ciencias da linguaxe. Vigo: Xerais, 2000. p. 221-268.
HAUSSER, Roland. Foundations of computational linguistics: human-computer communication in natural language. 2. ed. Berlin: Springer, 2001.
HORNSTEIN, Norbert; NUNES, Jairo; GROHMANN, Kleanthes K. Understanding Minimalism. Cambridge: Cambridge University Press, 2005.
KRIEBEL, Wolfgang; ROSE, Andreas; SCHMITT, Dietmar. Zur Geschichte der Programmiersprache PROLOG. Disponível em:< http://www.dietmar-schmitt.de /essays/ SGI/Prolog_geschichte_1.html> Acesso em: 24.05.2005.
LOBIN, Henning; LEMNITZER, Lothar (Orgs.). Texttechnologie: Perspektiven und Anwendungen. Tübingen: Stauffenburg, 2004.
MEHLER, Alexander; LOBIN, Henning (Orgs.). Automatische Textanalyse: Systeme und Methoden zur Annotation und Analyse natürlichsprachlicher Texte. Wiesbaden: Verlag für Sozialwissenschaften, 2004.
MERTZ, David. Text processing in Python. Upper Saddle River, NJ: Addison-Wesley, 2003.
NEGNEVITSKY, Michael. Artificial intelligence: a guide to intelligent systems. New York: Addison-Wesley, 2002.
RADFORD, Andrew. Minimalist Syntax : exploring the Structure of English. 2. ed. Cambridge: Cambridge University Press, 2004.
RAPOSO, Eduardo Paiva. Da Teoria dos Princípios e Parâmetros ao Programa Minimalista: algumas idéias-chave. In: CHOMSKY, Noam. O Programa Minimalista. Tradução de Eduardo Paiva Raposo. Lisboa: Caminho, 1999. p.15-37.
REISCHER, Jürgen. Linguistische und philosophische Aspekte der natürlichen und maschinellen Sprachverarbeitung: über Denken, Sprache, Bedeutung und Handeln bei Mensch und Maschine. Idstein: Schulz-Kirchner, 2000.
RIBEIRO, Catarina Santiago. Relatório de estágio realizado no âmbito do projecto INQUER - Interacção Pessoa-Máquina em Linguagem Natural: módulo I - análise sintáctico-semântica. Lisboa: Departamento de Informática e Centro de Lingüística da Universidade de Lisboa. Disponível em: <http:// www. clul.ul. pt/clg/ inquer/ relatorio_Ribeiro03.pdf> Acesso em: 06.02.2006.
SCHWARTZ, Randal L.; PHOENIX, Tom. Learning Perl. 3. ed. Sebastopol, CA: O'Reilly, 2001.
SCHWARZE, Christoph. Lexikalisch-funktionale Grammatik: eine Einführung in 10 Lektionen mit französischen Beispielen. Fachgruppe Sprachwissenschaft der Universität Konstanz, Arbeitspapier Nr. 76, 1998.
______. Introduction à la sémantique lexicale. Tübingen: Narr, 2001.
WIELEMAKER, Jan. SWI-Prolog 5.4 Reference Manual. Amsterdam: University of Amsterdam, Department of Social Science Informatics (SWI), 2004. Disponível em:< http://gollem.science.uva.nl/cgi-bin/nph-download/SWI-Prolog/refman/refman.pdf> Acesso em: 29.04.2005.
ZELLER, Frauke. Mensch-Roboter Interaktion: eine sprachwissenschaftliche Perspektive. Kassel: Kassel University Press, 2005.

Disciplina Tradução Automática

Universidade federal do ceará –Departamento de letras Estrangeiras

Nome do Curso: Estudos da Tradução

Código do Curso: EP101

disciplina HCE033 Tradução automática e intermediada por computador
carga horária 32 h/a	créditos 2
professor (es) Prof. Dr. Leonel Figueiredo de Alencar Araripe
objetivos
Discutir os principais paradigmas da tradução automática Avaliar programas de tradução automática Familiarizar com ferramentas computacionais para a tradução intermediada por computador (CAT, do inglês Computer-Assisted Translation)
ementa Conceitos-chave, abordagens e avaliação da tradução automática; funcionamento e utilização de programas de tradução intermediada por computador.

programa Conceitos-chave da tradução automática Paradigmas empíricos em tradução automática: a EBMT (example-based machine translation) e a tradução automática estatística Abordagens da tradução automática baseada em regras: tradução direta, transfer, interlíngua e KBMT (knowledge-based MT) Critérios de avaliação da tradução automática Métodos de avaliação da tradução automática Sistemas de tradução intermediada por computador (CAT)

metodologia Aulas expositivas e trabalhos individuais ou em grupo sob a forma de (i) apresentação de seminários, (ii) elaboração de resenhas e relatórios e (iii) sessões práticas de uso de sistemas de tradução automática e de ferramentas de tradução intermediada por computador.

recursos instrucionais Quadro branco, pincel, datashow, notebook, tela para projeção e laboratório de informática com acesso à Internet, com um computador disponível para cada aluno.
avaliação O aluno será avaliado com base na sua participação ativa nas atividades elencadas na Metodologia.

bibliografia Arnold, Doug J. et al. Machine Translation: an Introductory Guide. London: Blackwells-NCC, 1994. Disponível em: http://www.essex.ac.uk/linguistics/external/clmt/MTbook/PostScript/ Acesso em: 22.04.2010 ARNOLD, Doug J. Machine Translation. University of Essex, 2009. Disponível em:http://courses.essex.ac.uk/lg/lg619/0-Outline//index-sli.pdf Acesso em: 22.04.2010 BAUER, Regina. Linguistische Evaluation maschineller Übersetzungssysteme. Leipzig: Marcus-Schriften, 2002. CRACIUNESCU, Olivia; GERDING-SALAS, Constanza; STRINGER-O'KEEFFE, Susan. Machine Translation and Computer-Assisted Translation: a New Way of Translating? in: Translation Journal, Volume 8, No. 3, July 2004. Disponível em: http://accurapid.com/journal/29bias.htm Acesso em: 23.04.2010 Dorna, Michael; Jekat, Susanne. Maschinelle Übersetzung und computergestützte Übersetzung. In: Carstensen, Kai-Uwe et al. (Orgs.). Computerlinguistik und Sprachtechnologie: eine Einführung. 2. ed. Heidelberg: Spektrum Akademischer Verlag, 2004. p. 563-571. Forst, Martin. La traduction automatique dans le cadre formel de la LFG: Un système de traduction entre l'allemand standard et le zurichois. Cahiers du Centre de Traduction Littéraire de l'Université de Lausanne, Lausanne, n. 41, 2002. Hirschman, Lynette; MANI, Inderjeet. Evaluation. In: Mitkov, Ruslan (Org.). The Oxford handbook of computational linguistics. Oxford: Oxford University Press, 2004. p. 414-429. Hutchins, John. Machine Translation: General Overview. In: Mitkov, Ruslan (Org.). The Oxford handbook of computational linguistics. Oxford: Oxford University Press, 2004. p. 501-511. Jekat, Susanne; SCHULTZ, Tanja. Evaluation sprachverarbeitender Systeme. In: Carstensen, Kai-Uwe et al. (Orgs.). Computerlinguistik und Sprachtechnologie: eine Einführung. 2. ed. Heidelberg: Spektrum Akademischer Verlag, 2004. p. 573-590. Jurafsky, Daniel; Martin, James H. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, NJ: Prentice Hall, 2008. LOFFLER-LAURIAN, Anne-Marie. La traduction automatique. Villeneuve d’Ascq (Nord): Presses Universitaires du Septentrion, 1996. MARTÍNEZ, Lorena Guerra. Human Translation versus Machine Translation and Full Post-Editing of Raw Machine Translation Output. 2003. 137p. Dissertação (Mestrado em Estudos da Tradução) – School of Applied Languages, Dublin City University, Dublin, 2003. Moussa, Bianka. Aufbau und Arbeitsweise eines maschinellen Übersetzungssystems. Saarbrücken: VDM Verlag Dr. Müller, 2008. NIRENBURG, Sergei; SOMERS, Harold; WILKS, Yorick. (Orgs.). Readings in machine translation. Cambridge, Mass.: The MIT Press, 2003. Ranchhod, Elisabete Marques (Org.). Tratamento das línguas por computador: uma introdução à linguística computacional e suas aplicações. Lisboa: Caminho, 2001. Rapp, Reinhard; Martín-Vide, Carlos. Statistical Machine Translation without Parallel Corpora. In: Rehm, Georg; Witt, Andreas; Lemnitzer, Lothar (Orgs.). Datenstrukturen für linguistische Ressourcen und ihre Anwendungen – Data Structures for Linguistic Ressourcesand Applications. Tübingen: Gunter Narr, 2007. p. 231-240. Samuelsson, Yvonne; Volk, Martin. Alignment Tools for Parallel Treebanks. In: Rehm, Georg; Witt, Andreas; Lemnitzer, Lothar (Orgs.). Datenstrukturen für linguistische Ressourcen und ihre Anwendungen – Data Structures for Linguistic Ressourcesand Applications. Tübingen: Gunter Narr, 2007. p. 39-47. Seewald-Heeg, Uta (Org.). Maschinelle Übersetzung und XML im Übersetzungsprozess: Prozesse der Translation und Lokalisierung im Wandel. Berlin: Frank & Timme, 2008. Somers, Harold. Machine Translation: Latest Developments. In: Mitkov, Ruslan (Org.). The Oxford handbook of computational linguistics. Oxford: Oxford University Press, 2004. p. 512-528. Wilks, Yorick: Machine translation: its scope and limits. New York: Springer, 2009.

Disciplina Linguística Aplicada II

Universidade Federal do Ceará

Centro de Humanidades

Programa de Pós-Graduação em Lingüística

Programa da disciplina

HBP736 TÓPICOS EM LINGÜÍSTICA APLICADA II (Turma 3)

Créditos: 4

Semestre 2011.2

Professor responsável: Leonel Figueiredo de Alencar Araripe

Ementa: Estudos recentes sobre o processamento computacional da linguagem natural, com ênfase em abordagens baseadas em corpora aplicadas na análise automática do português nos níveis morfológico, lexical, sintático, semântico e textual.

Justificativa: O processamento computacional da linguagem natural (PLN)¹ é uma das áreas da Revue Française de Linguistique Appliquée, à qual foi dedicado, por ex., o seguinte número temático:

http://www.rfla-journal.org/sommaire-2000-2-diversite-du-traitement-automatique-des-langues.html

O PALN (sob o rótulo de "Computerlinguistik") constitui também uma das seções da Sociedade Alemã de Lingüística Aplicada (ver http://www.gal-ev.de/index.php/sektionen). No Brasil, artigos na área de PLN e lingüística computacional têm sido publicados com freqüência na revista Calidoscópio (Qualis A2), um dos principais periódicos de Lingüística Aplicada brasileiros. Esses são apenas três exemplos da relevância, para a Lingüística Aplicada, desse campo que constitui um dos fundamentos da tecnologia das línguas naturais (natural language technology) e da lingüística de corpus, entre outras áreas.

Programa

Fundamentos computacionais
1. Sistema de arquivos e comandos básicos do sistema operacional UNIX
2. Princípios e prática de programação em Python
3. Teoria das línguas formais, gramáticas e autômatos
Anotação de corpora lingüísticos
1. Níveis de anotação
2. Tipos de anotação
3. Sistemas de representação e de codificação da anotação lingüística
4. Métodos de anotação automática
5. Utilidades da anotação de corpora
Anotação morfossintática em corpora de língua portuguesa
Lematização e Stemming
Anotação sintática “rasa” ou parcial (chunking)
Anotação sintática profunda
1. Tipos
2. Florestas sintáticas (treebanks)
Construção de analisadores sintáticos “rasos”
Construção de analisadores sintáticos profundos
Anotação semântica
Técnicas da análise automática de textos
Tradução automática

Avaliação

Quesito	Quantidade máxima de pontos
Participação (pontualidade e assiduidade, resolução de questões, elaboração de tarefas etc.)	3
Apresentação do primeiro seminário	1
Resolução da tarefa do primeiro seminário	1
Apresentação do segundo seminário²	2
Prova escrita	5

Algoritmo para cálculo da nota

Bibliografia

ALENCAR, Leonel Figueiredo de. Complementos verbais oracionais: uma análise léxico-funcional. Lingua(gem), Santa Maria, v. 1, n. 1, p. 173-218, jan./jun. 2004.

ALENCAR, Leonel Figueiredo de. Linguagem e inteligência artificial. In: MATTES, Marlene Gonçalves (Org.). Linguagens: as expressões do múltiplo. Fortaleza: Premius, 2006. p. 11-53.

ALENCAR, Leonel Figueiredo de. Automatische Satzanalyse für Studierende der Germanistik bzw. des Faches DaF. In: ALENCAR, W. R. de (Org.). Akten des Seminars: Deutsch-Brasilianische Kulturbeziehungen und DaF / Relações Culturais Brasil-Alemanha e o Ensino de Alemão como Língua Estrangeira. Rio de Janeiro: ABRAPA, 2008. Disponível em:<http://www.scribd.com/doc/33827910/Automatische-Satzanalyse-Alencar-2008> e <http://abrapa.org.br/congresso2009/11.html>

ALENCAR, Leonel Figueiredo de. Técnicas em software livre para exploração de corpora do português livremente disponíveis na WWW. Veredas (UFJF. Online), Juiz de Fora, v. 13, p. 134-150, 2009.

ALENCAR, Leonel Figueiredo de. Produtividade morfológica e tecnologia do texto: aspectos da construção de um transdutor lexical do português capaz de analisar neologismos. Calidoscópio (UNISINOS), São Leopoldo, v. 7, p. 199-220, 2009.

ALENCAR, L. F. de. Aelius: uma ferramenta para anotação automática de corpora usando o NLTK. ELC 2010 – IX Encontro de Linguística de Corpus, PUCRS, Porto Alegre, 8 e 9 de outubro de 2010. Disponível em: <http://corpuslg.org/gelc/elc2010.php>

Beesley, K. R.; Karttunen, L. Finite state morphology. Stanford: CSLI Publications, 2003. 510 p.

BERBER SARDINHA, T. (org.). A língua portuguesa no computador. Campinas: Mercado de Letras; São Paulo: Fapesp, 2005. 296 p.

BIRD, S.; KLEIN, E.; LOPER, E. Natural language processing with Python: analyzing text with the Natural Language Toolkit. Sebastopol: O’Reilly, 2009. 502 p.

BRANCO, A.; COSTA, F. LXGram: A Deep Linguistic Processing Grammar for Portuguese. In: PARDO, T. A. S. et al. (Eds.). INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF THE PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Proceedings... Berlin; Heidelberg: Springer, 2010. p. 86-89.

BRANCO, A. et al. Developing a Deep Linguistic Databank Supporting a Collection of Treebanks: the CINTIL DeepGramBank. LANGUAGE RESOURCES AND EVALUATION CONFERENCE, n. 7, 2010, La Valletta, Malta. Proceedings... [s.l.]: ELRA, 2010. p. 1810-1815. Disponível em: <http://www.lrec-conf.org/proceedings/lrec2010/pdf/154_Paper.pdf> Acesso em: 26. abr. 2011.

BURNARD, L.; SPERBERG-MCQUEEN, C. M. TEI Lite: Encoding for Interchange: an introduction to the TEI – Revised for TEI P5 release. [Text Encoding Initiative Consortium]: [Charlottesville, Virginia], 2006. Disponível em: <http://www.tei-c.org/release/doc/tei-p5-exemplars/html/teilite.doc.html> Acesso em: 16. set. 2011.

CAVALIERI, D. C. et al. Evaluation of Machine Learning Approaches to Portuguese Part-of-Speech Prediction. INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Extended Activity Proceedings... Disponível em: <http://www.inf.pucrs.br/~propor2010/proceedings/regular_papers/CavalieriEtAl.pdf> Acesso em: 5. ag. 2011.

CLARK, A; FOX, C.; LAPPIN, S. (Eds.). The Handbook of Computational Linguistics and Natural Language Processing. Malden; Oxford; Chichester: Wiley & Blackwell, 2010. 800 p.

DI FELIPPO, A.; DIAS-DA-SILVA, B. C. O processamento automático de línguas naturais enquanto engenharia do conhecimento linguístico. Calidoscópio, São Leopoldo, vol. 7, n. 3, p. 183-191, set./dez. 2009.

FELDMAN, A.; HANA, J. A resource-light approach to morpho-syntactic tagging. Amsterdam; New York: Rodopi, 2010. 185 p.

GARCIA, M.; GAMALLO, P. Using Morphosyntactic Post-processing to Improve POS-tagging Accuracy. INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Extended Activity Proceedings... Disponível em: <http://www.inf.pucrs.br/~propor2010/proceedings/regular_papers/GarciaGamallo.pdf> Acesso em: 2. jun. 2011.

INDURKHYA, N.; DAMERAU, F. J. (Eds.). Handbook of Natural Language Processing. 2. ed. Boca Raton, FL: Chapman & Hall/CRC, 2010. 678 p.

JURAFSKY, D.; MARTIN, J.H. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. 2. ed. London: Pearson International, 2009. 1024 p.

Klenk, U. Generative Syntax. Tübingen, Narr, 2003. 261 p.

Lemnitzer, L.; Zinsmeister, H. Korpuslinguistik: eine Einführung. Tübingen: Narr, 2006. 220 p.

LÉON, J. A Lingüística de Corpus: história, problemas, legitimidade. Filologia e Linguística Portuguesa, São Paulo, n. 8, p. 51-81, 2006.

LOBIN, H.; LEMNITZER, L. (Eds.). Texttechnologie: Perspektiven und Anwendungen. Tübingen: Stauffenburg, 2004. 487 p.

LOBIN, H. Computerlinguistik und Texttechnologie. Paderborn: W. Fink, 2010. 124 p.

MARTINS, R. T. E se as máquinas não precisarem de regras para aprender a linguagem humana? Veredas On Line, Juiz de Fora, vol. 15, n. 1, p. 66-77, 2011.

MARTINS, R. T. O pecado original da linguística computacional. Alfa, São Paulo, vol. 55, n. 1, p. 287-307, 2011.

MARTINS, R.; HASEGAWA, R.; NUNES, G. Curupira: um parser funcional para a língua portuguesa. São Carlos: Núcleo Interinstitucional de Lingüística Computacional, 2002 Disponível em: <http://www.nilc.icmc.usp.br/nilc/download/nilc-tr-02-26.zip> Acesso em: 1. jun. 2011.

MARTINS, R.; NUNES, G.; HASEGAWA, R. Curupira: A Functional Parser for Brazilian Portuguese. In: MAMEDE, N. et al. (Eds.). INTERNATIONAL WORKSHOP ON COMPUTATIONAL PROCESSING OF THE PORTUGUESE LANGUAGE, n. 6, 2003, Faro. Proceedings... Berlin; Heidelberg: Springer, 2003. p. 179-183.

MEHLER, A.; LOBIN, H. (Eds.). Automatische Textanalyse: Systeme und Methoden zur Annotation und Analyse natürlichsprachlicher Texte. Wiesbaden: Verlag für Sozialwissenschaften, 2004. 290 p.

MENUZZI, S. M.; OTHERO, G. A. Lingüística Computacional: teoria & prática. São Paulo: Parábola, 2005.

MITKOV, R. (Ed.). The Oxford handbook of computational linguistics. Oxford: Oxford University Press, 2004.

MÜLLER, S. Grammatiktheorie. Tübingen: Stauffenburg, 2010. Disponível em:<http://hpsg.fu-berlin.de/~stefan/Pub/grammatiktheorie.html> Acesso em: 9. ag. 2011.

OTHERO, G. A. Teoria X-barra: descrição do português e aplicação computacional. São Paulo: Contexto, 2006.

PERKINS, J. Python Text Processing with NLTK 2.0 Cookbook. Birmingham, UK: Packt, 2010. 256 p.

ROARK, B.; SPROAT, R. Computational approaches to morphology and syntax. Oxford: Oxford University Press, 2006. 316 p.

RODRIGUES, E. S.; AUGUSTO, M. R. A. Modelos formais de gramática: o Programa Minimalista vs. gramáticas baseadas em restrições – HPSG e LFG. Matraga, Rio de Janeiro, v.16, n. 24, p. 133-149, jan./jun. 2009.

SAG, I. A.; WASOW, T. ; BENDER, E. Syntactic theory: a formal introduction. 2. ed. Stanford: CSLI Publications, 2003. 608 p.

SALOMÃO, M. M. M. FrameNet Brasil: um trabalho em progresso. Calidoscópio, São Leopoldo, vol. 7, n. 3, p. 171-182, set./dez. 2009.

SEARA, I. C. et al. Morphosyntactic Parser for Brazilian Portuguese: Methodology for Development and Assessment. INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Extended Activity Proceedings... Disponível em: <http://www.inf.pucrs.br/~propor2010/proceedings/regular_papers/SearaEtAl.pdf.pdf> Acesso em: 5. ag. 2011.

SEGURA BEDMAR, Isabel; MARTÍNEZ FERNÁNDEZ, José Luis; MARTÍNEZ FERNÁNDEZ, Paloma. Una propuesta para el etiquetado automático de roles semánticos. Procesamiento del lenguaje natural, Alicante, n. 37, p. 309-316, set. 2006.

SHEPHERD, T. ; BERBER SARDINHA, T. ; PINTO, M. V. (orgs.). Caminhos da linguística de corpus. Campinas: Mercado de Letras, 2010.

SILVA, J. et al. Out-of-the-Box Robust Parsing of Portuguese. In: PARDO, T. A. S. et al. (Eds.). INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF THE PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Proceedings... Berlin; Heidelberg: Springer, 2010. p. 75-85.

SILVA, J.; BRANCO, A.; GONÇALVES, P. Top-Performing Robust Constituency Parsing of Portuguese: freely available in as many ways as you can get it. LANGUAGE RESOURCES AND EVALUATION CONFERENCE, n. 7, 2010, La Valletta, Malta. Proceedings... [s.l.]: ELRA, 2010. p. 1960-1963. Disponível em: < http://www.lrec-conf.org /proceedings /lrec2010/pdf/136_Paper.pdf> Acesso em: 26. abr. 2011.

TAGNIN, S. E. O.; VALE, O. A. (orgs.). Avanços da Linguística de Corpus no Brasil. São Paulo: Humanitas, 2008. 437 p.

1 Sigla TAL em francês, de “traitement automatique des langues”; NLP em inglês, de “natural language processing”; em alemão, “maschinelle Sprachverarbeitung”.

2No caso de alunos de Mestrado, que apresentam um único seminário, a apresentação em si vale 2 pontos e a tarefa associada, 2 pontos.