O grupo CompLin – Computação e Linguagem Natural foca a investigação, em nível teórico, dos aspectos computacionais das gramáticas das línguas naturais bem como a aplicação prática desses estudos no desenvolvimento de programas de processamento automático da linguagem humana em diferentes níveis, inserindo-se, portanto, na confluência entre a linguística teórica e descritiva, a linguística de corpus e a linguística computacional.
No
âmbito das tecnologias da linguagem natural, a análise sintática
automática (parsing)
tem um amplo leque de aplicações, que vão da extração de
informações à tradução automática, passando pela resolução de
perguntas. Por outro lado, na linguística teórica e descritiva, a
implementação computacional de uma gramática de uma língua
permite verificar a sua consistência, adequação empírica e
plausibilidade psicológica, por meio da aplicação de um parser
a uma grande quantidade de textos. Neste minicurso, mostramos como
desenvolver e testar parsers
do português por meio do Aelius
e do Donatus, que
juntos constituem uma caixa de ferramentas para o parsing
tanto raso quanto profundo e a anotação de corpora, combinando o
processamento estatístico da linguagem natural com a abordagem
baseada em regras. Implementados em Python e distribuídos sob uma
licença livre, esses pacotes oferecem não só uma interface mais
amigável para o NLTK (no qual estão
sobretudo baseados) e outras bibliotecas, mas também várias outras
facilidades, ao mesmo tempo em que contribuem para diminuir a
carência de recursos livres para o processamento morfossintático
computacional do português do Brasil.
Leituras recomendadas
ALENCAR, L. F. de.Donatus:uma interface amigável para o estudo da sintaxe formal utilizando a biblioteca em Python do NLTK.Alfa, rev. linguíst. (São José Rio Preto)[online]. 2012, vol.56, n.2, pp. 523-555. ISSN 1981-5794.
ALENCAR, L. F. de. Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, Belo Horizonte, vol. 19, n. 1, p. 7-85, jan./jun. 2011.
Artigo recém-publicado sobre análise sintática automática do português usando o NLTK
ALENCAR, Leonel Figueiredo de.Donatus:uma interface amigável para o estudo da sintaxe formal utilizando a biblioteca em Python do NLTK. Alfa, rev. linguíst. (São José Rio Preto)[online]. 2012, vol.56, n.2, pp. 523-555. ISSN 1981-5794. (Qualis A1)
Aelius is a suite of Python, NLTK-based modules and language data for training and evaluating POS-taggers for Brazilian Portuguese and annotating corpora in this language variety: http://aelius.sourceforge.net/
Donatus is an on-going project consisting of Python, NLTK-based tools and grammars for deep parsing and syntactical annotation of Brazilian Portuguese corpora. It includes a user-friendly graphical user interface for building syntactic parsers with the NLTK, providing some additional functionalities: http://donatus.sourceforge.net/
ALENCAR,
L. F. de. "Donatus: uma interface amigável para o estudo da sintaxe formal
utilizando a biblioteca em Python do NLTK". Alfa Revista de Linguística,
São José do Rio Preto, Universidade Estadual Paulista, vol. 56, n. 2. ISSN
Impresso: 0002-5216 ISSN Eletrônico: 1981-5794.
Publicações recentes de Leonel F. de Alencar, líder do CompLin, nas áreas de linguística computacional, linguística de corpus, processamento automático da linguagem natural, processamento computacional do português, sintaxe formal, gramática gerativa e morfologia computacional.
ALENCAR, L. F. de. Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, Belo Horizonte, vol. 19, n. 1, p. 7-85, jan./jun. 2011.
Capítulos de livros publicados
ALENCAR, L. F. de . Línguas formais, gramáticas e autômatos no processamento automático das palavras. In: ALENCAR, L. F. de; OTHERO, G. A.. (Org.). Abordagens computacionais da teoria da gramática. 1 ed. Campinas: Mercado de Letras, 2012, p. 13-75.
SILVA, A. L. R. ; ALENCAR, L. F. de . Aspectos da formação de adjetivos em -vel: um estudo com base em corpora. In: Eulália Vera Lúcia Fraga Leurquin; José de Ribamar Mendes Bezerra; Maria Elias Soares. (Org.). Gênero, ensino e formação de professores. 1 ed. Campinas: Mercado de Letras, 2011, v. 1, p. 85-98.
Comunicação em workshop internacional realizado no Brasil com publicação de resumo
ALENCAR, L. F. de. A wide-coverage free/open-source deep parser for Brazilian Portuguese: a work in progress. Trabalho apresentado via teleconferência no Encontro Logics and Ontologies for Portuguese, na Escola de Matemática Aplicada da Fundação Getúlio Vargas, Rio de Janeiro, de 21 a 25 de novembro de 2011. Disponível em: http://emap.fgv.br/events/nlp-2011/program.html Acesso em: 1º dez. 2011.
Comunicação em workshop internacional realizado no Brasil com publicação de artigo
Comunicação em encontro nacional com publicação de resumo
CARVALHO, C. I. da C.; VASCONCELOS, D. M.; ALENCAR, L. F. de. Superando o estado da arte na etiquetagem morfossintática por meio de regras de pós-etiquetagem. Trabalho apresentado ao X Encontro de Linguística de Corpus, Belo Horizonte, UFMG, 11 e 12 de novembro de 2011. Disponível em:<http://www.letras.ufmg.br/CMS/index.asp?pasta=linguisticacorpus2011> Acesso em: 12 dez. 2011.
Comunicações em encontros locais (co-autor na qualidade de orientador)
SANTIAGO, A. C. ; SANTOS, A. F.; ALENCAR, L. F. de. Etiquetagem automática de textos de divulgação científica: comparação entre dois etiquetadores. Trabalho apresentado no XXX Encontro de Iniciação Científica da UFC, Fortaleza, 20 de outubro de 2011.
SILVA FILHO, R. L.; SILVA, G. R.; COSTA, E. L. da; ALENCAR, L. F. de. DIVCIE: um corpus de textos de divulgação científica. Trabalho apresentado no XXX Encontro de Iniciação Científica da UFC, Fortaleza, 20 de outubro de 2011.
CORPTEXLIT – Corpus de Língua Portuguesa de Textos Literários do Século XIX
Projeto vinculado ao CompLin – Computação e Linguagem Natural, grupo de pesquisa sobre lingüística computacional, lingüística de corpus e gramática gerativa na Universidade Federal do Ceará
Descrição
O CORPTEXLIT é um corpus de textos de literatura brasileira do século XIX que compreenderá 40 obras do período anotadas morfossintaticamente de forma automática, totalizando cerca de 2,500,000 tokens, com 10% a serem revistos manualmente, constituindo base para versões mais robustas do etiquetador utilizado, o Aelius (Alencar, 2010). Dada a dimensão histórica do CORPTEXLIT, adotamos o sistema de anotação do Corpus Histórico do Português Tycho Brahe (CHPTB). Dessa forma, o CORPTEXLIT preencherá lacuna deixada em aberto pelo CHPTB, que, no momento, só dispõe de um único texto brasileiro do século XIX anotado (Alencar, 2010).
O projeto iniciou-se em junho de 2010 e tem uma duração prevista de 4 anos. No momento, está anotado automaticamente o romance Luzia-Homem, com os oito primeiros capítulos (quase 25% do total) manualmente corrigidos (para mais detalhes, ver Alencar, 2010).
Adotando a filosofia do software livre, o CORPTEXLIT será distribuído livremente à comunidade de estudantes e pesquisadores para utilização sem finalidades comerciais. O projeto está aberto, igualmente, à participação de quem quer que, imbuído dessa filosofia, se disponha a colaborar. Especialmente bem-vinda é a colaboração na revisão dos textos. Escreva-nos caso se interesse em participar do projeto.
Equipe
Prof. Dr. Leonel Figueiredo de Alencar – Coordenador
Neste trecho de Luzia-Homem, o TreeTagger comete 25 erros em um total de 164 tokens, alcançando índice de acurácia de 84,76%. As etiquetas precedidas de @ assinalam correções manuais desses erros.
Neste trecho de Luzia-Homem, o BrillTagger comete 26 erros em um total de 164 tokens, alcançando índice de acurácia de 84,15%. As etiquetas precedidas de @ assinalam correções manuais desses erros.
Anotação por etiquetador construído por meio do VLMMTagger
Neste trecho de Luzia-Homem, um etiquetador treinado em 100% de uma versao depurada CHPTB, usando o VLMMTagger, comete 8 erros em um total de 158 tokens, alcançando índice de acurácia de 94,94%. As etiquetas precedidas de @ assinalam correções manuais desses erros.
Guia de revisão da anotação morfossintática automática
Publicações
ALENCAR, Leonel Figueiredo de. Aelius: uma ferramenta para anotação automática de corpora usando o NLTK. Trabalho aceito para apresentação como pôster no ELC 2010 – IX Encontro de Linguística de Corpus, na PUCRS, em Porto Alegre, em 8 e 9 de outubro de 2010.
SANTOS, Andréa Feitosa dos; OLIVEIRA JÚNIOR, Raimundo Cleodimar. Etiquetagem morfossintática de um corpus do português do Nordeste para extração automática de entradas lexicais. Trabalho aceito para apresentação como work in progress no ELC 2010 – IX Encontro de Linguística de Corpus, na PUCRS, em Porto Alegre, em 8 e 9 de outubro de 2010.
ALENCAR, L. F. de. A wide-coverage free/open-source deep parser for Brazilian Portuguese: a work in progress. Trabalho apresentado via teleconferência no Encontro Logics and Ontologies for Portuguese, na Escola de Matemática Aplicada da Fundação Getúlio Vargas, Rio de Janeiro, de 21 a 25 de novembro de 2011. Disponível em: http://emap.fgv.br/events/nlp-2011/program.html Acesso em: 1º dez. 2011.
ALENCAR, Leonel Figueiredo de. Aelius Brazilian Portuguese POS-Tagger. Disponível em: http://aelius.sourceforge.net/
Última atualização desta página: 05/04/2012
Palavras-chave: Unix, Prolog, Python, NLTK, Natural Language Toolkit, sintaxe, semântica, morfologia, linguistica computacional, linguistica de corpus, lingüística computacional, lingüística de corpus, autômatos de estados finitos, transdutores de estados finitos, processamento computacional da linguagem natural, engenharia da gramática, corpora digitais, corpora eletrônicos Ministério da Educação Universidade Federal do Ceará Pró-Reitoria de Pesquisa e Pós-Graduação
PROGRAMA DE DISCIPLINA
1. Identificação do Curso:
1.1 Curso:
Lingüística
2. Modalidades:
Mestrado ( X )
Doutorado ( X )
3. Turno(s)
Diurno ( X )
Noturno ( )
4. Departamentos participantes
Letras Vernáculas
Letras Estrangeiras
5. Identificação da Disciplina:
Nome:
Lingüística Computacional
Código:
HBP727
Carga Horária:
64
Créditos:
4
Optativa:
Sim ( X ) Não ( )
Obrigatória:
Sim ( ) Não ( X )
6. Pré-Requisitos:
7. Professor Responsável:
Leonel Figueiredo de Alencar Araripe
8. JUSTIFICATIVA
A lingüística computacional constitui área de interseção entre os estudos da linguagem natural e a ciência da computação. Esse enfoque interdisciplinar permite aos lingüistas não apenas direcionar suas pesquisas para aplicações tecnológicas, mas também verificar a consistência e a plausibilidade de análises descritivas de línguas particulares e de modelos teóricos da linguagem humana. A presente disciplina, que contempla subárea da Linha de Pesquisa Lingüística Aplicada do Programa de Pós-Graduação em Lingüística, oferece uma introdução ao processamento computacional das línguas naturais tanto no nível da gramática quanto do texto, voltada especialmente para estudantes de pós-graduação em lingüística sem embasamento em matemática, lógica e computação. A graduados dessas áreas, contudo, esta disciplina também poderá ser de proveito, na medida em que o processamento automático da linguagem natural pressupõe teorias, abordagens e ferramentas específicas que normalmente não integram a grade curricular desses cursos (pelo menos no Ceará).
9. OBJETIVOS
i. Familiarizar com conceitos-chave da matemática e da lógica pressupostos pela lingüística formal e pela programação nos paradigmas procedural, lógico e de estados finitos.
ii. Desenvolver a capacidade de realizar análises gramaticais formais.
iii. Familiarizar com os elementos básicos da interface de linha de comandos bash do sistema operacional Unix, das linguagens de programação Prolog e Python, com ênfase na biblioteca NLTK (Natural Language Toolkit), e da programação de estados finitos nos sistemas FSA Utilities e xfst.
iv. Familiarizar com a metalinguagem das expressões regulares no sistema operacional Unix e na linguagem Python e desenvolver a habilidade de construir comandos com expressões regulares para extração de padrões em textos.
v. Desenvolver a habilidade de manipular corpora lingüísticos utilizando as ferramentas da biblioteca em Python do NLTK.
vi. Desenvolver a habilidade de implementar computacionalmente análises gramaticais nos formalismos do NLTK.
vii. Familiarizar com aplicações exemplares do processamento computacional da gramática.
10. EMENTA
Estudo de formalismos para a modelação computacional da gramática das línguas naturais, de sua aplicação no desenvolvimento de ferramentas para o processamento automático da linguagem natural bem como de técnicas computacionais para a análise automática de textos no âmbito da lingüística de corpus.
11. PROGRAMA DA DISCIPLINA
Fundamentos lógico-matemáticos: lógica proposicional; teoria dos conjuntos; relações e funções; lógica de predicados; línguas formais.
A organização da gramática: divisão de trabalho entre léxico, morfologia e sintaxe; regras de reescrita categoriais; propriedades morfossintáticas dos itens lexicais; teoria X-barra; interface semântica-sintaxe.
Elementos da linguagem de programação lógica PROLOG: predicados e cláusulas; fatos e regras; átomos, variáveis e listas; diretivas; unificação; operações sobre listas; mecanismo de resolução.
Emprego de PROLOG no processamento automático da morfologia e sintaxe: flexão e formação de palavras como concatenação de átomos; estruturação sintagmática como concatenação de listas; a Gramática de Cláusulas Definidas (Definite Clause Grammar - DCG).
Morfologia de estados finitos: processos morfológicos concatenativos e não-concatenativos; regras de formação de palavras; regras morfofonológicas; ferramentas de estados finitos dos pacotes FSA Utilities e xfst.
Lingüística de corpus: compilação e anotação de corpora; expressões regulares; ferramentas do Unix para extração de dados de corpora; processamento de textos em Python utilizando o NLTK.
Processamento automático da sintaxe no NLTK: Gramática livre de contexto; gramática baseada em estrutura de traços; métodos e estratégias de parsing.
Aplicações da análise morfológica e sintática computacionais: corretores gramaticais, sistemas de tradução automática e de diálogo homem-máquina etc.
12. FORMA DE AVALIAÇÃO
Participação nas aulas. Desempenho na resolução de exercícios teóricos e práticos, na apresentação de seminários e em provas escritas. Construção de um fragmento de gramática computacional de uma língua natural e elaboração da respectiva documentação. Desenvolvimento, apresentação e documentação de um miniprojeto na lingüística de corpus.
13. BIBLIOGRAFIA BÁSICA
ABEILLE, Anne. Les nouvelles syntaxes. Paris: Armand Colin, 2003.
ALENCAR, Leonel Figueiredo de. Linguagem e inteligência artificial. In: MATTES, Marlene Gonçalves (Org.). Linguagens: as expressões do múltiplo. Fortaleza: Premius, 2006. p. 11-53.
ARARIBÓIA, G. Inteligência artificial: um curso prático. Rio de Janeiro: Livros Técnicos e Científicos, 1988.
BAILLY, Yves. Initiation à la programmation avec Python et C++. Paris: Pearson Education France, 2008.
BEESLEY, Kenneth R.; KARTTUNEN, Lauri. Finite state morphology. Stanford: CSLI Publications, 2003.
BIRD, S.; KLEIN, E.; LOPER, E. Natural language processing with Python: analyzing text with the Natural Language Toolkit. Sebastopol, CA, O'Reilly, 2009.
BLACKBURN, Patrick; BOS, Johan; STRIEGNITZ, Kristina. Learn Prolog now! Saarbrücken: Universität des Saarlandes, 2001. Disponível em:< http://www.coli.uni-saarland.de/~kris/learn-prolog-now/html/prolog-notes.pdf> Acesso em: 29.04.2005.
BUTT, Miriam et al. A grammar writer's cookbook. Stanford: CSLI Publications, 1999.
CARNIE, Andrew. Syntax: a generative introduction. Oxford: Blackwell, 2002.
CLOCKSIN, William F.; MELLISH, Christopher S. Programming in Prolog: using the ISO standard. 5. ed. Berlin: Springer, 2003.
DEVLIN, Keith. O gene da matemática. Tradução de Sérgio Moraes Rego. Rio de Janeiro: Record, 2004.
FALK, Yehuda N. Lexical-Functional Grammar: an introduction to parallel constraint-based syntax. Stanford: CSLI Publications, 2001.
JURAFSKY, Daniel; MARTIN, James H. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, NJ: Prentice Hall, 2008.
KLABUNDE, Ralf et al. (Orgs.). Computerlinguistik und Sprachtechnologie: eine Einführung. Heidelberg: Spektrum Akademischer Verlag, 2004.
KLENK, Ursula. Generative Syntax. Tübingen: Narr, 2003.
LANGENDOEN, D. Terence. Linguistic theory. In: BECHTEL, William; GRAHAM, George (Orgs.). A companion to cognitive science. Oxford: Blackwell, 1999. p.235-244.
LEMNITZER, Lothar; ZINSMEISTER, Heike. Korpuslinguistik: eine Einführung. Tübingen: Narr, 2006.
MIOTO, Carlos; FIGUEIREDO, Maria Cristina; LOPES, Ruth. Novo Manual de Sintaxe. Florianópolis: Insular, 2005.
MITKOV, Ruslan. The Oxford handbook of computational linguistics. Oxford: Oxford University Press, 2005.
MENUZZI, Sérgio de Moura; OTHERO, Gabriel de Ávila. Lingüística Computacional: teoria & prática. São Paulo: Parábola, 2005.
OTHERO, Gabriel de Ávila. Teoria X-barra: descrição do português e aplicação computacional. São Paulo: Contexto, 2006.
PAGANI, Luiz Arthur. Analisador gramatical em Prolog para gramáticas de estrutura sintagmática. Revista Virtual de Estudos em Linguagem - ReVEL. Ano 2, n.3, ag. 2004. [www.revelhp.cjb.net].
PARTEE, Barbara; TER MEULEN, Alice; WALL, Robert. Mathematical methods in linguistics. Kluwer, Dordrecht, 1990.
RANCHHOD, Elisabete Marques (Org.). Tratamento das línguas por computador: uma introdução à linguística computacional e suas aplicações. Lisboa: Caminho, 2001.
RAPOSO, Eduardo Paiva. Teoria da gramática: a faculdade da linguagem. 2. ed. Lisboa: Caminho, 1998.
REPPEN, Randi. Review of MonoConc Pro and WordSmith Tools. Language Learning & Technology, Vol. 5, No. 3, May 2001, pp. 32-36. Disponível em: <http://llt.msu.edu/vol5num3/review4/default.html> Acesso em: 03.09.2008
SAG, Ivan A.; WASOW, Thomas; BENDER, Emily. Syntactic theory: a formal introduction. 2. ed. Stanford: CSLI Publications, 2003.
SARDINHA, Tony Berber. Usando WordSmith Tools na investigação da linguagem. Direct Papers 40, LAEL, PUCSP, 1999. Disponível em:<www2.lael.pucsp.br/direct/DirectPapers40.pdf > Acesso em: 03.09.2008.
______. Preparação de material didático para Aprendizagem Baseada em Tarefas com WordSmith Tools e corpora. Calidoscópio, São Leopoldo, v. 4, n. 3, p. 148-155, 2006.
SOBELL, Mark G.; SEEBACH, Peter. A practical guide to UNIX for Mac OS X users. Upper Saddle River, NJ: Prentice Hall, 2006.
SOCHER, Guido. Regular expressions. LinuxFocus, July 1998. Disponível em: <http://www.linuxfocus.org/English/July1998/article53.html> Acesso em: 30.8.2008.
VIEIRA, Renata ; STRUBE DE LIMA, V. L. . Lingüística Computacional: princípios e aplicações. In: Ana Teresa Martins; Díbio leandro Borges. (Org.). SBC - Jornadas de Atualização em Inteligência Artificial (JAIA). Fortaleza - CE: , 2001, v. 3, p. 47-86. Disponível em: <http://www.di.ubi.pt/~pln/jaia12-vf.pdf>. Acesso em: 6 set. 2005.
ZELLE, John. Python programming: an introduction to computer science. Wilsonville, Oregon: Franklin, Beedle & Associates, 2004.
14. BIBLIOGRAFIA COMPLEMENTAR
ABEILLE, Anne. Une grammaire électronique du français. Paris: CNRS Editions, 2002.
ALENCAR, Leonel Figueiredo de. Complementos verbais oracionais: uma análise léxico-funcional. Lingua(gem), Santa Maria, v. 1, n. 1, p. 173-218, jan./jun. 2004.
BAADER, Franz. Logic-based knowledge representation. In: WOOLDRIDGE, Michael J.;VELOSO, Manuela (Orgs.). Artificial intelligence today: recent trends and developments. Berlin: Springer, 1999. p.13-41.
BERMAN, Judith;FRANK, Anette. Deutsche und französische Syntax im Formalismus der LFG. Tübingen: Niemeyer, 1996.
BLACKBURN, Patrick; BOS, Johan. Representation and inference for natural language: a first course in computational semantics. Stanford: CSLI Publications, 2005.
BRESNAN, Joan. Lexical-functional syntax. Oxford: Blackwell, 2001.
CHUN, Wesley J. Core Python programming. 2. ed. Upper Saddle River, NJ: Prentice Hall, 2008.
FORST, Martin. La traduction automatique dans le cadre formel de la LFG - Un système de traduction entre l'allemand standard et le zurichois. Cahiers du Centre de Traduction Littéraire de l'Université de Lausanne, Lausanne, n. 41, 2002.
GOMEZ, Xavier Guinovart. Lingüística computacional. In: RAMALLO, Fernando; REI-DOVAL, Gabriel; RODRIGUEZ, Xoán Paulo (Orgs.). Manual de ciencias da linguaxe. Vigo: Xerais, 2000. p. 221-268.
HAUSSER, Roland. Foundations of computational linguistics: human-computer communication in natural language. 2. ed. Berlin: Springer, 2001.
HORNSTEIN, Norbert; NUNES, Jairo; GROHMANN, Kleanthes K. Understanding Minimalism. Cambridge: Cambridge University Press, 2005.
KRIEBEL, Wolfgang; ROSE, Andreas; SCHMITT, Dietmar. Zur Geschichte der Programmiersprache PROLOG. Disponível em:< http://www.dietmar-schmitt.de /essays/ SGI/Prolog_geschichte_1.html> Acesso em: 24.05.2005.
LOBIN, Henning; LEMNITZER, Lothar (Orgs.). Texttechnologie: Perspektiven und Anwendungen. Tübingen: Stauffenburg, 2004.
MEHLER, Alexander; LOBIN, Henning (Orgs.). Automatische Textanalyse: Systeme und Methoden zur Annotation und Analyse natürlichsprachlicher Texte. Wiesbaden: Verlag für Sozialwissenschaften, 2004.
MERTZ, David. Text processing in Python. Upper Saddle River, NJ: Addison-Wesley, 2003.
NEGNEVITSKY, Michael. Artificial intelligence: a guide to intelligent systems. New York: Addison-Wesley, 2002.
RADFORD, Andrew. Minimalist Syntax : exploring the Structure of English. 2. ed. Cambridge: Cambridge University Press, 2004.
RAPOSO, Eduardo Paiva. Da Teoria dos Princípios e Parâmetros ao Programa Minimalista: algumas idéias-chave. In: CHOMSKY, Noam. O Programa Minimalista. Tradução de Eduardo Paiva Raposo. Lisboa: Caminho, 1999. p.15-37.
REISCHER, Jürgen. Linguistische und philosophische Aspekte der natürlichen und maschinellen Sprachverarbeitung: über Denken, Sprache, Bedeutung und Handeln bei Mensch und Maschine. Idstein: Schulz-Kirchner, 2000.
RIBEIRO, Catarina Santiago. Relatório de estágio realizado no âmbito do projecto INQUER - Interacção Pessoa-Máquina em Linguagem Natural: módulo I - análise sintáctico-semântica. Lisboa: Departamento de Informática e Centro de Lingüística da Universidade de Lisboa. Disponível em: <http:// www. clul.ul. pt/clg/ inquer/ relatorio_Ribeiro03.pdf> Acesso em: 06.02.2006.
SCHWARTZ, Randal L.; PHOENIX, Tom. Learning Perl. 3. ed. Sebastopol, CA: O'Reilly, 2001.
SCHWARZE, Christoph. Lexikalisch-funktionale Grammatik: eine Einführung in 10 Lektionen mit französischen Beispielen. Fachgruppe Sprachwissenschaft der Universität Konstanz, Arbeitspapier Nr. 76, 1998.
______. Introduction à la sémantique lexicale. Tübingen: Narr, 2001.
WIELEMAKER, Jan. SWI-Prolog 5.4 Reference Manual. Amsterdam: University of Amsterdam, Department of Social Science Informatics (SWI), 2004. Disponível em:< http://gollem.science.uva.nl/cgi-bin/nph-download/SWI-Prolog/refman/refman.pdf> Acesso em: 29.04.2005.
ZELLER, Frauke. Mensch-Roboter Interaktion: eine sprachwissenschaftliche Perspektive. Kassel: Kassel University Press, 2005.
Universidade federal do ceará –Departamento de letras Estrangeiras
Nome do Curso: Estudos da Tradução
Código do Curso: EP101
disciplina
HCE033 Tradução automática e intermediada por computador
carga horária
32 h/a
créditos
2
professor (es)
Prof. Dr. Leonel Figueiredo de Alencar Araripe
objetivos
Discutir os principais paradigmas da tradução automática
Avaliar programas de tradução automática
Familiarizar com ferramentas computacionais para a tradução intermediada por computador (CAT, do inglês Computer-Assisted Translation)
ementa
Conceitos-chave, abordagens e avaliação da tradução automática; funcionamento e utilização de programas de tradução intermediada por computador.
programa
Conceitos-chave da tradução automática
Paradigmas empíricos em tradução automática: a EBMT (example-based machine translation) e a tradução automática estatística
Abordagens da tradução automática baseada em regras: tradução direta, transfer, interlíngua e KBMT (knowledge-based MT)
Critérios de avaliação da tradução automática
Métodos de avaliação da tradução automática
Sistemas de tradução intermediada por computador (CAT)
metodologia
Aulas expositivas e trabalhos individuais ou em grupo sob a forma de (i) apresentação de seminários, (ii) elaboração de resenhas e relatórios e (iii) sessões práticas de uso de sistemas de tradução automática e de ferramentas de tradução intermediada por computador.
recursos instrucionais
Quadro branco, pincel, datashow, notebook, tela para projeção e laboratório de informática com acesso à Internet, com um computador disponível para cada aluno.
avaliação
O aluno será avaliado com base na sua participação ativa nas atividades elencadas na Metodologia.
CRACIUNESCU, Olivia; GERDING-SALAS, Constanza; STRINGER-O'KEEFFE, Susan. Machine Translation and Computer-Assisted Translation: a New Way of Translating? in: Translation Journal,Volume 8, No. 3, July 2004. Disponível em: http://accurapid.com/journal/29bias.htm Acesso em: 23.04.2010
Dorna, Michael; Jekat, Susanne. Maschinelle Übersetzung und computergestützte Übersetzung. In: Carstensen, Kai-Uwe et al. (Orgs.). Computerlinguistik und Sprachtechnologie:eine Einführung. 2. ed. Heidelberg: Spektrum Akademischer Verlag, 2004. p. 563-571.
Forst, Martin.La traduction automatique dans le cadre formel de la LFG: Un système de traduction entre l'allemand standard et le zurichois. Cahiers du Centre de Traduction Littéraire de l'Université de Lausanne,Lausanne, n. 41, 2002.
Hirschman,Lynette; MANI, Inderjeet. Evaluation. In: Mitkov, Ruslan (Org.). The Oxford handbook of computational linguistics. Oxford: Oxford University Press, 2004. p. 414-429.
Hutchins,John. Machine Translation: General Overview. In: Mitkov, Ruslan (Org.). The Oxford handbook of computational linguistics. Oxford: Oxford University Press, 2004. p. 501-511.
Jekat, Susanne; SCHULTZ, Tanja. Evaluation sprachverarbeitender Systeme. In: Carstensen, Kai-Uwe et al. (Orgs.). Computerlinguistik und Sprachtechnologie:eine Einführung. 2. ed. Heidelberg: Spektrum Akademischer Verlag, 2004. p. 573-590.
Jurafsky, Daniel; Martin, James H. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, NJ: Prentice Hall, 2008.
LOFFLER-LAURIAN, Anne-Marie. La traduction automatique. Villeneuve d’Ascq (Nord): Presses Universitaires du Septentrion, 1996.
MARTÍNEZ, Lorena Guerra. Human Translation versus Machine Translation and Full Post-Editing of Raw Machine Translation Output. 2003. 137p. Dissertação (Mestrado em Estudos da Tradução) – School of Applied Languages, Dublin City University, Dublin, 2003.
Moussa, Bianka. Aufbau und Arbeitsweise eines maschinellen Übersetzungssystems. Saarbrücken: VDM Verlag Dr. Müller, 2008.
NIRENBURG, Sergei; SOMERS, Harold; WILKS, Yorick. (Orgs.). Readings in machine translation. Cambridge, Mass.: The MIT Press, 2003.
Ranchhod, Elisabete Marques (Org.). Tratamento das línguas por computador: uma introdução à linguística computacional e suas aplicações. Lisboa: Caminho, 2001.
Rapp, Reinhard; Martín-Vide, Carlos. Statistical Machine Translation without Parallel Corpora. In: Rehm, Georg; Witt, Andreas; Lemnitzer, Lothar (Orgs.). Datenstrukturen für linguistische Ressourcen und ihre Anwendungen – Data Structures for Linguistic Ressourcesand Applications. Tübingen: Gunter Narr, 2007. p. 231-240.
Samuelsson, Yvonne; Volk, Martin. Alignment Tools for Parallel Treebanks. In: Rehm, Georg; Witt, Andreas; Lemnitzer, Lothar (Orgs.). Datenstrukturen für linguistische Ressourcen und ihre Anwendungen – Data Structures for Linguistic Ressourcesand Applications. Tübingen: Gunter Narr, 2007. p. 39-47.
Seewald-Heeg, Uta (Org.). Maschinelle Übersetzung und XML im Übersetzungsprozess: Prozesse der Translation und Lokalisierung im Wandel. Berlin: Frank & Timme, 2008.
Somers,Harold. Machine Translation: Latest Developments. In: Mitkov, Ruslan (Org.). The Oxford handbook of computational linguistics. Oxford: Oxford University Press, 2004. p. 512-528.
Wilks, Yorick: Machine translation: its scope and limits. New York: Springer, 2009.
HBP736 TÓPICOS EM LINGÜÍSTICA APLICADA II (Turma 3)
Créditos: 4
Semestre 2011.2
Professor responsável: Leonel Figueiredo de Alencar Araripe
Ementa: Estudos recentes sobre o processamento computacional da linguagem natural, com ênfase em abordagens baseadas em corpora aplicadas na análise automática do português nos níveis morfológico, lexical, sintático, semântico e textual.
Justificativa: O processamento computacional da linguagem natural (PLN)1 é uma das áreas daRevue Française de Linguistique Appliquée, à qual foi dedicado, por ex., o seguinte número temático:
O PALN (sob o rótulo de "Computerlinguistik") constitui também uma das seções da Sociedade Alemã de Lingüística Aplicada (ver http://www.gal-ev.de/index.php/sektionen). No Brasil, artigos na área de PLN e lingüística computacional têm sido publicados com freqüência na revista Calidoscópio (Qualis A2), um dos principais periódicos de Lingüística Aplicada brasileiros. Esses são apenas três exemplos da relevância, para a Lingüística Aplicada, desse campo que constitui um dos fundamentos da tecnologia das línguas naturais (natural language technology) e da lingüística de corpus, entre outras áreas.
Programa
Fundamentos computacionais
Sistema de arquivos e comandos básicos do sistema operacional UNIX
Princípios e prática de programação em Python
Teoria das línguas formais, gramáticas e autômatos
Anotação de corpora lingüísticos
Níveis de anotação
Tipos de anotação
Sistemas de representação e de codificação da anotação lingüística
Métodos de anotação automática
Utilidades da anotação de corpora
Anotação morfossintática em corpora de língua portuguesa
Lematização e Stemming
Anotação sintática “rasa” ou parcial (chunking)
Anotação sintática profunda
Tipos
Florestas sintáticas (treebanks)
Construção de analisadores sintáticos “rasos”
Construção de analisadores sintáticos profundos
Anotação semântica
Técnicas da análise automática de textos
Tradução automática
Avaliação
Quesito
Quantidade máxima de pontos
Participação (pontualidade e assiduidade, resolução de questões, elaboração de tarefas etc.)
ALENCAR, Leonel Figueiredo de. Complementos verbais oracionais: uma análise léxico-funcional. Lingua(gem), Santa Maria, v. 1, n. 1, p. 173-218, jan./jun. 2004.
ALENCAR, Leonel Figueiredo de. Linguagem e inteligência artificial. In: MATTES, Marlene Gonçalves (Org.). Linguagens: as expressões do múltiplo. Fortaleza: Premius, 2006. p. 11-53.
ALENCAR, Leonel Figueiredo de. Automatische Satzanalyse für Studierende der Germanistik bzw. des Faches DaF. In: ALENCAR, W. R. de (Org.). Akten des Seminars: Deutsch-Brasilianische Kulturbeziehungen und DaF / Relações Culturais Brasil-Alemanha e o Ensino de Alemão como Língua Estrangeira. Rio de Janeiro: ABRAPA, 2008. Disponível em:<http://www.scribd.com/doc/33827910/Automatische-Satzanalyse-Alencar-2008> e <http://abrapa.org.br/congresso2009/11.html>
ALENCAR, Leonel Figueiredo de. Técnicas em software livre para exploração de corpora do português livremente disponíveis na WWW. Veredas (UFJF. Online), Juiz de Fora, v. 13, p. 134-150, 2009.
ALENCAR, Leonel Figueiredo de. Produtividade morfológica e tecnologia do texto: aspectos da construção de um transdutor lexical do português capaz de analisar neologismos. Calidoscópio (UNISINOS), São Leopoldo, v. 7, p. 199-220, 2009.
ALENCAR, L. F. de. Aelius: uma ferramenta para anotação automática de corpora usando o NLTK. ELC 2010 – IX Encontro de Linguística de Corpus, PUCRS, Porto Alegre, 8 e 9 de outubro de 2010. Disponível em: <http://corpuslg.org/gelc/elc2010.php>
Beesley, K. R.; Karttunen, L. Finite state morphology. Stanford: CSLI Publications, 2003. 510 p.
BERBER SARDINHA, T. (org.). A língua portuguesa no computador. Campinas: Mercado de Letras; São Paulo: Fapesp, 2005. 296 p.
BIRD, S.; KLEIN, E.; LOPER, E. Natural language processing with Python: analyzing text with the Natural Language Toolkit. Sebastopol: O’Reilly, 2009. 502 p.
BRANCO, A.; COSTA, F. LXGram: A Deep Linguistic Processing Grammar for Portuguese. In: PARDO, T. A. S. et al. (Eds.). INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF THE PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Proceedings... Berlin; Heidelberg: Springer, 2010. p. 86-89.
BRANCO, A. et al. Developing a Deep Linguistic Databank Supporting a Collection of Treebanks: the CINTIL DeepGramBank. LANGUAGE RESOURCES AND EVALUATION CONFERENCE, n. 7, 2010, La Valletta, Malta. Proceedings... [s.l.]: ELRA, 2010. p. 1810-1815. Disponível em: <http://www.lrec-conf.org/proceedings/lrec2010/pdf/154_Paper.pdf> Acesso em: 26. abr. 2011.
BURNARD, L.; SPERBERG-MCQUEEN, C. M. TEI Lite: Encoding for Interchange: an introduction to the TEI – Revised for TEI P5 release. [Text Encoding Initiative Consortium]: [Charlottesville, Virginia], 2006. Disponível em: <http://www.tei-c.org/release/doc/tei-p5-exemplars/html/teilite.doc.html> Acesso em: 16. set. 2011.
CAVALIERI, D. C. et al. Evaluation of Machine Learning Approaches to Portuguese Part-of-Speech Prediction. INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Extended Activity Proceedings... Disponível em: <http://www.inf.pucrs.br/~propor2010/proceedings/regular_papers/CavalieriEtAl.pdf> Acesso em: 5. ag. 2011.
CLARK, A; FOX, C.; LAPPIN, S. (Eds.). The Handbook of Computational Linguistics and Natural Language Processing. Malden; Oxford; Chichester: Wiley & Blackwell, 2010. 800 p.
DI FELIPPO, A.; DIAS-DA-SILVA, B. C. O processamento automático de línguas naturais enquanto engenharia do conhecimento linguístico. Calidoscópio, São Leopoldo, vol. 7, n. 3, p. 183-191, set./dez. 2009.
FELDMAN, A.; HANA, J. A resource-light approach to morpho-syntactic tagging. Amsterdam; New York: Rodopi, 2010. 185 p.
GARCIA, M.; GAMALLO, P. Using Morphosyntactic Post-processing to Improve POS-tagging Accuracy. INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Extended Activity Proceedings... Disponível em: <http://www.inf.pucrs.br/~propor2010/proceedings/regular_papers/GarciaGamallo.pdf> Acesso em: 2. jun. 2011.
INDURKHYA, N.; DAMERAU, F. J. (Eds.). Handbook of Natural Language Processing. 2. ed. Boca Raton, FL: Chapman & Hall/CRC, 2010. 678 p.
JURAFSKY, D.; MARTIN, J.H. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. 2. ed. London: Pearson International, 2009. 1024 p.
Klenk, U. Generative Syntax. Tübingen, Narr, 2003. 261 p.
Lemnitzer, L.; Zinsmeister, H. Korpuslinguistik: eine Einführung. Tübingen: Narr, 2006. 220 p.
LÉON, J. A Lingüística de Corpus: história, problemas, legitimidade. Filologia e Linguística Portuguesa, São Paulo, n. 8, p. 51-81, 2006.
LOBIN, H.; LEMNITZER, L. (Eds.). Texttechnologie: Perspektiven und Anwendungen. Tübingen: Stauffenburg, 2004. 487 p.
LOBIN, H. Computerlinguistik und Texttechnologie. Paderborn: W. Fink, 2010. 124 p.
MARTINS, R. T. E se as máquinas não precisarem de regras para aprender a linguagem humana? Veredas On Line, Juiz de Fora, vol. 15, n. 1, p. 66-77, 2011.
MARTINS, R. T. O pecado original da linguística computacional. Alfa, São Paulo, vol. 55, n. 1, p. 287-307, 2011.
MARTINS, R.; HASEGAWA, R.; NUNES, G. Curupira: um parser funcional para a língua portuguesa. São Carlos: Núcleo Interinstitucional de Lingüística Computacional, 2002 Disponível em: <http://www.nilc.icmc.usp.br/nilc/download/nilc-tr-02-26.zip> Acesso em: 1. jun. 2011.
MARTINS, R.; NUNES, G.; HASEGAWA, R. Curupira: A Functional Parser for Brazilian Portuguese. In: MAMEDE, N. et al. (Eds.). INTERNATIONAL WORKSHOP ON COMPUTATIONAL PROCESSING OF THE PORTUGUESE LANGUAGE, n. 6, 2003, Faro. Proceedings... Berlin; Heidelberg: Springer, 2003. p. 179-183.
MEHLER, A.; LOBIN, H. (Eds.). Automatische Textanalyse: Systeme und Methoden zur Annotation und Analyse natürlichsprachlicher Texte. Wiesbaden: Verlag für Sozialwissenschaften, 2004. 290 p.
MENUZZI, S. M.; OTHERO, G. A. Lingüística Computacional: teoria & prática. São Paulo: Parábola, 2005.
MITKOV, R. (Ed.). The Oxford handbook of computational linguistics. Oxford: Oxford University Press, 2004.
OTHERO, G. A.Teoria X-barra: descrição do português e aplicação computacional. São Paulo: Contexto, 2006.
PERKINS, J. Python Text Processing with NLTK 2.0 Cookbook. Birmingham, UK: Packt, 2010. 256 p.
ROARK, B.; SPROAT, R. Computational approaches to morphology and syntax. Oxford: Oxford University Press, 2006. 316 p.
RODRIGUES, E. S.; AUGUSTO, M. R. A. Modelos formais de gramática: o Programa Minimalista vs. gramáticas baseadas em restrições – HPSG e LFG. Matraga, Rio de Janeiro, v.16, n. 24, p. 133-149, jan./jun. 2009.
SAG, I. A.; WASOW, T. ; BENDER, E. Syntactic theory: a formal introduction. 2. ed. Stanford: CSLI Publications, 2003. 608 p.
SALOMÃO, M. M. M. FrameNet Brasil: um trabalho em progresso. Calidoscópio, São Leopoldo, vol. 7, n. 3, p. 171-182, set./dez. 2009.
SEARA, I. C. et al. Morphosyntactic Parser for Brazilian Portuguese: Methodology for Development and Assessment. INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Extended Activity Proceedings... Disponível em: <http://www.inf.pucrs.br/~propor2010/proceedings/regular_papers/SearaEtAl.pdf.pdf> Acesso em: 5. ag. 2011.
SEGURA BEDMAR, Isabel; MARTÍNEZ FERNÁNDEZ, José Luis; MARTÍNEZ FERNÁNDEZ, Paloma. Una propuesta para el etiquetado automático de roles semánticos. Procesamiento del lenguaje natural, Alicante, n. 37, p. 309-316, set. 2006.
SHEPHERD, T. ; BERBER SARDINHA, T. ; PINTO, M. V. (orgs.). Caminhos da linguística de corpus. Campinas: Mercado de Letras, 2010.
SILVA, J. et al. Out-of-the-Box Robust Parsing of Portuguese. In: PARDO, T. A. S. et al. (Eds.). INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF THE PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Proceedings... Berlin; Heidelberg: Springer, 2010. p. 75-85.
SILVA, J.; BRANCO, A.; GONÇALVES, P. Top-Performing Robust Constituency Parsing of Portuguese: freely available in as many ways as you can get it. LANGUAGE RESOURCES AND EVALUATION CONFERENCE, n. 7, 2010, La Valletta, Malta. Proceedings... [s.l.]: ELRA, 2010. p. 1960-1963. Disponível em: < http://www.lrec-conf.org /proceedings /lrec2010/pdf/136_Paper.pdf> Acesso em: 26. abr. 2011.
TAGNIN, S. E. O.; VALE, O. A. (orgs.). Avanços da Linguística de Corpus no Brasil. São Paulo: Humanitas, 2008. 437 p.
1 Sigla TAL em francês, de “traitement automatique des langues”; NLP em inglês, de “natural language processing”; em alemão, “maschinelle Sprachverarbeitung”.
2No caso de alunos de Mestrado, que apresentam um único seminário, a apresentação em si vale 2 pontos e a tarefa associada, 2 pontos.