Universidade Federal do Ceará
Centro de Humanidades
Programa da disciplina
HBP736 TÓPICOS EM LINGÜÍSTICA APLICADA II (Turma 3)
Créditos: 4
Semestre 2011.2
Professor responsável: Leonel Figueiredo de Alencar Araripe
Ementa: Estudos recentes sobre o processamento computacional da linguagem natural, com ênfase em abordagens baseadas em corpora aplicadas na análise automática do português nos níveis morfológico, lexical, sintático, semântico e textual.
Justificativa: O processamento computacional da linguagem natural (PLN)1 é uma das áreas da Revue Française de Linguistique Appliquée, à qual foi dedicado, por ex., o seguinte número temático:
O PALN (sob o rótulo de "Computerlinguistik") constitui também uma das seções da Sociedade Alemã de Lingüística Aplicada (ver http://www.gal-ev.de/index.php/sektionen). No Brasil, artigos na área de PLN e lingüística computacional têm sido publicados com freqüência na revista Calidoscópio (Qualis A2), um dos principais periódicos de Lingüística Aplicada brasileiros. Esses são apenas três exemplos da relevância, para a Lingüística Aplicada, desse campo que constitui um dos fundamentos da tecnologia das línguas naturais (natural language technology) e da lingüística de corpus, entre outras áreas.
Programa
- Fundamentos computacionais
- Sistema de arquivos e comandos básicos do sistema operacional UNIX
- Princípios e prática de programação em Python
- Teoria das línguas formais, gramáticas e autômatos
- Anotação de corpora lingüísticos
- Níveis de anotação
- Tipos de anotação
- Sistemas de representação e de codificação da anotação lingüística
- Métodos de anotação automática
- Utilidades da anotação de corpora
- Anotação morfossintática em corpora de língua portuguesa
- Lematização e Stemming
- Anotação sintática “rasa” ou parcial (chunking)
- Anotação sintática profunda
- Tipos
- Florestas sintáticas (treebanks)
- Construção de analisadores sintáticos “rasos”
- Construção de analisadores sintáticos profundos
- Anotação semântica
- Técnicas da análise automática de textos
- Tradução automática
Avaliação
Quesito | Quantidade máxima de pontos |
| 3 |
| 1 |
| 1 |
| 2 |
| 5 |
Algoritmo para cálculo da nota
Bibliografia
ALENCAR, Leonel Figueiredo de. Complementos verbais oracionais: uma análise léxico-funcional. Lingua(gem), Santa Maria, v. 1, n. 1, p. 173-218, jan./jun. 2004.
ALENCAR, Leonel Figueiredo de. Linguagem e inteligência artificial. In: MATTES, Marlene Gonçalves (Org.). Linguagens: as expressões do múltiplo. Fortaleza: Premius, 2006. p. 11-53.
ALENCAR, Leonel Figueiredo de. Automatische Satzanalyse für Studierende der Germanistik bzw. des Faches DaF. In: ALENCAR, W. R. de (Org.). Akten des Seminars: Deutsch-Brasilianische Kulturbeziehungen und DaF / Relações Culturais Brasil-Alemanha e o Ensino de Alemão como Língua Estrangeira. Rio de Janeiro: ABRAPA, 2008. Disponível em:<http://www.scribd.com/doc/33827910/Automatische-Satzanalyse-Alencar-2008> e <http://abrapa.org.br/congresso2009/11.html>
ALENCAR, Leonel Figueiredo de. Técnicas em software livre para exploração de corpora do português livremente disponíveis na WWW. Veredas (UFJF. Online), Juiz de Fora, v. 13, p. 134-150, 2009.
ALENCAR, Leonel Figueiredo de. Produtividade morfológica e tecnologia do texto: aspectos da construção de um transdutor lexical do português capaz de analisar neologismos. Calidoscópio (UNISINOS), São Leopoldo, v. 7, p. 199-220, 2009.
ALENCAR, L. F. de. Aelius: uma ferramenta para anotação automática de corpora usando o NLTK. ELC 2010 – IX Encontro de Linguística de Corpus, PUCRS, Porto Alegre, 8 e 9 de outubro de 2010. Disponível em: <http://corpuslg.org/gelc/elc2010.php>
Beesley, K. R.; Karttunen, L. Finite state morphology. Stanford: CSLI Publications, 2003. 510 p.
BERBER SARDINHA, T. (org.). A língua portuguesa no computador. Campinas: Mercado de Letras; São Paulo: Fapesp, 2005. 296 p.
BIRD, S.; KLEIN, E.; LOPER, E. Natural language processing with Python: analyzing text with the Natural Language Toolkit. Sebastopol: O’Reilly, 2009. 502 p.
BRANCO, A.; COSTA, F. LXGram: A Deep Linguistic Processing Grammar for Portuguese. In: PARDO, T. A. S. et al. (Eds.). INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF THE PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Proceedings... Berlin; Heidelberg: Springer, 2010. p. 86-89.
BRANCO, A. et al. Developing a Deep Linguistic Databank Supporting a Collection of Treebanks: the CINTIL DeepGramBank. LANGUAGE RESOURCES AND EVALUATION CONFERENCE, n. 7, 2010, La Valletta, Malta. Proceedings... [s.l.]: ELRA, 2010. p. 1810-1815. Disponível em: <http://www.lrec-conf.org/proceedings/lrec2010/pdf/154_Paper.pdf> Acesso em: 26. abr. 2011.
BURNARD, L.; SPERBERG-MCQUEEN, C. M. TEI Lite: Encoding for Interchange: an introduction to the TEI – Revised for TEI P5 release. [Text Encoding Initiative Consortium]: [Charlottesville, Virginia], 2006. Disponível em: <http://www.tei-c.org/release/doc/tei-p5-exemplars/html/teilite.doc.html> Acesso em: 16. set. 2011.
CAVALIERI, D. C. et al. Evaluation of Machine Learning Approaches to Portuguese Part-of-Speech Prediction. INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Extended Activity Proceedings... Disponível em: <http://www.inf.pucrs.br/~propor2010/proceedings/regular_papers/CavalieriEtAl.pdf> Acesso em: 5. ag. 2011.
CLARK, A; FOX, C.; LAPPIN, S. (Eds.). The Handbook of Computational Linguistics and Natural Language Processing. Malden; Oxford; Chichester: Wiley & Blackwell, 2010. 800 p.
DI FELIPPO, A.; DIAS-DA-SILVA, B. C. O processamento automático de línguas naturais enquanto engenharia do conhecimento linguístico. Calidoscópio, São Leopoldo, vol. 7, n. 3, p. 183-191, set./dez. 2009.
FELDMAN, A.; HANA, J. A resource-light approach to morpho-syntactic tagging. Amsterdam; New York: Rodopi, 2010. 185 p.
GARCIA, M.; GAMALLO, P. Using Morphosyntactic Post-processing to Improve POS-tagging Accuracy. INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Extended Activity Proceedings... Disponível em: <http://www.inf.pucrs.br/~propor2010/proceedings/regular_papers/GarciaGamallo.pdf> Acesso em: 2. jun. 2011.
INDURKHYA, N.; DAMERAU, F. J. (Eds.). Handbook of Natural Language Processing. 2. ed. Boca Raton, FL: Chapman & Hall/CRC, 2010. 678 p.
JURAFSKY, D.; MARTIN, J.H. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. 2. ed. London: Pearson International, 2009. 1024 p.
Klenk, U. Generative Syntax. Tübingen, Narr, 2003. 261 p.
Lemnitzer, L.; Zinsmeister, H. Korpuslinguistik: eine Einführung. Tübingen: Narr, 2006. 220 p.
LÉON, J. A Lingüística de Corpus: história, problemas, legitimidade. Filologia e Linguística Portuguesa, São Paulo, n. 8, p. 51-81, 2006.
LOBIN, H.; LEMNITZER, L. (Eds.). Texttechnologie: Perspektiven und Anwendungen. Tübingen: Stauffenburg, 2004. 487 p.
LOBIN, H. Computerlinguistik und Texttechnologie. Paderborn: W. Fink, 2010. 124 p.
MARTINS, R. T. E se as máquinas não precisarem de regras para aprender a linguagem humana? Veredas On Line, Juiz de Fora, vol. 15, n. 1, p. 66-77, 2011.
MARTINS, R. T. O pecado original da linguística computacional. Alfa, São Paulo, vol. 55, n. 1, p. 287-307, 2011.
MARTINS, R.; HASEGAWA, R.; NUNES, G. Curupira: um parser funcional para a língua portuguesa. São Carlos: Núcleo Interinstitucional de Lingüística Computacional, 2002 Disponível em: <http://www.nilc.icmc.usp.br/nilc/download/nilc-tr-02-26.zip> Acesso em: 1. jun. 2011.
MARTINS, R.; NUNES, G.; HASEGAWA, R. Curupira: A Functional Parser for Brazilian Portuguese. In: MAMEDE, N. et al. (Eds.). INTERNATIONAL WORKSHOP ON COMPUTATIONAL PROCESSING OF THE PORTUGUESE LANGUAGE, n. 6, 2003, Faro. Proceedings... Berlin; Heidelberg: Springer, 2003. p. 179-183.
MEHLER, A.; LOBIN, H. (Eds.). Automatische Textanalyse: Systeme und Methoden zur Annotation und Analyse natürlichsprachlicher Texte. Wiesbaden: Verlag für Sozialwissenschaften, 2004. 290 p.
MENUZZI, S. M.; OTHERO, G. A. Lingüística Computacional: teoria & prática. São Paulo: Parábola, 2005.
MITKOV, R. (Ed.). The Oxford handbook of computational linguistics. Oxford: Oxford University Press, 2004.
MÜLLER, S. Grammatiktheorie. Tübingen: Stauffenburg, 2010. Disponível em:<http://hpsg.fu-berlin.de/~stefan/Pub/grammatiktheorie.html> Acesso em: 9. ag. 2011.
OTHERO, G. A. Teoria X-barra: descrição do português e aplicação computacional. São Paulo: Contexto, 2006.
PERKINS, J. Python Text Processing with NLTK 2.0 Cookbook. Birmingham, UK: Packt, 2010. 256 p.
ROARK, B.; SPROAT, R. Computational approaches to morphology and syntax. Oxford: Oxford University Press, 2006. 316 p.
RODRIGUES, E. S.; AUGUSTO, M. R. A. Modelos formais de gramática: o Programa Minimalista vs. gramáticas baseadas em restrições – HPSG e LFG. Matraga, Rio de Janeiro, v.16, n. 24, p. 133-149, jan./jun. 2009.
SAG, I. A.; WASOW, T. ; BENDER, E. Syntactic theory: a formal introduction. 2. ed. Stanford: CSLI Publications, 2003. 608 p.
SALOMÃO, M. M. M. FrameNet Brasil: um trabalho em progresso. Calidoscópio, São Leopoldo, vol. 7, n. 3, p. 171-182, set./dez. 2009.
SEARA, I. C. et al. Morphosyntactic Parser for Brazilian Portuguese: Methodology for Development and Assessment. INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Extended Activity Proceedings... Disponível em: <http://www.inf.pucrs.br/~propor2010/proceedings/regular_papers/SearaEtAl.pdf.pdf> Acesso em: 5. ag. 2011.
SEGURA BEDMAR, Isabel; MARTÍNEZ FERNÁNDEZ, José Luis; MARTÍNEZ FERNÁNDEZ, Paloma. Una propuesta para el etiquetado automático de roles semánticos. Procesamiento del lenguaje natural, Alicante, n. 37, p. 309-316, set. 2006.
SHEPHERD, T. ; BERBER SARDINHA, T. ; PINTO, M. V. (orgs.). Caminhos da linguística de corpus. Campinas: Mercado de Letras, 2010.
SILVA, J. et al. Out-of-the-Box Robust Parsing of Portuguese. In: PARDO, T. A. S. et al. (Eds.). INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF THE PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Proceedings... Berlin; Heidelberg: Springer, 2010. p. 75-85.
SILVA, J.; BRANCO, A.; GONÇALVES, P. Top-Performing Robust Constituency Parsing of Portuguese: freely available in as many ways as you can get it. LANGUAGE RESOURCES AND EVALUATION CONFERENCE, n. 7, 2010, La Valletta, Malta. Proceedings... [s.l.]: ELRA, 2010. p. 1960-1963. Disponível em: < http://www.lrec-conf.org /proceedings /lrec2010/pdf/136_Paper.pdf> Acesso em: 26. abr. 2011.
TAGNIN, S. E. O.; VALE, O. A. (orgs.). Avanços da Linguística de Corpus no Brasil. São Paulo: Humanitas, 2008. 437 p.
1 Sigla TAL em francês, de “traitement automatique des langues”; NLP em inglês, de “natural language processing”; em alemão, “maschinelle Sprachverarbeitung”.
2No caso de alunos de Mestrado, que apresentam um único seminário, a apresentação em si vale 2 pontos e a tarefa associada, 2 pontos.
Nenhum comentário:
Postar um comentário