segunda-feira, 12 de março de 2012

Disciplina Linguística Aplicada II

Universidade Federal do Ceará
Centro de Humanidades
Programa da disciplina
HBP736 TÓPICOS EM LINGÜÍSTICA APLICADA II (Turma 3)
Créditos: 4
Semestre 2011.2
Professor responsável: Leonel Figueiredo de Alencar Araripe

Ementa: Estudos recentes sobre o processamento computacional da linguagem natural, com ênfase em abordagens baseadas em corpora aplicadas na análise automática do português nos níveis morfológico, lexical, sintático, semântico e textual.

Justificativa: O processamento computacional da linguagem natural (PLN)1 é uma das áreas da Revue Française de Linguistique Appliquée, à qual foi dedicado, por ex., o seguinte número temático:
O PALN (sob o rótulo de "Computerlinguistik") constitui também uma das seções da Sociedade Alemã de Lingüística Aplicada (ver http://www.gal-ev.de/index.php/sektionen). No Brasil, artigos na área de PLN e lingüística computacional têm sido publicados com freqüência na revista Calidoscópio (Qualis A2), um dos principais periódicos de Lingüística Aplicada brasileiros. Esses são apenas três exemplos da relevância, para a Lingüística Aplicada, desse campo que constitui um dos fundamentos da tecnologia das línguas naturais (natural language technology) e da lingüística de corpus, entre outras áreas.

Programa
  1. Fundamentos computacionais
    1. Sistema de arquivos e comandos básicos do sistema operacional UNIX
    2. Princípios e prática de programação em Python
    3. Teoria das línguas formais, gramáticas e autômatos
  2. Anotação de corpora lingüísticos
    1. Níveis de anotação
    2. Tipos de anotação
    3. Sistemas de representação e de codificação da anotação lingüística
    4. Métodos de anotação automática
    5. Utilidades da anotação de corpora
  3. Anotação morfossintática em corpora de língua portuguesa
  4. Lematização e Stemming
  5. Anotação sintática “rasa” ou parcial (chunking)
  6. Anotação sintática profunda
    1. Tipos
    2. Florestas sintáticas (treebanks)
  7. Construção de analisadores sintáticos “rasos”
  8. Construção de analisadores sintáticos profundos
  9. Anotação semântica
  10. Técnicas da análise automática de textos
  11. Tradução automática





Avaliação

Quesito
Quantidade máxima de pontos
  1. Participação (pontualidade e assiduidade, resolução de questões, elaboração de tarefas etc.)
3
  1. Apresentação do primeiro seminário
1
  1. Resolução da tarefa do primeiro seminário
1
  1. Apresentação do segundo seminário2
2
  1. Prova escrita
5

Algoritmo para cálculo da nota



Bibliografia

ALENCAR, Leonel Figueiredo de. Complementos verbais oracionais: uma análise léxico-funcional. Lingua(gem), Santa Maria, v. 1, n. 1, p. 173-218, jan./jun. 2004.
ALENCAR, Leonel Figueiredo de. Linguagem e inteligência artificial. In: MATTES, Marlene Gonçalves (Org.). Linguagens: as expressões do múltiplo. Fortaleza: Premius, 2006. p. 11-53.
ALENCAR, Leonel Figueiredo de. Automatische Satzanalyse für Studierende der Germanistik bzw. des Faches DaF. In: ALENCAR, W. R. de (Org.). Akten des Seminars: Deutsch-Brasilianische Kulturbeziehungen und DaF / Relações Culturais Brasil-Alemanha e o Ensino de Alemão como Língua Estrangeira. Rio de Janeiro: ABRAPA, 2008. Disponível em:<http://www.scribd.com/doc/33827910/Automatische-Satzanalyse-Alencar-2008> e <http://abrapa.org.br/congresso2009/11.html>
ALENCAR, Leonel Figueiredo de. Técnicas em software livre para exploração de corpora do português livremente disponíveis na WWW. Veredas (UFJF. Online), Juiz de Fora, v. 13, p. 134-150, 2009.
ALENCAR, Leonel Figueiredo de. Produtividade morfológica e tecnologia do texto: aspectos da construção de um transdutor lexical do português capaz de analisar neologismos. Calidoscópio (UNISINOS), São Leopoldo, v. 7, p. 199-220, 2009.
ALENCAR, L. F. de. Aelius: uma ferramenta para anotação automática de corpora usando o NLTK. ELC 2010 – IX Encontro de Linguística de Corpus, PUCRS, Porto Alegre, 8 e 9 de outubro de 2010. Disponível em: <http://corpuslg.org/gelc/elc2010.php>
Beesley, K. R.; Karttunen, L. Finite state morphology. Stanford: CSLI Publications, 2003. 510 p.
BERBER SARDINHA, T. (org.). A língua portuguesa no computador. Campinas: Mercado de Letras; São Paulo: Fapesp, 2005. 296 p.
BIRD, S.; KLEIN, E.; LOPER, E. Natural language processing with Python: analyzing text with the Natural Language Toolkit. Sebastopol: O’Reilly, 2009. 502 p.
BRANCO, A.; COSTA, F. LXGram: A Deep Linguistic Processing Grammar for Portuguese. In: PARDO, T. A. S. et al. (Eds.). INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF THE PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Proceedings... Berlin; Heidelberg: Springer, 2010. p. 86-89.
BRANCO, A. et al. Developing a Deep Linguistic Databank Supporting a Collection of Treebanks: the CINTIL DeepGramBank. LANGUAGE RESOURCES AND EVALUATION CONFERENCE, n. 7, 2010, La Valletta, Malta. Proceedings... [s.l.]: ELRA, 2010. p. 1810-1815. Disponível em: <http://www.lrec-conf.org/proceedings/lrec2010/pdf/154_Paper.pdf> Acesso em: 26. abr. 2011.
BURNARD, L.; SPERBERG-MCQUEEN, C. M. TEI Lite: Encoding for Interchange: an introduction to the TEI – Revised for TEI P5 release. [Text Encoding Initiative Consortium]: [Charlottesville, Virginia], 2006. Disponível em: <http://www.tei-c.org/release/doc/tei-p5-exemplars/html/teilite.doc.html> Acesso em: 16. set. 2011.
CAVALIERI, D. C. et al. Evaluation of Machine Learning Approaches to Portuguese Part-of-Speech Prediction. INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Extended Activity Proceedings... Disponível em: <http://www.inf.pucrs.br/~propor2010/proceedings/regular_papers/CavalieriEtAl.pdf> Acesso em: 5. ag. 2011.
CLARK, A; FOX, C.; LAPPIN, S. (Eds.). The Handbook of Computational Linguistics and Natural Language Processing. Malden; Oxford; Chichester: Wiley & Blackwell, 2010. 800 p.
DI FELIPPO, A.; DIAS-DA-SILVA, B. C. O processamento automático de línguas naturais enquanto engenharia do conhecimento linguístico. Calidoscópio, São Leopoldo, vol. 7, n. 3, p. 183-191, set./dez. 2009.
FELDMAN, A.; HANA, J. A resource-light approach to morpho-syntactic tagging. Amsterdam; New York: Rodopi, 2010. 185 p.
GARCIA, M.; GAMALLO, P. Using Morphosyntactic Post-processing to Improve POS-tagging Accuracy. INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Extended Activity Proceedings... Disponível em: <http://www.inf.pucrs.br/~propor2010/proceedings/regular_papers/GarciaGamallo.pdf> Acesso em: 2. jun. 2011.
INDURKHYA, N.; DAMERAU, F. J. (Eds.). Handbook of Natural Language Processing. 2. ed. Boca Raton, FL: Chapman & Hall/CRC, 2010. 678 p.
JURAFSKY, D.; MARTIN, J.H. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. 2. ed. London: Pearson International, 2009. 1024 p.
Klenk, U. Generative Syntax. Tübingen, Narr, 2003. 261 p.
Lemnitzer, L.; Zinsmeister, H. Korpuslinguistik: eine Einführung. Tübingen: Narr, 2006. 220 p.
LÉON, J. A Lingüística de Corpus: história, problemas, legitimidade. Filologia e Linguística Portuguesa, São Paulo, n. 8, p. 51-81, 2006.
LOBIN, H.; LEMNITZER, L. (Eds.). Texttechnologie: Perspektiven und Anwendungen. Tübingen: Stauffenburg, 2004. 487 p.
LOBIN, H. Computerlinguistik und Texttechnologie. Paderborn: W. Fink, 2010. 124 p.
MARTINS, R. T. E se as máquinas não precisarem de regras para aprender a linguagem humana? Veredas On Line, Juiz de Fora, vol. 15, n. 1, p. 66-77, 2011.
MARTINS, R. T. O pecado original da linguística computacional. Alfa, São Paulo, vol. 55, n. 1, p. 287-307, 2011.
MARTINS, R.; HASEGAWA, R.; NUNES, G. Curupira: um parser funcional para a língua portuguesa. São Carlos: Núcleo Interinstitucional de Lingüística Computacional, 2002 Disponível em: <http://www.nilc.icmc.usp.br/nilc/download/nilc-tr-02-26.zip> Acesso em: 1. jun. 2011.
MARTINS, R.; NUNES, G.; HASEGAWA, R. Curupira: A Functional Parser for Brazilian Portuguese. In: MAMEDE, N. et al. (Eds.). INTERNATIONAL WORKSHOP ON COMPUTATIONAL PROCESSING OF THE PORTUGUESE LANGUAGE, n. 6, 2003, Faro. Proceedings... Berlin; Heidelberg: Springer, 2003. p. 179-183.
MEHLER, A.; LOBIN, H. (Eds.). Automatische Textanalyse: Systeme und Methoden zur Annotation und Analyse natürlichsprachlicher Texte. Wiesbaden: Verlag für Sozialwissenschaften, 2004. 290 p.
MENUZZI, S. M.; OTHERO, G. A. Lingüística Computacional: teoria & prática. São Paulo: Parábola, 2005.
MITKOV, R. (Ed.). The Oxford handbook of computational linguistics. Oxford: Oxford University Press, 2004.
MÜLLER, S. Grammatiktheorie. Tübingen: Stauffenburg, 2010. Disponível em:<http://hpsg.fu-berlin.de/~stefan/Pub/grammatiktheorie.html> Acesso em: 9. ag. 2011.
OTHERO, G. A. Teoria X-barra: descrição do português e aplicação computacional. São Paulo: Contexto, 2006.
PERKINS, J. Python Text Processing with NLTK 2.0 Cookbook. Birmingham, UK: Packt, 2010. 256 p.
ROARK, B.; SPROAT, R. Computational approaches to morphology and syntax. Oxford: Oxford University Press, 2006. 316 p.
RODRIGUES, E. S.; AUGUSTO, M. R. A. Modelos formais de gramática: o Programa Minimalista vs. gramáticas baseadas em restrições – HPSG e LFG. Matraga, Rio de Janeiro, v.16, n. 24, p. 133-149, jan./jun. 2009.
SAG, I. A.; WASOW, T. ; BENDER, E. Syntactic theory: a formal introduction. 2. ed. Stanford: CSLI Publications, 2003. 608 p.
SALOMÃO, M. M. M. FrameNet Brasil: um trabalho em progresso. Calidoscópio, São Leopoldo, vol. 7, n. 3, p. 171-182, set./dez. 2009.
SEARA, I. C. et al. Morphosyntactic Parser for Brazilian Portuguese: Methodology for Development and Assessment. INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Extended Activity Proceedings... Disponível em: <http://www.inf.pucrs.br/~propor2010/proceedings/regular_papers/SearaEtAl.pdf.pdf> Acesso em: 5. ag. 2011.
SEGURA BEDMAR, Isabel; MARTÍNEZ FERNÁNDEZ, José Luis; MARTÍNEZ FERNÁNDEZ, Paloma. Una propuesta para el etiquetado automático de roles semánticos. Procesamiento del lenguaje natural, Alicante, n. 37, p. 309-316, set. 2006.
SHEPHERD, T. ; BERBER SARDINHA, T. ; PINTO, M. V. (orgs.). Caminhos da linguística de corpus. Campinas: Mercado de Letras, 2010.
SILVA, J. et al. Out-of-the-Box Robust Parsing of Portuguese. In: PARDO, T. A. S. et al. (Eds.). INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF THE PORTUGUESE LANGUAGE, n. 9, 2010, Porto Alegre. Proceedings... Berlin; Heidelberg: Springer, 2010. p. 75-85.
SILVA, J.; BRANCO, A.; GONÇALVES, P. Top-Performing Robust Constituency Parsing of Portuguese: freely available in as many ways as you can get it. LANGUAGE RESOURCES AND EVALUATION CONFERENCE, n. 7, 2010, La Valletta, Malta. Proceedings... [s.l.]: ELRA, 2010. p. 1960-1963. Disponível em: < http://www.lrec-conf.org /proceedings /lrec2010/pdf/136_Paper.pdf> Acesso em: 26. abr. 2011.
TAGNIN, S. E. O.; VALE, O. A. (orgs.). Avanços da Linguística de Corpus no Brasil. São Paulo: Humanitas, 2008. 437 p.
1 Sigla TAL em francês, de “traitement automatique des langues”; NLP em inglês, de “natural language processing”; em alemão, “maschinelle Sprachverarbeitung”.
2No caso de alunos de Mestrado, que apresentam um único seminário, a apresentação em si vale 2 pontos e a tarefa associada, 2 pontos.

Nenhum comentário:

Postar um comentário