terça-feira, 6 de março de 2012

Descrição do grupo

CompLin – Computação e Linguagem Natural


Grupo de pesquisa sobre lingüística computacional,
lingüística de corpus e gramática gerativa na Universidade Federal do Ceará


Vinculação institucional

Sediado no Centro de Humanidades da Universidade Federal do Ceará,
o grupo CompLin – Computação e Linguagem Natural está vinculado
estreitamente ao Curso de Letras, ao Departamento de Letras
Estrangeiras e ao Programa de Pós-Graduação em Lingüística, todos
integrantes dessa unidade acadêmica, mas congrega também pesquisadores
de outras instituições, como, por exemplo, a Universidade Federal do Rio Grande do Sul.

Objetivos







O grupo CompLin – Computação e Linguagem Natural foca a investigação, em nível teórico, dos aspectos computacionais das gramáticas das línguas naturais bem como a aplicação prática desses estudos no desenvolvimento de programas de processamento automático da linguagem humana nos níveis fonológico, morfológico, sintático, semântico e textual, com ênfase em sistemas de tradução automática, os quais integram esses diferentes níveis de processamento, inserindo-se, portanto, na confluência entre a lingüística teórica e descritiva, a lingüística de corpus e a lingüística computacional.

Fundamentação teórica

Lingüística Teórica



A lingüística teórica, no âmbito do paradigma gerativo chomskyano, tem como objeto de estudo a Faculdade da Linguagem, que é parte de nosso patrimônio genético enquanto humanos e responsável, por um lado, pela capacidade inata para adquirir uma língua natural e, por outro, pelas características comuns a todas as línguas, constituindo o arcabouço da Gramática Universal. Sob essa perspectiva, a teoria lingüística é um modelo de parte da cognição humana. As estruturas lingüísticas, que consistem em representações que conjugam uma Forma Lógica (LF, do inglês Logical Form) e uma Forma Fonética (PF, do inglês Phonetic Form), são geradas pela interação de dois módulos da mente: o sistema computacional e o léxico, o primeiro operando sobre itens extraídos do segundo. Nessa teoria, as sentenças consistem de emparelhamentos de LF–PF, os quais constituem, por sua vez, o input para os sistemas articulatório-perceptual e conceptual-intencional, responsáveis, respectivamente, por um lado, pela pronúncia e recepção auditiva, por outro, pela interpretação das sentenças.




Lingüística de Corpus



A lingüística de corpus tem como objetivo a compilação, a anotação e a exploração de corpora, compreendidos como acervos de textos autênticos em linguagem natural disponibilizados de forma eletrônica, utilizando, em todas essas etapas, ferramentas computacionais para o processamento automático de textos.


Lingüística Computacional



A lingüística computacional constitui área de interseção entre os estudos da linguagem natural e a ciência da computação. Esse enfoque interdisciplinar permite aos lingüistas não apenas direcionar suas pesquisas para aplicações tecnológicas, mas também verificar a consistência e a plausibilidade de análises descritivas de línguas particulares e de modelos teóricos da linguagem humana.


Aspectos metodológicos



As pesquisas realizadas nas áreas de lingüística computacional e lingüística de corpus no âmbito do grupo se valem de uma variada gama de métodos e técnicas. Em primeiro lugar, são utilizadas linguagens de programação de propósito geral, tanto interpretadas quanto compiladas, com representantes dos mais diferentes paradigmas de programação, como o declarativo (leia-se Prolog), procedural (com destaque para a linguagem C), funcional (por exemplo LISP), orientado a objetos (Java e C++) ou multiparadigma (com forte ênfase em Python).  Em segundo lugar, recorremos à Extensible Markup Language (XML) para tanto para modelar estruturas de dados lingüísticos, por exemplo no desenvolvimento de analisadores (parsers) e tradutores automáticos, como para anotar e representar a estrutura de textos, em vários níveis de análise, no âmbito da lingüística de corpus.

Devido tanto às suas qualidades didático-pedagógicas quanto à enorme quantidade de bibliotecas disponíveis, Python se sobressai como a linguagem mais utilizada no grupo. De fato, nenhuma outra linguagem de programação dispõe de uma biblioteca tão rica voltada para o processamento automático de textos nos diferentes níveis de análise lingüística  quanto o Natural Language Toolkit (NLTK), implementado em Python. Outra vantagem de Python é permitir, de modo relativamente fácil, elaborar programas tanto para a chamada "computação nas nuvens" (cloud computing), utilizando, por exemplo, o Google App Engine, talvez a mais importante plataforma de desenvolvimento de aplicativos para a Web dentro desse novo paradigma, quanto para dispositivos computacionais móveis (smartphones, tablets, e-book readers etc.). 

Na análise automática de textos no âmbito da lingüística de corpus, merecem destaque as ferramentas de linha de comandos típicas do sistema operacional Unix (nativas, igualmente, no Linux e no Mac OS X), como o grep, wc, tr, sort, uniq etc., com as quais se podem realizar tarefas básicas como extração de concordâncias, toquenizacão e contagem de palavras de forma extremamente ágil. 

A par das linguagens de programação de propósito geral, assumem uma grande importância na modelação de componentes específicos da gramática, por um lado, modelos lingüísticos computacionais(ou formalismos lingüísticos) como a LFG, a HPSG, a Morfologia de Dois Níveis etc., por outro, sistemas de programação lingüística como  GFU Lab, LKB, FSA Utilities e xfst (a respeito da distinção entre formalismos lingüísticos e sistemas de programação lingüística, consulte-se Guinovart (2000)). Enquanto os dois primeiros estão mais voltados para a construção de analisadores sintáticos, os dois últimos constituem sistemas para compilação (a partir de expressões regulares) e manipulação de autômatos e transdutores de estados finitos, por meio dos quais fenômenos morfológicos e morfofonológicos, a anotação morfossintática de corpora bem como o mapeamento entre grafemas e fonemas podem ser modelados computacionalmente de forma extremamente eficiente. 


Relevância sócio-econômica



As pesquisas desenvolvidas pelos membros do grupo, em nível de iniciação científica, mestrado e doutorado, visam a preencher lacunas tanto na formação de recursos humanos no Ceará, uma vez que não há, nesse Estado, outros grupos na área de gramática gerativa ou processamento automático da linguagem natural, quanto no âmbito da indústria de softwares brasileira como um todo, na qual as tecnologias da linguagem natural, não obstante o papel cada vez mais importante que desempenham nos países mais desenvolvidos, ainda não têm sido suficientemente exploradas.


Equipe

Coordenador

Prof. Dr. Leonel F. de Alencar (Professor Adjunto do Departamento de Letras Estrangeiras e Programa de Pós-Graduação em Lingüística da UFC)


Colaborador externo

Prof. Dr. Gabriel de Ávila Othero (Professor Adjunto do Instituto de Letras da Universidade Federal do Rio Grande do Sul – UFRGS)


Estudantes-Pesquisadores

Lista atualizada aqui.

NomeNívelFinanciamentoÁreaInstituição
Tiago Martins da CunhadoutorandoCAPEStradução automáticaAluno do Programa de Pós-Graduação em Lingüística da UFC
Aluno de Doutorado-Sanduíche na Universität des Saarlandes, Alemanha 
Andréa Feitosa dos SantosdoutorandaFuncap (2010-2012)
DAAD (a partir de 2012)
processamento computacional da sintaxe em gramáticas baseadas em estruturas de traçosAluna do Programa de Pós-Graduação em Lingüística da UFC
Aluna de Doutorado-Sanduíche na Universität Konstanz, Alemanha
Ednardo Luiz da CostamestreCAPESanálise morfológica computacional no paradigma de estados finitosAluno do Programa de Pós-Graduação em Lingüística da UFC
Raimundo Cleodimar de Oliveira Júnioriniciação científica (2009-2010)CNPqlingüística de corpus (anotação automática de corpora)Aluno do Curso de Letras – Português
Mauro Sérgio Pereirainiciação científica
(agosto 2009 – julho 2010)
agentes conversacionais (chatterbots) com tecnologia text to speech em ambiente de computação nas nuvensAluno do Curso de Letras – Alemão
Davis Macêdo Vasconcelosdoutorandoanálise morfológica automáticaAluno do Programa de Pós-Graduação em Lingüística da UFC


Professor do Bacharelado em Engenharia de Telecomunicações – Instituto Federal do Ceará
André Chaves Santiagoiniciação científica
(agosto 2010 – julho 2011)
CNPqlingüística de corpus (anotação automática de corpora)Aluno do Curso de Letras – Alemão
Roberto Lopes da Silva Filhoiniciação científica
(agosto 2010 – julho 2011)
UFClingüística de corpus (anotação automática de corpora)Aluno do Curso de Letras – Espanhol



©
2009 – 2012       Página do CompLin – Lingüística Computacional e Lingüística de Corpus no Diretório dos Grupos de Pesquisa no Brasil

Nenhum comentário:

Postar um comentário