CompLin – Computação e Linguagem Natural

Grupo de pesquisa sobre lingüística computacional,
lingüística de corpus e gramática gerativa na Universidade Federal do Ceará

Vinculação institucional

Sediado no Centro de Humanidades da Universidade Federal do Ceará,
o grupo CompLin – Computação e Linguagem Natural está vinculado
estreitamente ao Curso de Letras, ao Departamento de Letras
Estrangeiras e ao Programa de Pós-Graduação em Lingüística, todos
integrantes dessa unidade acadêmica, mas congrega também pesquisadores
de outras instituições, como, por exemplo, a Universidade Federal do Rio Grande do Sul.

Objetivos

O grupo CompLin – Computação e Linguagem Natural foca a investigação, em nível teórico, dos aspectos computacionais das gramáticas das línguas naturais bem como a aplicação prática desses estudos no desenvolvimento de programas de processamento automático da linguagem humana nos níveis fonológico, morfológico, sintático, semântico e textual, com ênfase em sistemas de tradução automática, os quais integram esses diferentes níveis de processamento, inserindo-se, portanto, na confluência entre a lingüística teórica e descritiva, a lingüística de corpus e a lingüística computacional.

Fundamentação teórica

Lingüística Teórica

A lingüística teórica, no âmbito do paradigma gerativo chomskyano, tem como objeto de estudo a Faculdade da Linguagem, que é parte de nosso patrimônio genético enquanto humanos e responsável, por um lado, pela capacidade inata para adquirir uma língua natural e, por outro, pelas características comuns a todas as línguas, constituindo o arcabouço da Gramática Universal. Sob essa perspectiva, a teoria lingüística é um modelo de parte da cognição humana. As estruturas lingüísticas, que consistem em representações que conjugam uma Forma Lógica (LF, do inglês Logical Form) e uma Forma Fonética (PF, do inglês Phonetic Form), são geradas pela interação de dois módulos da mente: o sistema computacional e o léxico, o primeiro operando sobre itens extraídos do segundo. Nessa teoria, as sentenças consistem de emparelhamentos de LF–PF, os quais constituem, por sua vez, o input para os sistemas articulatório-perceptual e conceptual-intencional, responsáveis, respectivamente, por um lado, pela pronúncia e recepção auditiva, por outro, pela interpretação das sentenças.

Lingüística de Corpus

A lingüística de corpus tem como objetivo a compilação, a anotação e a exploração de corpora, compreendidos como acervos de textos autênticos em linguagem natural disponibilizados de forma eletrônica, utilizando, em todas essas etapas, ferramentas computacionais para o processamento automático de textos.

Lingüística Computacional

A lingüística computacional constitui área de interseção entre os estudos da linguagem natural e a ciência da computação. Esse enfoque interdisciplinar permite aos lingüistas não apenas direcionar suas pesquisas para aplicações tecnológicas, mas também verificar a consistência e a plausibilidade de análises descritivas de línguas particulares e de modelos teóricos da linguagem humana.

Aspectos metodológicos

As pesquisas realizadas nas áreas de lingüística computacional e lingüística de corpus no âmbito do grupo se valem de uma variada gama de métodos e técnicas. Em primeiro lugar, são utilizadas linguagens de programação de propósito geral, tanto interpretadas quanto compiladas, com representantes dos mais diferentes paradigmas de programação, como o declarativo (leia-se Prolog), procedural (com destaque para a linguagem C), funcional (por exemplo LISP), orientado a objetos (Java e C++) ou multiparadigma (com forte ênfase em Python). Em segundo lugar, recorremos à Extensible Markup Language (XML) para tanto para modelar estruturas de dados lingüísticos, por exemplo no desenvolvimento de analisadores (parsers) e tradutores automáticos, como para anotar e representar a estrutura de textos, em vários níveis de análise, no âmbito da lingüística de corpus.

Devido tanto às suas qualidades didático-pedagógicas quanto à enorme quantidade de bibliotecas disponíveis, Python se sobressai como a linguagem mais utilizada no grupo. De fato, nenhuma outra linguagem de programação dispõe de uma biblioteca tão rica voltada para o processamento automático de textos nos diferentes níveis de análise lingüística quanto o Natural Language Toolkit (NLTK), implementado em Python. Outra vantagem de Python é permitir, de modo relativamente fácil, elaborar programas tanto para a chamada "computação nas nuvens" (cloud computing), utilizando, por exemplo, o Google App Engine, talvez a mais importante plataforma de desenvolvimento de aplicativos para a Web dentro desse novo paradigma, quanto para dispositivos computacionais móveis (smartphones, tablets, e-book readers etc.).

Na análise automática de textos no âmbito da lingüística de corpus, merecem destaque as ferramentas de linha de comandos típicas do sistema operacional Unix (nativas, igualmente, no Linux e no Mac OS X), como o grep, wc, tr, sort, uniq etc., com as quais se podem realizar tarefas básicas como extração de concordâncias, toquenizacão e contagem de palavras de forma extremamente ágil.

A par das linguagens de programação de propósito geral, assumem uma grande importância na modelação de componentes específicos da gramática, por um lado, modelos lingüísticos computacionais(ou formalismos lingüísticos) como a LFG, a HPSG, a Morfologia de Dois Níveis etc., por outro, sistemas de programação lingüística como GFU Lab, LKB, FSA Utilities e xfst (a respeito da distinção entre formalismos lingüísticos e sistemas de programação lingüística, consulte-se Guinovart (2000)). Enquanto os dois primeiros estão mais voltados para a construção de analisadores sintáticos, os dois últimos constituem sistemas para compilação (a partir de expressões regulares) e manipulação de autômatos e transdutores de estados finitos, por meio dos quais fenômenos morfológicos e morfofonológicos, a anotação morfossintática de corpora bem como o mapeamento entre grafemas e fonemas podem ser modelados computacionalmente de forma extremamente eficiente.

Relevância sócio-econômica

As pesquisas desenvolvidas pelos membros do grupo, em nível de iniciação científica, mestrado e doutorado, visam a preencher lacunas tanto na formação de recursos humanos no Ceará, uma vez que não há, nesse Estado, outros grupos na área de gramática gerativa ou processamento automático da linguagem natural, quanto no âmbito da indústria de softwares brasileira como um todo, na qual as tecnologias da linguagem natural, não obstante o papel cada vez mais importante que desempenham nos países mais desenvolvidos, ainda não têm sido suficientemente exploradas.

Equipe

Coordenador

Prof. Dr. Leonel F. de Alencar (Professor Adjunto do Departamento de Letras Estrangeiras e Programa de Pós-Graduação em Lingüística da UFC)

Colaborador externo

Prof. Dr. Gabriel de Ávila Othero (Professor Adjunto do Instituto de Letras da Universidade Federal do Rio Grande do Sul – UFRGS)

Estudantes-Pesquisadores

Lista atualizada aqui.

Nome	Nível	Financiamento	Área	Instituição
Tiago Martins da Cunha	doutorando	CAPES	tradução automática	Aluno do Programa de Pós-Graduação em Lingüística da UFC Aluno de Doutorado-Sanduíche na Universität des Saarlandes, Alemanha
Andréa Feitosa dos Santos	doutoranda	Funcap (2010-2012) DAAD (a partir de 2012)	processamento computacional da sintaxe em gramáticas baseadas em estruturas de traços	Aluna do Programa de Pós-Graduação em Lingüística da UFC Aluna de Doutorado-Sanduíche na Universität Konstanz, Alemanha
Ednardo Luiz da Costa	mestre	CAPES	análise morfológica computacional no paradigma de estados finitos	Aluno do Programa de Pós-Graduação em Lingüística da UFC
Raimundo Cleodimar de Oliveira Júnior	iniciação científica (2009-2010)	CNPq	lingüística de corpus (anotação automática de corpora)	Aluno do Curso de Letras – Português
Mauro Sérgio Pereira	iniciação científica (agosto 2009 – julho 2010)		agentes conversacionais (chatterbots) com tecnologia text to speech em ambiente de computação nas nuvens	Aluno do Curso de Letras – Alemão
Davis Macêdo Vasconcelos	doutorando		análise morfológica automática	Aluno do Programa de Pós-Graduação em Lingüística da UFC Professor do Bacharelado em Engenharia de Telecomunicações – Instituto Federal do Ceará
André Chaves Santiago	iniciação científica (agosto 2010 – julho 2011)	CNPq	lingüística de corpus (anotação automática de corpora)	Aluno do Curso de Letras – Alemão
Roberto Lopes da Silva Filho	iniciação científica (agosto 2010 – julho 2011)	UFC	lingüística de corpus (anotação automática de corpora)	Aluno do Curso de Letras – Espanhol

©
2009 – 2012 Página do CompLin – Lingüística Computacional e Lingüística de Corpus no Diretório dos Grupos de Pesquisa no Brasil

Grupo de Pesquisa Computação e Linguagem Natural

terça-feira, 6 de março de 2012

Descrição do grupo

Grupo de pesquisa sobre lingüística computacional,
lingüística de corpus e gramática gerativa na Universidade Federal do Ceará

Vinculação institucional

Objetivos

Fundamentação teórica

Lingüística Teórica

Lingüística de Corpus

Lingüística Computacional

Aspectos metodológicos

Relevância sócio-econômica

Equipe

Coordenador

Colaborador externo

Estudantes-Pesquisadores

Nenhum comentário:

Postar um comentário

Colaboradores

terça-feira, 6 de março de 2012

Descrição do grupo

Grupo de pesquisa sobre lingüística computacional, lingüística de corpus e gramática gerativa na Universidade Federal do Ceará

Vinculação institucional

Objetivos

Fundamentação teórica

Lingüística Teórica

Lingüística de Corpus

Lingüística Computacional

Aspectos metodológicos

Relevância sócio-econômica

Equipe

Coordenador

Colaborador externo

Estudantes-Pesquisadores

Nenhum comentário:

Postar um comentário

Grupo de pesquisa sobre lingüística computacional,
lingüística de corpus e gramática gerativa na Universidade Federal do Ceará