Skip to content

UMA PROPOSTA DE SISTEMA DE ESTIMATIVA DE FORMALISMO DE DIÁLOGO EM LÍNGUA NATURAL

abril 28, 2011

Por Daniella Castelucci

Mestranda em Engenharia da Informação

Abril/2011

 

Resumo: Para muitas empresas, garantir que seus funcionários façam um correto uso da língua é fundamental para transmitir a imagem adequada que a empresa pretende no mercado – e esta garantia inicia-se na contratação. Com este artigo pretende-se propor um sistema que reconheça de maneira automática, com técnicas de Processamento de Língua Natural, a partir do discurso do entrevistado, o grau de coloquialismo e formalismo que são aplicados durante a entrevista de emprego, além do reconhecimento de gírias e transgressões da normal gramatical. Este sistema terá como base os corpora do projeto C-ORAL-BRASIL e lógicas baseadas em Gramática Constritiva.

Palavras-chave: Corpus, léxico, C-ORAL-BRASIL, parser, Gramática Constritiva

Abstract: For many companies, assuring that their employees can properly use their own language is mandatory for the company to properly communicate its image in the market – and this process initiate in the hiring phase. This article intends to propose a system that could determine, automatically using Natural Language Processing techniques, from the candidate’s speech, how colloquial or how formal this speech is during the interview, besides identifying slangs and mistakes of syntax. This system will be based on C-ORAL-BRASIL corpora and its logics are based on Constraint Grammar.

Keywords: Corpus, léxico, C-ORAL-BRASIL, parser, Gramática Constritiva

 

 

 

  1. 1.   INTRODUÇÃO

Em uma entrevista de emprego, um entrevistador deve avaliar o comportamento, as respostas e as mensagens intangíveis que o candidato expressa. Além disso, existem vícios e coloquialismos de linguagem que não podem ser captados quando a atenção do avaliador está nos quesitos psicológicos e no conteúdo da mensagem. Ou seja, a análise de um entrevistador está muito mais baseada na semântica do que na sintaxe do discurso.

Entretanto, para que as empresas atuais transmitam a seus clientes o grau de seriedade e qualificação que o mercado exige, deve contar com um quadro profissional que seja capaz de transmitir através de seus discursos estas características. Assim sendo, a forma de utilizar a língua portuguesa deve ser tal que contenha um grau desejado pela empresa de formalismo, tenha vícios de linguagem e gírias até um limite aceitável e transmita claramente a ideia. Este último item demanda uma análise semântica do conteúdo da mensagem transmitida, enquanto que os dois primeiros podem ser estimados através de cálculos estatísticos subseqüentes ao processamento do discurso. Desta forma, o Processamento de Línguas Naturais mostra-se como uma ferramenta muito útil e interessante para auxiliar o processo de seleção das empresas.

Neste artigo discute-se a proposta de um sistema de processamento de língua natural capaz de avaliar estatisticamente o grau de formalismo de um candidato, a quantidade de ocorrências de vícios de linguagem e gírias e uma estatística final do grau de formalismo do discurso. As ideias aqui apresentadas podem ser adaptadas para qualquer idioma, bastando para isso carregar a ferramenta com corpora coloquial e formal do idioma que se pretende analisar e suas regras gramaticais cultas. 

Na segunda seção deste artigo são apresentados os desafios da língua natural, e é explicado por que é tão difícil e trabalhoso manipular um discurso humano falado e diferenciar falas coloquiais de falas formais. O idioma falado é diferente do escrito, e o que é considerado coloquial no escrito pode ser considerado como uso apropriado em um discurso formal, e esta diferença deve se refletir em um sistema que faça a avaliação do interlocutor.

A terceira seção trata da aquisição de corpora para este trabalho, especificamente um corpus formal e um informal, ambos baseados em textos falados. Também são apresentadas outras opções de fonte de informação e uma tabela com coloquialismos mais óbvios.

Além do vocabulário (léxico), o discurso também é formado por regras gramaticais cultas, e as transgressões destas regras determinam o grau de informalismo do texto – este assunto é abordado na quarta seção deste artigo. O sistema proposto também deve ser capaz de avaliar a conjugação verbal, a concordância verbal e a concordância nominal. No caso de textos escritos, a desambiguação é um processo que só leva em conta a grafia das palavras, enquanto que no texto oral é preciso também considerar o sotaque e regionalismos possíveis para executar este processo. Porém, como neste artigo é considerado que os discursos serão transcritos para serem avaliados, é nos signos escritos que o sistema irá atuar.

Os vícios de linguagem comprometem a qualidade do discurso e são tratados na quinta seção do artigo, e a ocorrência de gírias é tratada na sexta seção. As análises das seções anteriores geram um resultado de desempenho do candidato baseado em seu discurso, que é discutido na sétima seção.

A conclusão e considerações finais deste trabalho são apresentadas na oitava seção, que é seguida da bibliografia de referência utilizada no desenvolvimento das ideias a seguir.

  1. 2.   OS DESAFIOS DA LÍNGUA NATURAL

A língua natural, seja ela qual for, possui diversas variantes baseadas na origem, nível cultural, classe social e personalidade dos usuários desta língua, além de variações entre a língua escrita e a língua falada. Por exemplo, o alemão considerado formal e correto, o Hoch Deutsch, é o mesmo em todos os países que utilizam este idioma para se comunicar. Porém, de acordo com a região (ou país) que é estudada, uma variante diferente deste idioma é encontrada – não se considerando os dialetos. Na região da Bavária, é comum que as pessoas se cumprimentem com a expressão “Grüβ Gott” (algo como “Deus te abençoe”). Esta expressão é característica da região da Bavária e utilizada somente na língua oral. Quando um bávaro escreve uma carta para outro, não inicia normalmente seu texto por esta expressão, mas sim por um cumprimento reconhecido pelo Hoch Deutsch. Da mesma forma, este cumprimento não é utilizado em outras regiões do país. Não é, porém, correto dizer que este cumprimento pode ser utilizado somente em situações informais, não constituindo, assim, um coloquialismo por assim dizer.

Através deste exemplo é possível perceber a dificuldade de compor um corpus que contenha o idioma formal ainda que oral de um povo. Os regionalismos não podem ser confundidos com gírias, assim como estrangeirismos devem ser contidos em uma categoria particular deste corpus.

Outra dificuldade ao se compor uma base de dados de um idioma é a interdisciplinaridade necessária para se garantir uma abrangência razoável de contexto. No caso de entrevistas de emprego, os corpora devem considerar o domínio de conhecimento da vaga pretendida além de assuntos do dia a dia. Por exemplo, para uma vaga de vendedor de uma empresa de transporte naval, termos como BL, Sea Waybill e despachante devem ser reconhecidos. Por outro lado, se tratando de uma empresa de construção civil, estes termos não fariam sentido.

Esta diferença de contextos também traz à tona outro desafio do processamento de línguas naturais: a ambigüidade. Um signo, com iguais significantes, pode ter significados distintos de acordo com contexto do qual fazem parte. A palavra cadeira, quando usada no contexto acadêmico, significa área de responsabilidade de seu detentor, enquanto que cadeira em outros contextos significa uma peça de mobília.

2.1. Diferenças entre língua oral e escrita

Além dos desafios apresentados, há ainda diversas diferenças entre a linguagem oral e escrita que devem ser consideradas quando se define o grau de formalismo em um texto transcrito a partir de um diálogo oral. A expressividade da língua oral se apresenta por meio da acentuação, entonação, pausas, fluência e da linguagem corporal. Já na linguagem escrita o emprego do discurso direto e da pontuação se sobressaem como traços de expressividade, além de evitar erros de interpretação. O sistema gramatical se mantém o mesmo nas duas modalidades, porém cada uma delas se atualiza com recursos diferentes em função das exigências da comunicação.

A lingua oral conta com a prosódia e a simultaneidade entre o planejamento e a produção do texto, o que deixa marcas na sintaxe como desvios, construções interrompidas, reorganização, intromissão de elementos extra-estruturais, alternância devozes, presença de marcadores conversacionais, onomatopeias, omissão de tempos e pouco rendimento de alguns tempos verbais. Por outro lado, a língua escrita é mais específica no emprego do vocabulário.consequentemente, é mais precisa e menos alusiva que a língua oral.

A semelhança entre a língua escrita e a língua oral é a necessidade de sintonia entre as partes do processo para garantir o sucesso da comunicação. Assim, a sintonia pressupõe adequação da linguagem usada pelo emissor (vocabulário, nível de formalidade etc) à do receptor, e domínio de áreas do conhecimento semelhantes.

Um texto oral apresenta as marcas de sua organização à medida que vai sendo construído, o que pode gerar fragmentação do ponto de vista sintático. Já o texto escrito, que é apresentado pronto, tem suas frases acabadas, coesas e mais complexas.

Abaixo é apresentada a transcrição de uma entrevista feita por Eliane Morelli Abrahão para sua tese de doutorado. Ela entrevistou o Prof. Dr. Oswaldo Vital Brazil (com participação de Nadim Farah Eluany), e os primeiros trechos desta entrevista são um excelente exemplo de oralidade formal:

Eliane — O senhor poderia nos falar um pouco sobre sua formação? Onde nasceu? Onde estudou?

Professor — Falar onde… Bem eu nasci no Instituto de Butantan, em 1912. Nessa época os filhos nasciam nas casas e não nas maternidades, como é hoje em dia. E meu pai quando foi para o Butantan, que naquela época era distante de São Paulo, fez a sua residência na sede da antiga fazenda de Butantan. E aí morou até 1919, ano em que ele saiu. Eu nasci então no Butantan e vivi no Butantan até 7 anos. Nesse período eu estudei, freqüentei a escola infantil. Como era o nome mesmo?

Eliane — Pré-escola?

Professor — Pré-escola. Mas tinha um outro nome nessa época.

Nadim — Jardim da Infância.

Professor — Jardim da Infância da Praça da República, que era o edifício que ficava, foi destruído, ao lado da Escola Normal, que ainda existe. Bom, então em (19 ?), minha mãe morreu quando eu tinha um ano e eu fui criado por uma irmã de meu pai que foi com o marido que era engenheiro, era um grande engenheiro, foi morar no Butantan para tomar conta dos filhos do doutor Vital, que eram nove, nessa época. Eu que era o menor, fui criado como filho do casal. Bom, em 1919 então, nós fomos para o Rio de Janeiro que papai fundou, como você viu no livro que escrevi, fundou o Instituto Vital Brazil, mas eu fiquei morando no Rio com a irmã de meu pai que eu chamava de mãe, foi uma mãe para mim para todos os efeitos.

 

As sentenças quebradas, como no trecho:

– Falar onde… Bem eu nasci no Instituto de Butantan

Mostram a descontinuidade de sentenças que o discurso oral, que conta com o planejamento simultâneo à execução, apresenta. Uma sentença se inicia mas não se termina, sem prejuízo do conteúdo apresentado. Algumas redundâncias, como no trecho abaixo, não são representadas em um texto originalmente escrito:

– Eu nasci então no Butantan e vivi no Butantan até 7 anos.

Abaixo é mostrada uma nota formal da Unicamp a respeito do falecimento do Prof. Dr. Oswaldo Vital Brazil. Conta com o pré-planejamento dos textos originalmente escritos e pode ser comparada com a estrutura do diálogo acima:

Faleceu no dia 26 de outubro, domingo, aos 96 anos, o médico Oswaldo Vital Brazil. Professor Emérito da Unicamp, Brazil foi um símbolo da Universidade, principalmente por suas contribuições na área de Toxinologia. Filho do também médico, herpetólogo e higienista Vital Brazil, do Instituto Butantan, foi o fundador do Departamento de Farmacologia da Faculdade de Ciências Médicas (FCM). A missa em sua memória será realizada no dia dia 3 de novembro, às 18h30, na Igreja Santa Rita de Cássia, no bairro da Nova Campinas.

 

Como se pode observar, não há palavras inseridas para fins de garantir a prosódia (expressões vazias, como “Bom”, “Aí”), tampouco frases não terminadas. Há concordâncias verbais e nominais em cada sentença.

 

  1. 3.   ESCOLHA DE CORPORA

Para que um sistema possa analisar um discurso, é necessário que haja um conjunto de regras gramaticais e um vocabulário amplo do idioma. Assim sendo, no caso deste sistema proposto para avaliar o grau de formalismo de um discurso de candidato, é necessário ter um corpus de referência para cada categoria de discurso, formal e informal.

Para efeito de exemplo neste artigo está sendo proposto o uso do corpus do grupo C-ORAL-BRASIL. O C-ORAL-BRASIL é um projeto que cria um corpus de português brasileiro de fala espontânea seguindo os moldes do projeto C-ORAL-ROM (CRESTI & MONEGLIA, 2005) [1]. A equipe do projeto C-ORAL-BRASIL é composta por doutores e estudantes da Universidade Federal de Minas Gerais.

Este grupo de pesquisa assume a proposta de Cresti [8], que propõe a ideia de reconhecimento de padrões vocais, chamada de critério ilocutivo. Também considera o enunciado como unidade informacional autônoma para facilitar a análise da mensagem. O trecho abaixo, retirado da referência [1], apresenta um trecho de diálogo informal e a divisão deste diálogo em enunciados:

 

Figura 1 – Retirada de [1]

Neste exemplo, o final dos enunciados é sinalizado pelas barras duplas (//), e o fim das unidades tonais é representado por uma barra simples (/).

3.1. Dificuldades na obtenção do corpus

A equipe do C-ORAL-BRASIL relatou os seguintes problemas na obtenção do corpus, que também estão presentes no cenário de entrevista de emprego no qual o sistema proposto terá seu principal uso:

a)    Barulhos paralinguísticos: são ruídos emitidos no diálogo que não possuem valor ilocucionário, como risos ou tosse;

b)    Palavras estrangeiras e erros de pronúncia: quando uma palavra é pronunciada erroneamente, seja em português ou em outro idioma, optou-se por manter no corpus a pronuncia incorreta, marcando-se que se trata de um erro. Desta forma, pode-se confiar em buscar mesmo termos comumente pronunciados de forma errada, que no corpus há informação que, apesar de existente, o termo está incorreto.

c)    Aférese: é difícil determinar quais aféreses devem ser incluídas como forma de pronúncia de certas palavras no corpus. Algumas formas podem ser usadas por apenas um indivíduo, enquanto que outras podem ser comumente empregadas em diversos tipos de diálogo (como brigado para obrigado, ou guentar para aguentar)

3.2. Corpora Analisados

O corpus do grupo C-ORAL-BRASIL é composto de 30 horas de gravação, correspondente a 200 textos de cerca de 1500 palavras cada. Estes textos foram divididos em duas partes: fala formal e fala informal. Até o desenvolvimento da referência [1], a parte informal já estava em avançado estágio de compilação, e a parte formal estava em fase de arquitetura. O grupo conta com o software WinPitch durante a transcrição e segmentação, por permitir a visualização da curva prosódica e, assim, facilitar a identificação das unidades informacionais.

Por estar sendo desenvolvido na Universidade Federal de Minas Gerais, os textos falados foram captados de cidadãos mineiros, contando, portanto, com o sotaque e gírias da região metropolitana de Minas Gerais. Desta forma, o sistema proposto irá desempenhar adequadamente seu papel se for utilizado para avaliar candidatos mineiros. Para qualquer outra região brasileira, recomenda-se carga de corpora formal e informal da região em que se deseja utilizar o sistema (a coleta de textos e tratamento destes para desenvolvimento do corpus não é assunto tratado neste artigo). No caso de uso em outros idiomas, também é preciso rever as regras de concordâncias gramatical e nominal.

Este corpus foi escolhido por ser o que apresenta mais detalhes sobre sua composição e por advir de um grupo de pesquisa de uma Universidade renomada e com pesquisas interessantes e embasadas.

O CLUL – Centro de Linguística da Universidade de Lisboa – desenvolveu diversos projetos igualmente interessantes para o desenvolvimento de corpora de língua portuguesa pronunciada por nativos de países onde se fala esta língua. Os corpora estão disponíveis para download na página do centro, porém não há tagging de formalismo. Consequentemente, este corpus demanda um trabalho de categorização para poder ser usado no sistema proposto. Por outro lado, os corpora deste centro são maiores e apresentam em um mesmo arquivo diversos sotaques e regionalismos, permitindo uma análise comum em diversas partes do país.

O objetivo do CLUL ao desenvolver seus corpora foi facilitar a oferta de diálogos orais para alunos que pretendem aprender o português como segunda língua. Os arquivos disponíveis apresentam variantes de sotaque e léxico que compõem as diversas faces da língua portuguesa ao redor do mundo. Apesar do objetivo da equipe de pesquisa ser diferente do sistema proposto neste artigo, esta variedade de faces da língua é muito útil por permitir que um conjunto de corpora orais seja carregado de uma só vez e sirva para várias regiões.

Qualquer que seja a escolha do corpus, o tratamento será feito na versão transcrita do mesmo, assim como do discurso do candidato. Os parsers de análise já testados atualmente utilizam corpora escritos. Assim sendo, sugere-se a análise da referência [1] para entender melhor um processo científico de obtenção de transcrição de um corpus oral.

3.3. Bases de referência para sinalização de formalismo

Existem algumas expressões que servem como base para se avaliar o nível de formalismo de um discurso por serem comuns em conversas coloquiais e terem seus correspondentes na linguagem formal. Esta base de correspondência também deve ser inserida no sistema para melhorar o desempenho da estimativa de formalismo.

A partir de diálogos do dia a dia e leitura de textos formais, foi elaborada a seguinte tabela de correspondência da versão formal e informal de termos comumente usados em diálogos:

Formal Informal
<Tudo bem> ou <Como vai> <E aí>
<não sei> <sei lá> ou <vai saber>
<Estou> <Tô>
<O senhor> ou <A senhora> <você> ou <cê>
<Nós> <A gente>
<está> <tá>
<estão> <tão>
<para> <pra>
<não> ou <em um> <num>

 

  1. 4.   ANÁLISES MORFOLÓGICA E SINTÁTICA

Um conjunto de palavras usadas em uma frase composta em uma língua natural, quando analisado fora de um contexto, é ambíguo, ou seja, cada uma de suas palavras, isoladamente, pode ser atribuída a diversas classes gramaticais.

Para desenvolver uma maneira de automatizar a atribuição de classes durante a análise gramatical automática, Karlsson [9] criou o conceito de Gramática Constritiva (CG). Segundo o autor, ainda que dentre as várias interpretações possíveis de uma sentença esteja a interpretação correta, o sistema falhou em aplicar corretamente as tags esperadas. O parser que utiliza gramática constritiva deve também ser capaz de analisar frases que não fazem parte de um texto formal, e é neste ponto que está nosso interesse. Esta característica permite que a Gramática Constritiva seja aplicada na análise de transcrições de textos orais.

A Gramática Constritiva também foi projetada para que seu formalismo se adapte a qualquer idioma, por se aplicar diretamente ao algoritmo de processamento. Desta forma, ainda que o grupo de pesquisa que a desenvolveu seja da Finlândia e tenha usado o Inglês para implementação prática, as mesmas regras podem ser usadas em qualquer língua natural. Desta forma, também este sistema proposto pode se adaptar a qualquer língua natural, bastando adaptação dos corpora formal e informal devidamente etiquetados.

Outro ponto interessante da CG é o valor dado à probabilidade no processamento de textos. Ainda que a CG seja baseada em regras de formalismo, no caso de uma certa expressão não se adequar às regras, é aplicado o cálculo probabilístico para categorizar o token.

Em última instância, pode-se dizer que a Gramática Constritiva formaliza o processo cognitivo de desambiguação através de um conjunto de regras que constringem – através de condições contextuais – qual das interpretações possíveis de um termo deve ser escolhida. Estas regras são compiladas em um parser reducional, que seleciona a etiqueta correta nos níveis de morfologia e semântica. O mesmo ocorre no nível sintático.

A implementação de um parser aplicando a Gramática Constritiva é proposta por Eckhard [10]. A imagem abaixo apresenta um exemplo prático de input de estruturas ambíguas que podem ocorrer em um texto:

“<nunca>”

      “nunca” ADV

“<como>”

      “como” <rel> ADV

      “como” <interr> ADV

      “como” KS

      “como” <vt> V PR 1S VFIN

“<peixe>”

      “peixe” N M S

[ADV=advérbio, KS=conjução subordinativa, V=verbo, N=substantivo, PR=presente, S=singular,

P=plural, M=masculino, F=feminino, 1S=1.pessoa/singular, VFIN=verbo finito, <rel>=relativo,

<interr>=interrogativo, <vt>=monotransitivo]

Figura 2 – retirada de [10]

O conjunto ambíguo das quatro análises morfológicas da palavra ‘como’ se chama uma coorte na terminologia da CG. Uma regra típica de desambiguação para esta coorte é a seguinte: [10]

SELECT (VFIN) IF (NOT *-1 VFIN) (NOT *1 VFIN)

Em português estruturado pode ser traduzido como: “Escolha a etiqueta VFIN em um contexto onde não tem outro verbo finito, nem à esquerda (*-1) nem à direita (*1)”.

O exemplo abaixo apresenta como é feita uma análise sintática no parser de Bick:

Figura 3 – Retirada de [10]

O parser transforma, então, esta etiquetagem em uma árvore sintática que permite visualizar graficamente as estruturas gramaticais do enunciado:

Figura 4 – Retirada de [10]

Este parser já foi testado com transcrições da língua falada originados no projeto NURC. Originalmente o sistema foi desenvolvido para ser utilizado com o português brasileiro, porém durante seu desenvolvimento foram feitas adaptações para que também se pudessem processar outras variantes do idioma – conforme já mencionado na seção de escolha de corpora.

Concordâncias utilizadas com frequência em conversas informais, como <a gente fomos>, <a gente somos>, <nós vai>, <eles é> são apontados nesta fase como grau de informalismo por não fazerem parte das regras formais de gramática.

Em um sistema de análise de texto é necessário também que seja analisada a grafia de cada palavra, o que é dispensável no caso de discursos orais que foram transcritos (afinal, o erro seria do transcritor). Por isso, a saída deste parser já é suficiente para que a porcentagem de sentenças que seguem as normas formais de gramática que foi calculada seja utilizada como “nota” gramatical formal do candidato.

  1. 5.   VÍCIOS DE LINGUAGEM

Vícios de linguagem são tokens repetidos frequentemente durante o discurso oral. Estes vícios desviam a atenção do interlocutor e comprometem a absorção da mensagem. Muitas vezes o detentor destes vícios não se dá conta  que os têm e, portanto, dificilmente irá corrigir este problema.

Uma análise estatística do discurso é suficiente para determinar a presença de vícios de linguagem. Através da classificação das expressões mais usadas, excluindo-se aquelas que normalmente fazem parte de um diálogo formal, é possível detectar os vícios de linguagem.

Primeiramente, o sistema deve ser carregado com o ranking do corpus formal que será usado na validação. A seguir, é apresentado um exemplo de classificação de palavras mais freqüentes na língua portuguesa do Brasil, extraído de uma lista gerada pela Linguateca [11]:

Ocorrências    Token
———————–

1382921         de

842985          a

734247          o

647483          e

641608          que

558424          do

460011          da

367271          em

297068          para

245637          com

243113          no

241462          um

219326          é

210903          os

203101          não

200766          na

193761          uma

185078          A

156669          dos

152600          se

149846          por

 

O sistema deve, também, executar a classificação estatística da transcrição do discurso do entrevistado. Em seguida, compara-se o ranking do corpus de referência com o ranking da transcrição. Cada uma das ocorrências que aparecerem nas 15 primeiras posições do ranking da transcrição que não fazem parte das 20 primeiras posições do ranking usado como referência (do corpus) são, muito provavelmente, vícios de linguagem. Desta maneira, o sistema deve calcular a freqüência relativa destes tokens e graduar estatisticamente a presença do mesmo no discurso. Quanto mais frequente, maior a gravidade do vício.

No caso de ser encontrado mais de uma expressão caracterizada como vício de linguagem, as frequências de cada uma serão somadas para se obter o valor final desta fase de análise.

  1. 6.   Gírias

Gírias são dinâmicas e podem variar de acordo com a região e época. Desta forma, sugere-se a obtenção de uma base de gírias devidamente etiquetadas sintaticamente, para não impedir o processo de desambiguação. A etiquetagem é muito importante em casos como o exemplo abaixo:

1-    – Eu não tinha noção da hora

2-    – Este vestido é da hora

A expressão da hora está sendo usada formal e informalmente, sendo que na frase “2” assume o papel de adjetivo, constituindo uma gíria. A presença de gírias deve ser contabilizada uma a uma ao invés de estatisticamente, e o nível de tolerância da empresa será por quantidade de gírias proferidas durante a entrevista..

  1. 7.   CÁLCULO DO GRAU DE FORMALISMO DO CANDIDATO

O sistema deve ser o suficiente para receber os seguintes parâmetros do usuário, para que possa calcular a nota de desempenho do candidato:

– Porcentagem máxima aceitável de informalismo do disccurso

– Quantidade de transgressões da normal culta

– Frequência máxima aceitável de vícios de linguagem

– Peso da análise formal

– Peso dos vícios de linguagem

– Aceitação de gírias

Considerando-se o idioma português do Brasil, é praticamente impossível encontrar alguém que não cometa nenhum erro gramatical durante uma entrevista de emprego. A ausência total de erros na linguagem formal pode, inclusive, significar que o candidato está se preocupando mais com a construção das sentenças que com o conteúdo das mesmas. Portanto, deve-se considerar, nos parâmetros do sistema, uma pequena faixa de taxas de erro aceitáveis.

Caso a frequência máxima de aceitação de erros ou vícios de linguagem seja extrapolada (ou ambas), é apresentada ao usuário uma mensagem de reprovação do candidato. Mesmo assim é apresentada a nota final, afinal este sistema não tem como intenção substituir a avaliação humana do desempenho global de um candidato.

A aceitação de gírias e de transgressões da norma gramatical são critérios que permitem ao usuário definir a quantidade de ocorrências no discurso. Este valor pode variar de 0 a infinito (notar que quando gírias são repetidas muitas vezes em um diálogo irão incorrer na categorização de vício de linguagem), e não entra no critério do cálculo final – ao invés disso, caracteriza-se somente como critério de reprovação (se assim definido pelo usuário).

Os pesos servem para determinar o fator multiplicador de cada item calculado pelo sistema na nota final. A soma de ambos deve ser 10, podendo assumir quaisquer combinações. Estes pesos serão usados da seguinte forma: o peso atribuído para desempenho gramatical irá multiplicar a frequência calculada de erros encontrados pelo parser de Gramática Constritiva, e o peso atribuído para os vícios de linguagem irá multiplicar a frequência relativa de vícios de linguagem. A soma dos dois valores será dividido por 10 e então tem-se a nota final do candidato. A fórmula, então, é a seguinte:

Nota final = 10 –  (PG x FI) + (PV x FV)
                          __________________
                                           10

Sendo

PI: Peso atribuído ao informalismo
FI: Frequência de sentenças informais
PV: Peso dos vícios de linguagem
FV: Frequência relativa dos vícios de linguagem

  1. 8.   CONCLUSÃO

Uma entrevista de emprego é, muitas vezes, o momento único em que o representante de recursos humanos da empresa irá conhecer pessoalmente e dialogar oralmente com os candidatos a vagas de emprego. E, neste momento único, existem diversos aspectos psicológicos que devem ser avaliados, sobrando pouca atenção para a qualidade de formalismo da linguagem do candidato. Assim, um sistema que analise o discurso do candidato seria muito útil na avaliação de entrevistas.

Existem atualmente diversas pesquisas já avançadas na área de processamento de língua natural, com maior destaque para sistemas de Q&A, information retrieval e obtenção de corpora. Poucas são as pesquisas voltadas para a obtenção de corpora orais, assim como poucas das pesquisas têm como objetivo trazer revoluções para o mercado.

Diferentes ideias produzidas em vários países puderam ser juntadas neste artigo graças a uma ferramenta de information retrieval: o Google Scholar. E, como em uma experiência química, diferentes ingredientes são misturados e como resultado têm-se algo novo, que não era óbvio à primeira vista, e que não anula o mérito das matérias-primas.

  1. 9.   BIBLIOGRAFIA

[1] MELLO, Heliana. CÔRTES, Priscila. RASO, Tommaso. C-ORAL-BRASIL: Arquitetura de um corpus do português do Brasil. Universidade Federal de Minas Gerais. Acessado em 21/4/2011. Disponível em  http://www.c-oral-brasil.org/artigos/16_cortes.pdf

[2] Davies, Mark and Michael Ferreira. (2006-) Corpus do Português (45 milhões de palavras, sécs. XIV-XX). Acessado em 21/4/2011. Disponível em http://www.corpusdoportugues.org.

[3] RIBEIRO, Ricardo. MAMEDE, Nuno. TRANCOSO, Isabel. Reusing Linguistic Resources: a Case Study in Morphossyntactic Tagging. Acessado em 21/4/2011. Disponível em http://www.inesc-id.pt/pt/indicadores/Ficheiros/1159.pdf

[4] CLUL – Centro de Linguística da Universidade de Lisboa. Acessado em 21/4/2011. Disponível em http://www.clul.ul.pt/

[5] OLIVEIRA, Fabio A. D. Processamento de Linguagem Natural: Princípios Básicos e a Implementação de um Analisador Sintático de Sentenças da Língua Portuguesa. Acessado em 21/4/2011. Disponível em http://www.erfelipe.com.br/artigos/Processamento_de_linguagem_analisador_sintatico.pdf

[6] MEDEIROS, José C. MARQUES, Rui. SANTOS, Diana. Português Quantitativo. Acessado em 21/4/2011. Disponível em http://www.linguateca.pt/Diana/download/Medeirosetal93.pdf

[7] BARREIRO, Anabela. PEREIRA, Maria de J. SANTOS, Diana. Critérios e Opções Linguísticas no Desenvolvimento do Palavroso, um Sistema Computacional de Descrição Morfológica do Português. Acessado em 21/4/2011. Disponível em http://www.linguateca.pt/Diana/download/Barreiroetal93.pdf

[8] CRESTI, Emanuela. Per una nuova classificazione dell´illocuzione. Acessado em 21/4/2011. Disponível em http://lablita.dit.unifi.it/preprint/preprint-00bcoll01.pdf/uploadingfile/at_download

[9] KARLSSON, Fred. Constraint Grammar: A Language-Independent Framework for Parsing Unrestricted Text.Mouton de Gruyter, Berlin / New York, 1995.

[10] BICK, Eckhard. Gramática Constritiva na Análise Automática de Sintaxe Portuguesa. Acessado em 22/4/2011. Disponível em http://beta.visl.sdu.dk/pdf/book-contribution-pt1999.ps.pdf

[11] Linguateca. Projeto AC/DC. Unidades e palavras em língua portuguesa: frequência e ordem. Acessado em 22/4/2011. Disponível em http://www.linguateca.pt/acesso/ordenador.php.

[12] Pinilla, Aparecida. Rigoni, Cristina. Indiani, M. Thereza. Português Ensino a Distância – UFRJ. Acessado em 26/4/2011. Disponível em http://acd.ufrj.br/~pead/

[13] Abrahão, Eliane Morelli. Transcrição da Entrevista com o Professor Doutor Oswaldo Vital Brazil. Acessado em 27/4/2011. Disponível em http://www.cle.unicamp.br/arquivoshistoricos/evitalbrazil.pdf.

[14] _______, Unicampo perde Oswaldo Vital Brazil. Unicamp, 2008. Acessado em 27/4/2011. Disponível em:  http://www.unicamp.br/unicamp/divulgacao/2008/10/31/unicamp-perde-oswaldo-vital-brazil

 

 

No comments yet

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s

%d blogueiros gostam disto: