Skip to content

Linguagem como significado e agente transformador do texto

maio 30, 2011

Tradução livre de BOLSHAKOV,  I. e GELBUKH, A. Computational Linguistics

Capítulo IV

Possíveis pontos de vista na linguagem natural

            Segundo os autores, há 3 principais formas de definir a linguagem natural, a saber:

–       Principal forma e expressar o pensamento humano: esta forma tange à função expressiva da linguagem. De fato, diversos fatos do mundo exterior são refletidos no cérebro humano e processado por este, e este processamento é o pensamento humano. Porém, não há evidências de que as palavras usadas na linguagem natural são usadas no pensamento e, além disso, já se sabem que há outras formas de se pensar. Por exemplo, pensamentos de matemáticos sobre conceitos abstratos.[1]

–       Principal meio para gerar textos: de fato, o fluxo de textos é uma das mais importantes funções da linguagem natural. Porém a comunicação inclui não somente a criação de discursos mas também sua compreensão. Além do mais, esta definição ignora o ponto chave da compreensão: o conteúdo, ou seja, o significado do texto.

–       Principal meio de comunicação humana: esta definição é a mais próxima do que é realmente a linguagem natural, porém não engloba dois dos principais aspectos da mesma: falar e entender – e, portanto, não define estes aspectos isoladamente e em interação.

Conforme pode-se perceber, portanto, estas definições não são suficientes. Uma melhor definição usaria componentes de todas as definições acima, como texto, significado, geração e compreensão.

Linguagem como um transformador bidirecional

            A principal função da comunicação humana é transferir informações – tratadas como Significado[2] – de uma pessoa para outra, uma vez que não é possível transferir pensamentos diretamente. Por isso as pessoas precisam de uma representação física de seus pensamentos, que será chamada de Texto (seja este com discurso ou um texto escrito). Assim sendo, a linguagem é uma ferramenta para transformar uma destas formas de representação na outra – Significado em palavras quando se fala, e palavras em Significado quando se ouve. É importante notar que quando duas pessoas se comunicam, devem usar uma linguagem que seja de conhecimento comum e da qual haja uma cópia no cérebro de cada uma.

            Esta definição foi originalmente criada por Igor Mel’čuk, e é utilizada por vários linguistas. Isso porque ela permite reconhecer como os programas de computador podem simular, ou modelar, a capacidade do cérebro humano para transformar a informação de uma destas formas de representação na outra. Ou seja, implica que a linguagem é um transformador que possibilita a transferência de Significado de uma pessoa para outra, usando o Texto como intermediário.

            Programadores podem comparar este “transformador” aum compilador, por exemplo o C++, que recebe um arquivo de caracteres no formato ASCII como entrada e produz um arquivo em código binário com instruções para a máquina como saída. Porém, um compilador normalmente não é capaz de transformar as instruções em linguagem de máquina de volta para o texto de programa C++.

            Os conjuntos dos Textos e dos Significados não são simétricos em suas propriedades. Somente os Textos podem ser explícitamente expressos, e diretamente observados ou transferidos de uma pessoa para outra, enquanto que os Significados estão somente no cérebro de cada pessoa[3] independentemente e não podem ser imediatamente observados ou analisados. Esta representação é conhecida como níveis do descurso – ou seja, para compreender uma troca de informações é preciso acessar os níveis mais profundos até chegar ao Significado associado às informações.

Desta forma, um conjunto de Textos é considerado como a superfície do transformador Sigificado <-> Texto, enquanto que os Siginificados são seu nível mais profundo. O Significado de um Texto em seu sentido mais profundo é chamado Representação Semântica. A transformação de um Significado em um Texto é chamada de síntese do Texto. O processo inverso, de Texto para Significado, é chamado de análise do Texto. Assim sendo, a linguagem natural é um analisador e sintetizador de Textos, simultaneamente.

O que é um Texto?

Os linguistas atualmente utilizam peças de discurso para realizar estudos empíricos. Um discurso é um fluxo contínuo de sinais acústicos, como uma música ou um barulho. Porém, os linguistas estão mais interessados no processamento da linguagem natural de forma isolada. Apresentar a forma isolada de um discurso significa dividir o fluxo de sinais acústicos  em entidades arranjadas sequencialmente pertencendo a um conjunto finito de sinais parciais. Este conjunto finito é chamado alfabeto fonético.

Para representar o som de um discurso no papel, foi criada por cientistas uma transcrição fonética usando símbolos fonéticos. Esta transcrição é usada em dicionários, para explicar a pronúncia de palavras estrangeiras e em linguística teórica. O sistema de escrita, porém, foi criado espontaneamente pela prática humana.

Existem três tipos de sistema de escrita: a escrita alfabética, usada pela maioria dos seres humanos e que tenta criar correspondências entre as letras e os sons do discurso, a escrita silábica e a escrita com hieróglifos, usada em países como China, Japão e Korea para representar o significado das palavras ou de suas partes. Esta última é uma tentativa de representar diretamente o significado da palavra.

As letras tem funções similares aos sons, de certa forma. Originalmente elas foram criadas para representar diretamente os sons, de forma que um texto escrito com letras é um tipo de representação dos sons de um discurso. Porém, em alguns idiomas, a relação simples entre letras e sons desapareceu.

Os sinais silábicos são similares a letras, mas representam uma sílaba ao invés de um som único, podendo ser esta sílaba um conjunto de uma ou mais consoantes e uma vogal. Desta forma, este sistema possui um enorme número de sinais e oferece pouca flexibilidade para representar novas palavras e palavras estrangeiras. Normalmente estes sinais silábicos têm um formato mais sofisticado que as letras, podendo assemelhar-se a hieróglifos.

O sistema mais elaborado de escrita é o baseado em símbolos chamados glifos. Estes glifos podem representar sons isolados, sílabas, grupos de sílabas e até palavras inteiras. A escrita Maia é um exemplo deste sistema, sendo que seus glifos representam os sons do discurso (e não seu significado).

Como a linguística computacional está diretamente conectada a textos armazenados em dispositivos de computador, e estes textos são geralmente escritos em sistema alfabético, e são mais usados aqueles em escrita que as transcrições de sons de diálogos, é este o sistema mais estudado nesta ciência. Neste livro, considera-se como um Texto de lingagem natural uma sequencia originalmente escrita de palavras formadas por letras, além de sinais de pontuação. Estas palavras formam frases, que por sua vez formam parágrafos e então discursos.

As menores unidades de um Texto, menores que palavras e que possuem significado próprio, são chamadas morfos. Estes possuem um número qualquer de letras (ou nenhuma letra). Desta forma, o Significado pode estar associado a uma parte de uma palavra, palavras inteiras, frases, sentenças, parágrafos e discursos.

A seguir são apresentadas as características de um Texto:

–       Significado: Não é qualquer sequência de letras que pode ser considerada um texto. É necessário que seja apresentada uma informação relevante para os seres humanos. Inclusive, é a conexão entre os textose seu significado a razão para se processar textos em linguagem natural.

–       Estrutura Linear: mesmo que a informação contida em um texto possa ter uma estrutura complicada, com diversos relacionamentos entre os elementos, o texto em si é unidimensional e linear, sendo produzido letra a letra. Assim sendo, um Texto representa uma informação não-linear transformada em uma representação linear, e por isso não são representados em Textos os elementos não-lineares na linguagem falada, como entonação e ênfase.

–       Estrutura aninhada e coerência: Um texto consiste de peças básicas que possuem seu próprio significado. Estas são organizadas em estruturas maiores, como palavras, que então têm seus próprios significados. Este significado é determinado por cada um de seus componentes, mesmo que não diretamente. As palavras são então organizadas em estruturas maiores, como sentenças, parágrafos etc, que, então, constituem o discurso. Sua principal propriedade é a conectividade, ou coerência. Ele conta uma história consistente sobre objetos, pessoas, relações, comum a todas as suas partes. Esta organização permite que a linguística possa desenvolver métodos de processamento inteligente de textos.

Assim sendo, podemos definir que a linguística estuda maneiras humanas de codificação linear de informações não lineares.

 

O que é Significado?

O Significado, ao contrário dos Textos, não podem ser observados diretamente, já que são estruturas do cérebro humano percebidas como ideias e pensamentos. Desta forma, é usada uma representação de Significado para poder estudá-lo.

Em um módulo linguístico de um sistema, o Significado é uma linguagemou formato formal de representação da informação compreensível imediatamente ou executável pelo consumidor da informação:  o sistema especialista de base, o banco de dados, o sistema de controle robótico etc. É esperado que este sistema de base produza suas respostas no mesmo formato. Portanto, na prática, o formato do Significado é dado aos desenvolvedores do módulo linguístico para qualquer sistema de aplicação. Normalmente, os sistemas já estão cientes das entidades mencionadas no texto, seus estados, processos, ações e relacionamentos.

Há também outros tipos de informação em um texto, como crenças, estimativas e intenções do autor. Por exemplo, na frase “Acredito que sua esposa esteja aqui”, o trecho em negrito significa a crença do autor.

 

Duas maneiras de representar o Significado

Há dois formalismos usados para representar entidades e relacionamentos mencionados nos textos, sendo estes equivalentes lógica e matematicamente:

–       Fórmulas predicativas: Predicados lógicos são apresentado na lógica matemática. Em linguística, são usados na notação lógica convencional e podem ter um ou mais argumentos. A coerência de um texto é expressa por meio de argumentos comuns aos predicados envolvidos. Por exemplo, o significado da fase As meninas pequenas vêem a flor vermelha é representado pela seguinte fórmula predicativa conjuntiva:

VER (menina, flor) &
MUITO (menina) &
PEQUENO (menina) &
SOZINHO (flor) &
VERMELHO (flor)

Nesta representação, os predicados SOZINHO e MUITO têm os significados de “quantidade de entidades dadas pelo argumento é um” e “quantidade de entidades dadas pelo argumento é mais que um” respectivamente. Os argumentos em minúscula são chamados de termos, e os predicados são escritos em maiúsculas.

–       Grafos direcionados etiquetados: Os nós destes grafos representam os termos ou predicados, e as setas conectam ospredicatos ocm seus argumentos. As setas possuem etiquetas numéricas de acordo com o número do argumento correspondente. Mesmo que cada predicado atribua a seu argumento um certo papel semântico, a etiqueta numérica é usada somente para distinguir os argumentos. Por exemplo, para predicados que denotam ação, a etiqueta 1 normalmente marca o agente, enquanto que a etiqueta 2 marca o alvo ou objeto da ação.

As duas formas de representação são equivalentes. Para os humanos é mais conveniente a representação por grafos, enquanto que para estruturas internas de um programa de computador, a representação predicativa é preferida. De qualquer maneira, a comunidade científica está desenvolvendo representações de conhecimento tanto na forma linear quanto na gráfica. Na opinião de outros cientistas, as represetntações do Significado e do conhecimento humano pode operar através das mesmas estruturas lógicas, mas o conhecimento em geral não coincide com conhecimento puramente linguístico e pode ter natureza diferente. Portanto, segundo estes cientistas, para a transição do Significado em seu sentido linguístico para a correspondente representação em termos de conhecimento humano geral, é necessário um estágio especial. Este estágio não é parte da linguagem, e pode operar com ferramentas que não fazem parte desta linguagem.

 

Decomposição e atomização do Significado

A representação semântica é, muitas vezes, universal, ou seja, independente da linguagem natural. Assim sendo, as estruturas puramente gramaticais não são refletidas nesta representação. por exemplo, ainda que em alguns idiomas haja diferença de gêneros nos substantivos, na representação semântica o gênero é representado explicitamente através de um predicado de gênero.

Desta forma, para que um elemento seja estudado, é interessante que seja dividido em entidades mais simples e que suas características sejam representadas por predicados. Um predicado pode ser sempre representado de maneira mais simples, como uma fórmula lógica ou um grafo semântico. Por exemplo, a definição abaixo:

MATAR(x) -> CAUSAR(MORRER(x)) -> CAUSAR(CESSAR(VIVER(x)))

Por esta definição, MATAR pode ser definido como causar o cessar de viver. Ou seja, os predicados CESSAR(x), VIVER(y) e CAUSAR(z) são mais elementares que o predicado inicial MATAR(x).

Nos últimos 30 anos cientistas têm tentado descrever um número limitado de elementos que possam definir semanticamente a linguagem natural, mas sem sucesso. Alguns cientistas concordam que não haja mais que cerca de 2000 semes, mas ainda há discussão sobre isso. Para satisfazer as necessidades da linguística computacional, concordou-se em desintegrar os significados dos lexemas até um certo limite imposto pela aplicação. Por isso, a linguística computacional acaba usando diversos termos e predicados lógicos evidentemente não-elementares. Somente resultados práticos podem ajudar linguistas computacionais a julgar a melhor representação para um certo domínio.

 

Não-unicidade do Significado -> Mapeamento do Texto: Sinonímia

O mapeamento de Significado para Textonão é unidirecional, ou seja, é do tipo muitos-para-muitos. Quando diferentes textos ou fragmentos de textos são mapeados para um mesmo significado, são chamados de sinônimos. Expressões também podem ser sinônimas, e não somente palavras isoladas. Quando as palavras são equivalentes em todo e qualquer contexto, são chamadas de sinônimos absolutos (raros em qualquer idioma). Quando uma palavra é sinônimo de outra em todos os contextos desta segunda, além de contextos próprios, as palavras são chamadas de sinônimos inclusivos.

Os sinônimos parciais podem ser substituídos em algumas situações, mas em outros contextos não podem ser substituídos. Este é o tipo mais comum de sinonímia e não representa realmente uma sinonímia.

 

Não-unicidade do Texto -> Mapeamento do Significado: Homonímia

A homonímia ocorre quando um Texto ou seus fragmentos podem levar a mais de um Significado. Alguns exemplos são real (de verdade ou relativo à realeza), banco (lugar onde se senta ou instituição financiera), cadeira (onde se senta ou departamento de uma Universidade). Assim como na sinonímia, é possível existirem expressões homonímias. Estes são os casos mais importantes de homonímia:

–       Homonímia lexico-morfológica: duas palavras pertencentes a dois diferentes lexemas. É o caso mais geral. Um exemplo é a palavra classificação, que pode significar tanto o processo de se classificar quanto o resultado deste processo. Muitas das conjugações dos verbos ir e ser também constituem homonímias lexico-morfológicas, como “fui”, “foram”, “foi”.

–       Homonínia puramente lexical: ocorre quando dois ou mais lexemas possuem a mesma forma textual, como real – pode se referir a “verdadeiro” ou a “relativo a realeza”.

–       Homonímia morfo-sintática: ocorre quando um conjunto de palavras corresponde a dois ou mais lexemas, mas estes lexemas diferem em significado e também em uma ou mais propriedades morfo-sintáticias. Um exemplo é a palavra rádio – que pode significar “estação de transmissão de radiofrequência”, e aí é do gênero feminino, ou “aparelho onde é sintonizada uma estação”, e neste caso é do gênero masculino.

–       Homonímia puramente morfológica: quando um conjunto de palavras faz parte de um mesmo conjunto de lexema, mas com diferença morfológica. Por exemplo, fáceis é o plural tanto para forma feminina quanto para a forma masculina de “fácil”.esta forma aplica-se às linguagens naturais em que há diferenciação de gênero.

Sem a resolução automática de homonímia, qualuer tentativa de “entender” automaticamente a linguagem natural estará suscetível a erro e terá utilidade limitada.

 


[1] Pode-se considerar a matemática como uma linguagem artificial usada para universos em que a linguagem natural não expressa as ideias abstratas de forma satisfatória? Ou seria apenas um novo domínio?

[2] Neste livro, as palavras Significado e Texto são representadas com maiúscula quando for aplicado o sentido da Teoria Significado <-> Texto ao invés do significado usual destas palavras.

[3] Cada pessoa possui, portanto, um conjunto de Significados – estes signifcados podem variar de acordo com as experiências de vida, impressões e emoções. Desta forma, o Significado nunca será idêntico no transmissor e no receptor da mensagem

No comments yet

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s

%d blogueiros gostam disto: