Skip to content

Resumo do artigo: Semantic Wikipedia

junho 27, 2011

de Völkel, Krötzsch, Vrandecic, Haller e Struder

            Este artigo trata de uma proposta dos autores para a aplicação de técnicas de semântica na ferramenta Wikipedia. Estas ferramentas podem, segundo os autores, trazer muito mais significado ao conteúdo disponivel e permitir busca pelo conteúdo desta enciclopédia, que atualmente é composta de textos estáticos. A proposta é criar uma extensão a ser integrada com a Wikipedia já existente, mantendo os recursos que fazem desta uma base de conhecimento tão popular: possibilidade de adicionar e alterar conteúdo, acesso livre e gratuito e facilidade para editar páginas.

            Os autores pretendem que seja possível, com a implementação desta tecnologia, realizar consultas complexas na Wikipedia e utilizar sua imensa base de conhecimento como um banco de dados sobre diversos assuntos. Seria possível, por exemplo, realizar uma consulta do tipo “quais foram os filmes que ganharam o Oscar de melhor trilha sonora nos últimos 40 anos?”. Isso porque, ao invés de páginas estáticas, cada artigo escrito por um colaborador seria processado como um triple RDF, fazendo parte de uma ontologia. Isso é possível através dos atributos e links tipados.

            Discorrem sobre o cenário atual (na época em que o artigo foi escrito) da Wikipedia: baseada em um sistema simples de gestão de conteúdo, permite alteração de textos e comporta-se como uma lista criada manualmente de perguntas e respostas. Por ser manual, alterações em um artigo não se refletem em outros relacionados. A extensão Semantic MediaWiki, proposta pelos autores, adere ao “look and feel” da Wikipedia e foi projetado com especial atenção à usabilidade, expressividade, flexibilidade, escalabilidade e compatibilidade. A ideia é que os resultados de consultas possam ser exportados para outros sistemas, e não só para uso diretamente humano.

            As características básicas de cada artigo são as seguintes:

  • Categorias: classificam os artigos de acordo com seu conteúdo. Esta característica está presente no formato atual da Wikipedia
  • Links tipados: estes são uma das mais importantes novidades deste sistema. Os links tipados, detalhados mais adiante nesta revisão, criam os relacionamentos semânticos entre os artigos. Ou seja, ao invés de simplesmente levar a uma outra página, o link tem o poder de apresentar a estrutura semântica que relaciona os artigos – sendo os artigos entidades
  • Atributos: são as características do assunto de que trata o artigo que estão indicadas no texto. No Semantic MediaWiki, estes atributos são explícitos e tipados. Comportam-se de maneira semelhante aos atributos da Programação Orientada a Objeto.

Para manter a liberdade que os colaboradores da Wikipedia tradicional sempre tiveram, é permitido escrever e alterar qualquer letra, palavra, link, atributo ou categoria. O ônus desta decisão é que erros de digitação podem comprometer a classificação semântica de um elemento.

No artigo original é apresentada a foto da tela de um artigo sobre Londres produzido pelo Semantic MediaWiki, e são apresentadas as sintaxes de declaração do artigo tanto em Wikipedia tradicional quanto em Semantic MediaWiki. Os links tipados apresentam a relação semântica entre assunto do artigo sendo apresentado e o assunto do artigo destino do link. No artigo sobre Londres, um link para o artigo da Inglaterra seria da forma [[is capital of::England]]. Assim, quando um usuário fizer uma pesquisa do tipo “Qual é a capital da Inglaterra?”, o sistema será inteligente o suficiente para buscar a relação “is capital of” e “Inglaterra”, e apresentar uma lista com os resultados na forma de link para respectivos artigos. Neste caso, o resultado será somente um artigo.

Os atributos permitem igualmente a pesquisa semântica. Para se colocar os dados da população de uma cidade, pode-se utilizar a notação [[population:=5467421]]. Assim, também é possível buscar pela população de determinados países, ou encontrar o país com maior população em uma determinada região. Para facilitar a inclusão dos atributos e melhorar a qualidade dos dados inseridos, são oferecidos templates, ou seja, “moldes” de artigos com atributos pré-definidos.

As unidades de medida são suportadas em suas diversas formas. Por contar com uma representação semântica RDF, a unidade pode ser alterada de acordo com as preferências do usuário sem comprometer o significado dos números. Isso porque o RDF diferencia o espaço de valor do espaço léxico. Este último é usado para a localização de artigos, ou seja, representação de artigos em diversos idiomas. O espaço de valor é usado para atribuir valor a um atributo, que é de um determinado tipo de dados. Os tipos de dado variam de tipos comuns, como inteiro e texto, a tipos com mais significado, como unidade de medida espacial e temperatura.

Outro recurso do Semantic MediaWiki é a infobox. Esta é uma caixa de informações onde estão diversos links para relações semânticas derivadas do assunto do artigo ativo. Isso permite navegação inteligente e com significado pelo conteúdo relacionado, sendo os links desta navegação dinâmicos e atualizados automaticamente quando qualquer alteração é feita nos artigos relacionados.

A manipulação de erros também foi pensada com especial cuidado. Como muitos dos colaboradores não são pessoas técnicas, mensagens de erro com códigos e textos relacionados ao processamento da solicitação (seja esta a edição de um artigo, acesso a um link ou acesso a um artigo) poderiam desestimular a colaboração, que é o ponto mais atrativo da Wikipedia. Para evitar erros, qualquer valor numérico não tipado é tratado como floating point, e qualquer outro valor é tratado como string.

O Semantic MediaWiki foi desenvolvido em PHP e MySQL, e é uma extensão do MediaWiki que foi desenvolvido com as mesmas linguagens.

Os sistemas de etiquetagem (tagging) atuais possuem termos em diversos idiomas para representar o mesmo significado, e sinônimos em um mesmo idioma para categorizar um item. O Semantic MediaWiki, por contar com uma representação na forma de significado, é internacional e evita redundâncias.

Há outras abordagens disponíveis para a Wiki Semântica, a maioria delas baseadas em RDF e apresentam problemas, sejam estes problemas o alto nível técnico necessário para manipular artigos e inserir links ou por não serem baseados em software livre.

Os autores esperavam a implementação do Semantic MediaWiki no fim de 2006. Porém, quando foi acessado este site, basicamente artigos sobre a própria MediaWiki que estavam disponíveis. Os autores destacam que ainda é necessário pesquisar e desenvolver mais soluções em esquema de informações (relações inversas e simétricas, meta modelagem, verificação de consistência e alinhamento de questões de ontologia (afinal, a Wikipedia não é completa nem consistente).

A Semantic MediaWiki é um sistema que visa converter os dados, que são o que temos hoje na Wikipedia, em informação, atribuindo a estes dados um significado. É um processo que envolve não só a modelagem ontológica das informações que estão disponíveis, mas também restrições técnicas e de interface de usuário. A aplicação semântica em uma ferramenta de colaboração tornam a usabilidade muito importante, e a sensibilidade de identificar que artefatos tornam a Wikipedia tão popular e manter estes artefatos na nova solução.

Foi importante a análise que os autores fizeram das outras soluções semelhantes que já existiam para não cometer as mesmas falhas – assim, a formatação de links tornou-se tão intuitiva quanto já é na Wikipedia.

No comments yet

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s

%d blogueiros gostam disto: