Research on Biomedical Engineering
http://rbejournal.org/article/doi/10.4322/rbeb.2012.002
Research on Biomedical Engineering
Original Article

Questões de qualidade em construção de thesaurus: um estudo de case do domínio médico

Quality issues in thesaurus building: a case study from the medical domain

Percy, Nohama; Pacheco, Edson José; Andrade, Roosewelt Leite; Bitencourt, Jeferson Luiz; Markó, Kornél; Schulz, Stefan

Downloads: 0
Views: 455

Resumo

Assegurar a qualidade de um dicionário médico não é uma tarefa trivial, devido à complexidade inerente à terminologia médica. As peculiaridades da sublinguagem médica e o subjetivismo das escolhas dos lexicógrafos complicam o processo de construção do dicionário de sinônimos. Nossa experiência baseia-se no léxico do sistema MorphoSaurus, uma plataforma básica de indexação e recuperação biomédica para vários idiomas. Neste artigo, descrevem-se duas abordagens complementares de manutenção: detecção de erros baseada em Corpus e detecção de anomalia de Thesaurus, que são usados para detectar os chamados erros dinâmicos e estáticos, introduzidos pelos lexicógrafos durante o processo de construção e manutenção. Considerando corpora paralelos multilinguais, a distribuição dos identificadores semânticos devem ser semelhantes, sempre quando textos relacionados são comparados em diferentes idiomas. Na abordagem proposta, a pesquisa é feita para identificadores semânticos que têm maiores variações entre pares de textos. A análise desses resultados de pesquisa expõe os identificadores de itens lexicais e que pode revelar erros, que são posteriormente classificados e fixados pelo lexicógrafos. Outro ponto é que as análises baseadas em anomalias baseadas em transações que são gerados pelo log de ações lexicógrafos durante a manutenção de sinônimos. Esta metodologia destaca os quatro tipos mais comuns de anomalia e avalia a eficácia das técnicas de detecção baseado em corpus. A melhoria da qualidade global do dicionário de sinônimos foi avaliada utilizando o benchmark OHSUMED IR e todo o processo apresenta uma melhoria considerável da qualidade de recuperação para os idiomas testados.

Palavras-chave

Multilinguismo, Semântica, Processamento de linguagem natural, Armazenamento e recuperação da informação, Engenharia de thesaurus.

Abstract

To ensure the quality of a medical thesaurus is a non-trivial task, due to the inherent complexity of medical terminology. The peculiarities of the medical sublanguage and the subjectivism of lexicographers’ choices complicate the thesaurus construction process. Our experience is based on the MorphoSaurus lexicon, the basis of a biomedical cross-language indexing and retrieval system. We describe two complementary maintenance approaches, viz. i) corpus-based error detection, and ii) thesaurus anomaly detection. These techniques were developed to detect so-called dynamic and static errors, which are committed by the lexicographers during the construction and maintenance process. Considering multilingual parallel corpora, the distribution of semantic identifiers should be similar whenever comparing related texts in different languages. In the first approach, those semantic identifiers are identified that exhibit greatest frequency variations when comparing text pairs. A manual review of these search results is supposed to spot content errors, which are subsequently classified and fixed by the lexicographers. The second approach analyses transaction-based anomalies, which are identified by interpreting the log of lexicographers’ actions during thesaurus maintenance. This methodology highlights the four most common types of this kind of anomaly and evaluates the effectiveness of the corpus-based detection techniques. The overall quality improvement of the thesaurus was evaluated using the OHSUMED IR benchmark.

Keywords

Multilingualism, Semantics, Natural language processing, Information storage and retrieval, Thesaurus engineering.
5889fbfb5d01231a018b48a0 rbeb Articles
Links & Downloads

Res. Biomed. Eng.

Share this page
Page Sections