Recuperação de Informação (RI)

Recuperação de informação (RI), ou do inglês, Information Retrieval (IR) é uma área da computação que lida com o armazenamento de documentos e a recuperação automática de informação associada a eles. É uma ciência de pesquisa sobre busca por informações em documentos, busca pelos documentos propriamente ditos, busca por metadados que descrevam documentos e busca em banco de dados, sejam eles relacionais e isolados ou banco de dados interligados em rede de hipermídia, tais como a World Wide Web. A mídia pode estar disponível sob forma de textos, de sons, de imagens ou de dados. Há, entretanto, muita confusão entre os termos e conceitos “recuperação de dados”, “recuperação de documentos”, “recuperação de informações” e “recuperação de textos”. Na verdade, cada um destes é uma área especial que possui seu próprio corpo de conhecimento e literatura, teoria, praxis e tecnologias. (+)

Objetivo
Os documentos são geralmente textos ou partes do texto de documentos e o principal objetivo de um sistema de RI é recuperar informação (contida nos documentos) que possa ser útil ou relevante para o usuário. Tal informação (de interesse do usuário) é normalmente chamada de necessidade de informação do usuário. Infelizmente, caracterizar a necessidade de informação do usuário não é uma tarefa simples. Considere, por um momento, a seguinte necessidade de informação de um usuário no contexto da World Wide Web (ou simplesmente Web): 

“Encontre todos os documentos contendo informações sobre a doença Neoplasma Benigno de forma que: (1) O paciente com a doença possua idade inferior a 50 anos e (2) seja diabético.” (+)

Other definition – An information retrieval process begins when a user enters a query into the system. Queries are formal statements of information needs, for example search strings in web search engines. In information retrieval a query does not uniquely identify a single object in the collection. Instead, several objects may match the query, perhaps with different degrees of relevancy. (+)


História

A ideia de usar computadores para pesquisar informações relevantes foi popularizadaannotated-As-We-May-Think-page1-thumb no artigo, como podemos pensar por Vannevar Bush em 1945. Parece que Bush se inspirou em patentes para uma “máquina estatística” – arquivada por Emanuel Goldberg nos anos 20 e 30 – procuravam documentos armazenados em filme. A primeira descrição de um computador em busca de informações foi descrita por Holmstrom em 1948, detalhando uma menção inicial do computador Univac . Sistemas automáticos de recuperação de informações foram introduzidos na década de 1950: um incluso apresentado na comédia romântica de 1957, Desk Set. Na década de 1960, o primeiro grande grupo de pesquisa de recuperação de informações foi formado por Gerard Salton em Cornell. Na década de 1970, várias técnicas de recuperação diferentes demonstraram ter bom desempenho em pequenos corpos de texto , como a coleção Cranfield (vários milhares de documentos). Os sistemas de recuperação em larga escala, como o sistema de diálogo Lockheed, entraram em uso no início da década de 1970.

Em 1992, o Departamento de Defesa dos EUA, juntamente com o Instituto Nacional de Padrões e Tecnologia (NIST), co-patrocinou a Conferência de Recuperação de Texto (TREC) como parte do programa de texto TIPSTER. O objetivo disso era examinar a comunidade de recuperação de informações fornecendo a infra-estrutura que era necessária para avaliação de metodologias de recuperação de texto em uma coleção de texto muito grande. Esta pesquisa catalisada sobre métodos que se encaixam em grandes corpos. A introdução de motores de busca na web aumentou ainda mais a necessidade de sistemas de recuperação em grande escala. (+)

Tipos de Modelos
Para efetivamente recuperar documentos relevantes por estratégias de IR, os documentos normalmente são transformados em uma representação adequada. Cada estratégia de recuperação incorpora um modelo específico para a representação de documentos. A imagem abaixo ilustra a relação de alguns modelos comuns. Na figura, os modelos são categorizados de acordo com duas dimensões: a base matemática e as propriedades do modelo. (+)

Information-Retrieval-Models

Medidas de desempenho e correção

  • Precisão (Precision)Precisionrecall.svg
    • É a fração dos documentos recuperados que são relevantes para a necessidade de informação do usuário.
  • Cobertura (Recall)
    • É a fração dos documentos que são relevantes para a consulta que foram recuperados com sucesso.
  • Medidas TREC
  • Visualização
    • Matrix de Confusão – O campo da aprendizagem mecânica e especificamente o problema da classificação estatística , uma matriz de confusão , também conhecida como matriz de erro, é um layout de tabela específico que permite a visualização do desempenho de um algoritmo, tipicamente um aprendizado supervisionado (em aprendizagem não supervisionada geralmente é chamada de matriz correspondente ). Cada linha da matriz representa as instâncias em uma classe prevista, enquanto cada coluna representa as instâncias em uma classe real (ou vice-versa). O nome decorre do fato de que é fácil ver se o sistema está confundindo duas classes (ou seja, comumente erroneamente como outro). (+)

Mais informações

articles and publications

"Lifelong Learner" – Compartilhando e Adquirindo Conhecimentos!