Recuperação de Informação (RI)

Recuperação de informação (RI), ou do inglês, Information Retrieval (IR) é uma área da computação que lida com o armazenamento de documentos e a recuperação automática de informação associada a eles. É uma ciência de pesquisa sobre busca por informações em documentos, busca pelos documentos propriamente ditos, busca por metadados que descrevam documentos e busca em banco de dados, sejam eles relacionais e isolados ou banco de dados interligados em rede de hipermídia, tais como a World Wide Web. A mídia pode estar disponível sob forma de textos, de sons, de imagens ou de dados. Há, entretanto, muita confusão entre os termos e conceitos “recuperação de dados”, “recuperação de documentos”, “recuperação de informações” e “recuperação de textos”. Na verdade, cada um destes é uma área especial que possui seu próprio corpo de conhecimento e literatura, teoria, praxis e tecnologias. (+)

Objetivo
Os documentos são geralmente textos ou partes do texto de documentos e o principal objetivo de um sistema de RI é recuperar informação (contida nos documentos) que possa ser útil ou relevante para o usuário. Tal informação (de interesse do usuário) é normalmente chamada de necessidade de informação do usuário. Infelizmente, caracterizar a necessidade de informação do usuário não é uma tarefa simples. Considere, por um momento, a seguinte necessidade de informação de um usuário no contexto da World Wide Web (ou simplesmente Web):

“Encontre todos os documentos contendo informações sobre a doença Neoplasma Benigno de forma que: (1) O paciente com a doença possua idade inferior a 50 anos e (2) seja diabético.” (+)

Other definition – An information retrieval process begins when a user enters a query into the system. Queries are formal statements of information needs, for example search strings in web search engines. In information retrieval a query does not uniquely identify a single object in the collection. Instead, several objects may match the query, perhaps with different degrees of relevancy. (+)

História

A ideia de usar computadores para pesquisar informações relevantes foi popularizada no artigo, como podemos pensar por Vannevar Bush em 1945. Parece que Bush se inspirou em patentes para uma “máquina estatística” – arquivada por Emanuel Goldberg nos anos 20 e 30 – procuravam documentos armazenados em filme. A primeira descrição de um computador em busca de informações foi descrita por Holmstrom em 1948, detalhando uma menção inicial do computador Univac . Sistemas automáticos de recuperação de informações foram introduzidos na década de 1950: um incluso apresentado na comédia romântica de 1957, Desk Set. Na década de 1960, o primeiro grande grupo de pesquisa de recuperação de informações foi formado por Gerard Salton em Cornell. Na década de 1970, várias técnicas de recuperação diferentes demonstraram ter bom desempenho em pequenos corpos de texto , como a coleção Cranfield (vários milhares de documentos). Os sistemas de recuperação em larga escala, como o sistema de diálogo Lockheed, entraram em uso no início da década de 1970.

Em 1992, o Departamento de Defesa dos EUA, juntamente com o Instituto Nacional de Padrões e Tecnologia (NIST), co-patrocinou a Conferência de Recuperação de Texto (TREC) como parte do programa de texto TIPSTER. O objetivo disso era examinar a comunidade de recuperação de informações fornecendo a infra-estrutura que era necessária para avaliação de metodologias de recuperação de texto em uma coleção de texto muito grande. Esta pesquisa catalisada sobre métodos que se encaixam em grandes corpos. A introdução de motores de busca na web aumentou ainda mais a necessidade de sistemas de recuperação em grande escala. (+)

Tipos de Modelos
Para efetivamente recuperar documentos relevantes por estratégias de IR, os documentos normalmente são transformados em uma representação adequada. Cada estratégia de recuperação incorpora um modelo específico para a representação de documentos. A imagem abaixo ilustra a relação de alguns modelos comuns. Na figura, os modelos são categorizados de acordo com duas dimensões: a base matemática e as propriedades do modelo. (+)

Information-Retrieval-Models

Primeira dimensão: base matemática
- Os modelos de teor de conjuntos representam documentos como conjuntos de palavras ou frases. As semelhanças geralmente são derivadas das operações de teoria-set nesses conjuntos. Os modelos comuns são:
- Os modelos algébricos representam documentos e consultas geralmente como vetores, matrizes ou tuplas. A semelhança do vector de consulta e vetor de documento é representada como um valor escalar.
- Os modelos probabilísticos tratam o processo de recuperação de documentos como uma inferência probabilística. As similaridades são calculadas como probabilidades de que um documento seja relevante para uma determinada consulta. Teoremas probabilísticos como o teorema de Bayes são freqüentemente usados nesses modelos.
- Os modelos de recuperação baseados em recursos visualizam documentos como vetores de valores de funções de recursos (ou apenas recursos ) e procuram a melhor maneira de combinar esses recursos em um único resultado de relevância, geralmente aprendendo a classificar métodos. As funções de recurso são funções arbitrárias de documento e consulta e, como tal, podem facilmente incorporar quase qualquer outro modelo de recuperação como apenas outro recurso.
Segunda dimensão: propriedades do modelo
- Modelos sem interdependências de termo tratam diferentes termos / palavras como independentes. Este facto é geralmente representada em modelos de espaço vectorial pela ortogonalidade pressuposto de vectores prazo ou em modelos de probabilidade por um independência pressuposto para variáveis prazo.
- Modelos com interdependências de termo iminente permitem uma representação de interdependências entre os termos. No entanto, o grau de interdependência entre dois termos é definido pelo próprio modelo. Geralmente é derivado direta ou indiretamente (por exemplo, por redução dimensional ) da co-ocorrência desses termos em todo o conjunto de documentos.
- Modelos com interdependências de termo transcendentes permitem uma representação de interdependências entre termos, mas não alegam como a interdependência entre dois termos é definida. Eles dependem de uma fonte externa para o grau de interdependência entre dois termos. (Por exemplo, um algoritmo humano ou sofisticado.) (+)

Medidas de desempenho e correção

Precisão (Precision)
- É a fração dos documentos recuperados que são relevantes para a necessidade de informação do usuário.
Cobertura (Recall)
- É a fração dos documentos que são relevantes para a consulta que foram recuperados com sucesso.
Medidas TREC
- Common Evaluation Measures
Visualização
- Matrix de Confusão – O campo da aprendizagem mecânica e especificamente o problema da classificação estatística , uma matriz de confusão , também conhecida como matriz de erro, é um layout de tabela específico que permite a visualização do desempenho de um algoritmo, tipicamente um aprendizado supervisionado (em aprendizagem não supervisionada geralmente é chamada de matriz correspondente ). Cada linha da matriz representa as instâncias em uma classe prevista, enquanto cada coluna representa as instâncias em uma classe real (ou vice-versa). O nome decorre do fato de que é fácil ver se o sistema está confundindo duas classes (ou seja, comumente erroneamente como outro). (+)