En esta entrada vamos a hablar de las técnicas de recuperación de información en buscadores. ¿Que son las técnicas de recuperación de información y buscadores? Son herramientas informáticas que permiten recuperar información especifica que se encuentre almacenada, organizada e indexada con anterioridad. Estas herramientas permiten le permiten al usuario encontrar la información mediante la utilización de palabras claves y combinación de campos o caracteres booleanos. Uno de los problemas que surgen en la búsqueda de información es si lo que recuperamos es "mucho o poco" es decir, dependiendo del tipo de búsqueda se pueden recuperar multitud de documentos o simplemente un número muy reducido. A este fenómeno se denomina silencio o ruido documental:
Silencio documental: son aquellos documentos almacenados en la base de datos pero que no han sido recuperados, debido a que la estrategia de búsqueda ha sido demasiado específica o que las palabras clave utilizadas no son las adecuadas para definir la búsqueda.
Ruido documental: son aquellos documentos recuperados por el sistema pero que no son relevantes. Esto suele ocurrir cuando la estrategia de búsqueda se ha definido demasiado genérica.
Para recuperar la información hay que utilizar estrategias de búsqueda de información. Esta consiste en identificar la mejor forma para recuperar la información con el fin de que el resultado de la búsqueda sea exitoso, rápido y lo más eficaz posible ( información objetiva, significativa, pertinente, confiable y vigente).
- Identificar la necesidad de información.
- Que tanto sabemos del tema.
- Identificar el sistema de recuperación de información.
- Identificar palabras claves o relacionadas con el tema.
- Identificar las fuentes de información.
- Evaluar las fuentes.
- Entregar el resultado al usuario.
Las herramientas para encontrar y recuperar esta información son:
Bases de datos
Internet
Lenguajes de indización y control terminológico
Índices: listado de términos normalizados que representan el contenido de un recurso. Algunos tipos son:
- Índice de materias: términos ordenados según las materias que trata la base de datos, el buscador, etc.
- Índice alfabético: listado de términos alfabéticamente
- Índice KWIC: Tipo de índice permutado en el que el contenido temático de una obra se representa mediante palabras clave de su título o de otra fuente de información del documento.
- Índice KWOC: Tipo de índice permutado que varía en su presentación respecto al índice KWIC, en que las palabras clave aparecen como un encabezamiento en línea separada. Bajo cada encabezamiento aparece la totalidad de los títulos, completos o truncados, que contienen la palabra clave de que se trata.
Palabras clave (Keywords): término significativo en lenguaje natural que representa el contenido del documento.
En la búsqueda de información esta opción es esencial ya que nos permite acotar y precisar información. El problema recae en definir la palabra exacta que representa el contenido, por ello es conveniente utilizar especificadores. Por ejemplo si utilizamos la palabra flor en cualquier buscador podemos estar buscando, la floristería más cercana, una imagen de flores o un estudio sobre las flores en las distintas estaciones del año.
- Meta Keywords. La mayoría de los buscadores utilizan para localizar los recursos, las palabras clave de cada pagina web. Por esta razón es esencial que cada pagina tenga una etiqueta donde se incluyan las palabras clave que la definen, también es importante la definición exacta de cada una de ella pues es a partir de estas los buscadores localizan o no un recurso.
Tesauros: es un listado terminológico controlado sobre un área o ámbito de conocimiento que mantiene entre sí relaciones semánticas y genéricas. Su principal característica es que los términos están ordenados jerárquicamente, permitiendo la precisión terminológica en la búsqueda de información.
Componentes:
- Descriptores admitidos o preferentes: son aquellos términos normalizados (donde han sufrido un proceso de expurgo denegando plurales, evitando sinónimos, etc.) que el tesauro los considera aptos para asignarlos a un documento y que posteriormente facilite la recuperación
- Descriptores no admitidos: son aquellos que aun estando normalizados no se consideran adecuado para utilizarlos (suelen ser sinónimos, términos no utilizados en el campo de actuación, etc.)
Relaciones:
- Jerárquicas: indican cuando un término es más específico que otro
- Asociativas: indican que los términos guardan alguna relación
- Sinónimos: indican que dos términos son sinónimos y cual de ellos se utiliza como admitido
Lenguajes de interrogación y ecuaciones de búsqueda
Lenguajes
Cada sistema de recuperación tiene su propio lenguaje de interrogación, que es el que le permite "hablar" en el mismo lenguaje que la base de datos. Este lenguaje como cualquier otro tiene sus propia sintaxis que especifica las características especiales de la búsqueda determinando en cada momento la relación que tienen los elementos de búsqueda. Las reglas gramaticales en el lenguaje de interrogación son los operadores.
Cómo plantear una estrategia de búsqueda:
No existen pautas que nos indiquen como hacer con exactitud todas las búsqueda debido a que cada consulta es distinta. Por eso es conveniente definir un procedimiento básico de trabajo:
- Planteando el tema desde distintos puntos de vista
- Determinando que se sabe del tema
- Formulando nuestra búsqueda mediante:
- La selección de palabras clave que representen lo que busco (utilizar diccionarios, sinónimos, tesauros, ontologías, etc.)
- La traducción de las palabras importantes a otros idiomas (inglés)
- Seleccionando las herramientas de búsqueda (índices, motores, metabuscadores). Se recomienda usar distintas herramientas a la vez.
- Aplicando las palabras clave en las herramientas de búsqueda seleccionadas
Operadores
Lógicos o Boléanos: Permiten convertir las palabras de la consulta en conjuntos matemáticos, y operar con las palabras como si fuesen conjuntos. Las operaciones básicas son la suma (OR), la resta (NOT) y el producto (AND).
- Y lógico (AND)
- NO lógico (NOT)
- O lógico (OR)
Posicionales: permiten especificar la posición de las palabras dentro del documento.
- Cerca (NEAR)
- Junto (ADJ)
- Frases
Existencia: Indica cuando se requiere la presencia o ausencia de una palabra en los documentos recuperados.
- Presencia / Ausencia
- Ausencia
Exactitud: Este tipo de operador se utiliza cuando la consulta que se pretende es menos específica ya que, permite la posibilidad de cortar una palabra de búsqueda a su raíz.
CCL (Common Command Language)
Permite restringir las búsquedas mediante calificadores -es decir, la búsqueda se puede llevar a cabo en campos específicos como Autor, título, etc.- es muy utilizado en bases de datos. La característica de este sistema es que puede mezclar los dos lenguajes, calificadores y operadores lógicos, obteniendo de esta forma una búsqueda muy exhaustiva.