Visualización de resultados y su aplicación en recuperación de información

Resumen

La evolución de la disciplina de la recuperación de información no ha sido sensible al desarrollo de la visualización de resultados, ignorando que, en muchas ocasiones, la presentación de esos resultados juega un papel tan importante en la satisfacción de la necesidad de información del usuario como una buena selección de documentos del fondo.

De todas formas, es posible identificar una serie de modelos estándar y ciertas tendencias en la presentación visual de resultados fruto de la interrogación de un sistema. En este trabajo se analizan esos modelos y tendencias y se establecen una serie de requisitos (arquitectónicos y semánticos) que pueden servir de guía para la mejora de la funcionalidad de las herramientas de visualización en el proceso de la recuperación.

Palabras clave

Visualización de la información, recuperación de información, modelos de visualización, presentación visual, página de resultados, ecuación de búsqueda, lenguaje de interrogación

Introducción

La recuperación de información puede ser definida como una estrategia, basada en la interrogación, para la rápida localización de documentos de un fondo que puedan satisfacer las necesidades informativas de un usuario.

Según el modelo clásico, el proceso de la recuperación de información mediado por un sistema se estructura sobre tres pilares básicos (Bates, 1989). Por un lado, la necesidad de información de usuario (un estado mental); que es representada en el sistema mediante una ecuación de búsqueda perteneciente a un lenguaje de interrogación.

Por otro, el documento; que se somete a un proceso de representación de su contenido semántico. Y, por último, el mapeo o comparación entre la representación de la información contenida en el documento y la ecuación de búsqueda para identificar qué documentos pueden satisfacer la necesidad informativa del usuario. Los documentos seleccionados tras el mapeo entre las dos representaciones (documentos-necesidad) son ofrecidos al usuario a través de una página de resultados que permite acceder a los mismos.

Tradicionalmente, dentro de la disciplina de la recuperación, el grueso de los esfuerzos económicos e intelectuales han sido principalmente invertidos en el desarrollo y mejora de algoritmos cada vez mas eficaces para la representación documental y el mapeo (Baeza-Yates and Ribeiro-Neto, 2011). Descuidándose, en muchas de las ocasiones, la investigación en la presentación visual de los resultados de la recuperación.

La evolución de la disciplina no ha sido sensible al desarrollo de la visualización de resultados, ignorando que, en muchas ocasiones, la presentación de esos resultados juega un papel tan importante en la satisfacción de la necesidad de información del usuario cómo una buena selección de documentos del fondo.

Una mala o no adecuada presentación puede dificultar la satisfacción de la necesidad de información, aunque la recuperación de los documentos relevantes del fondo haya sido eficaz (Shneiderman, 1992; Baeza-Yates, 2011; Hearts, 2009; Baeza-Yates, R.; Broder, A.; Maarek, Y. (2011)).

De todas formas, aunque el desarrollo científico de la visualización no haya corrido de la mano de otros aspectos incluidos en la recuperación, es posible identificar una serie de modelos estándar y ciertas tendencias en la presentación de resultados fruto de la interrogación de un sistema.

Modelos estándar de presentación de resultados

En la mayoría de las ocasiones, los sistemas de recuperación acostumbran a presentar los resultados de una consulta en forma de listado plano unidimensional. Los usuarios, para refinar esos resultados obtenidos, suele interaccionar con los mismos a partir de operaciones de filtrado.

Habitualmente, los principales criterios más utilizados en la organización de esa lista de resultados son el orden, la relevancia, la recomendación y el clustering (Morville & Rosenfeld, 2006; Pérez-Montoro, 2010; Pérez-Montoro y Codina, 2017). El orden organiza la lista de resultados utilizando como criterio la dimensión alfabética o numérica de alguna de las características (nombre del autor o fecha de creación, por ejemplo) del documento recuperado.

La relevancia permite organizar en forma de ranking los documentos recuperados utilizando como criterio la adecuación de la consulta del usuario con el contenido del documento. La recomendación permite ordenar los resultados utilizando el número de recomendaciones sugeridas por otros usuarios que han consumido previamente ese resultado. El clustering, en cambio, presenta los resultados agrupados en diferentes subconjuntos formados por documentos que versan sobre un mismo tema y que abordan ese tema con un enfoque similar (Larson, 1991; Tryon, 1939).

Todas estas formas de organizar los resultados, aunque utilizadas por una parte importante de los sistemas de recuperación, presenta importantes limitaciones. La lista de resultados organizada mediante el criterio de un orden alfabético o numérico no ofrece información extra para que el usuario pueda decidir qué documentos de la lista pueden satisfacer de forma adecuada su necesidad de información temática.

En el caso de la relevancia, el sistema ofrece un ranking colocando en las primeras posiciones aquellos documentos que podrían satisfacer la necesidad temática de un usuario, pero no ofrece información extra sobre el enfoque o la estructura interna del contenido del documento.

En el caso de la recomendación, el listado ofrece en las primeras posiciones los documentos recomendados por otros usuarios, pero tampoco ofrece información extra sobre el enfoque o la estructura interna del contenido del documento. Por último, el clustering ofrece información extra sobre el enfoque del contenido del documento recuperado, pero no orienta al usuario sobre la distribución y estructura temática del documento.

Tendencias en la visualización de resultados

En los últimos años, al margen de este tipo más estándar de presentación de resultados y para superar algunas de sus limitaciones, se han desarrollado diferentes propuestas visuales para mejorar la interacción de los usuarios con esos resultados recuperados. La mayoría de esas propuestas pueden articularse en tres grandes grupos: las visualizaciones de clustering, las basadas en la visualización de los términos de la consulta y las que utilizan thumbnail images (imágenes miniaturizadas) de los documentos.

Figura 1. Ejemplo de treemap

(http://es.m.wikipedia.org/wiki/Archivo:Estados_Unidos_treemap_es.png)

Las visualizaciones de clusterings intentan representar las categorías y las relaciones entre esas categorías bajo las que pueden agruparse los documentos recuperados. Las principales tendencias en este tipo de visualizaciones se basan en la utilización de, entre otros, treemaps, tag clouds o network graphs.

 

Figura 2. Ejemplo de tag cloud (http://www.flickr.com/photos/artangelo/6225813841/)

Los treemaps representan las relaciones jerárquicas de un conjunto de categorías mediante la utilización de rectángulos anidados (nested) optimizando el espacio utilizado para la presentación (Shneiderman, 1992; Shneiderman & Plaisant 2009). Cada rectángulo tiene unas dimensiones proporcionales a la cantidad de documentos recuperados bajo esa categoría (figura 1). Normalmente los rectángulos están coloreados para favorecer su lectura por parte de los usuarios.

Las tag clouds (nubes de etiquetas) representan las categorías en forma de nube de palabras, donde el color y el tamaño de la palabra codifican si hay o no muchos documentos recuperados bajo esa categoría (Begelman, Keller and Smadja, 2006). Normalmente, las etiquetas que aparecen en la nube suelen ser hipervínculos que llevan al listado de los documentos que han sido recuperados bajo esa etiqueta (figura 2).

Los network graphs (gráficos de red) representa cada categoría como un objeto y las relaciones entre las categorías mediante líneas o curvas (figura 3). Según la interacción más habitual, si se clica en un objeto o categoría obtendremos el listado de documentos recuperados clasificados bajo esa categoría. Existen muchos ejemplos en los que se ha aplicado este tipo de visualización (Moya-Anegón et al. 2004; Granitzer et al. 2004, Brandes et al. 2006).

 

Figura 3. Ejemplo de network graph (http://www.flickr.com/photos/yaph/8552474453)

Las visualizaciones basadas en la representación de los términos de la consulta (query terms) propuestos por el usuario acostumbran a utilizar dos posibles estrategias: la visualización de los términos en el propio documento recuperado o en la página de resultados (Hearst 2009). En el primer caso, nos presenta el documento recuperando resaltando en el mismo aquellas palabras del texto que coincidan literalmente con los términos de la consulta realizada (Egan et al. 1989).

Algunos estudios señalan que los usuarios prefieren ver implementada esta técnica mediante el uso de color en el resaltado de las palabras del texto que coinciden con los términos de la consulta (Hornbæk and Frøkjær, 2001). En el segundo caso, en la página de resultados, cada documento es representado como una barra horizontal proporcional a su extensión donde se ubican pequeños cuadrados con los términos de la consulta que aparecen en el texto (Hoeber and Yang, 2006).

Igual que en el caso anterior, algunos estudios señalan que estas visualizaciones mejoran para los usuarios cuando se complementan introduciendo una escala de color en los cuadrados que represente la frecuencia de los términos de la consulta en el texto del documento (Anderson et al., 2002).

Por último, otra de las tendencias más implementadas consiste en completar la lista de resultados con thumbnail images de los documentos recuperados. Esta técnica se fundamenta en el hecho de que el sistema visual humano permite capturar los rasgos esenciales de una imagen completa en 110 milisegundos o menos, justo lo que se tarda en leer sólo una o dos palabras (Woodruff et al, 2001). Algunos estudios defienden que introducir estas imágenes en los resultados de búsqueda puede funcionar como resúmenes visuales de los documentos para los usuarios (Jhaveri and Raiha, 2005).

Limitaciones en las propuestas de visuales

Frente a las organizaciones de listas de resultados más estándares, las nuevas propuestas de visualización descritas pueden mejorar la experiencia de búsqueda de los usuarios en un sistema de recuperación. Sin embargo, presentan también importantes limitaciones.

Respecto a las visualizaciones de clustering, los treemaps ofrecen información extra sobre el enfoque temático del contenido del documento recuperado y las posibles relaciones semánticas que pueden mantener con otros documentos recuperados, pero no orienta al usuario sobre la distribución y estructura temática de cada uno de esos documentos.

En el caso de las tag clouds, ofrecen información extra sobre el enfoque temático del contenido del documento recuperado pero no sobre las posibles relaciones semánticas que pueden mantener con otros documentos recuperados ni tampoco orientan al usuario sobre la distribución y estructura temática de cada uno de esos documentos.

Por último, los network graphs ofrecen información extra sobre el enfoque temático del contenido del documento recuperado y las posibles relaciones semánticas que pueden mantener con otros documentos recuperados, pero no orienta al usuario sobre la distribución y estructura temática de cada uno de esos documentos.

En este caso se une también el problema de que cuando el network graph incluye muchos objetos y relaciones, el usuario no puede explorarlo de una forma cómoda, viéndose obligado a utilizar el zoom para tener una visión global del network o de explorar parcialmente las áreas que le interesen del network (Viégas and Donath, 2004).

Algunos autores defienden estrategias parciales para mejorar esta última forma de visualización focalizando la visualización sobre el nodo que le interesa al usuario (Yee et al., 2001) o eliminando de la visualización aquellos nodos que no han sido clicados por el usuario (Fellbaum, 1998).

Las visualizaciones basadas en la representación de los términos de la consulta (query terms) presenta también importantes limitaciones. Por un lado, sólo ofrecen documentos en los que aparezcan los términos de consulta. En este sentido, no ofrecen información extra sobre el enfoque temático del contenido del documento recuperado y las posibles relaciones semánticas que pueden mantener con otros documentos recuperados. Y, por otro lado, tampoco orientan al usuario sobre la distribución y estructura temática no relacionada con esos términos en cada uno de esos documentos recuperados. 

En el caso de la estrategia de completar la lista de resultados con thumbnail images de los documentos recuperados también presenta importantes limitaciones. Estas visualizaciones, aunque complementarias, no ofrecen información extra sobre el enfoque temático del contenido del documento recuperado, ni sobre las posibles relaciones semánticas que pueden mantener con otros documentos recuperados, ni orienta al usuario sobre la distribución y estructura temática de cada uno de esos documentos.

En esta línea, existen estudios que muestran que esta estrategia no mejora significativamente la experiencia de búsqueda de los usuarios (Czerwinski et al., 1999; Dziadosz and Chandrasekar, 2002), aunque pueden servir de ayuda en parte si se agrandan las imagines (Kaasten et al., 2002).

Discusión y Conclusiones

Como se desprende de este análisis, tanto las propuestas estándar de presentación de resultados como las tendencias visuales en la recuperación ofrecen limitaciones importantes que pueden dificultar la correcta satisfacción de las necesidades informativas por parte de los usuarios.

Sin embargo, es posible establecer una serie de requisitos que sirva de guía para la mejora de la funcionalidad de las herramientas de visualización en el proceso de la recuperación. Esos requisitos pueden clasificarse en dos grandes grupos: los relacionados con los aspectos arquitectónicos del sistema y los emparentados con las características semánticas de los documentos.

Figura 4. Interfaz de Area, una herramienta de visualización, navegación y explotación de colecciones de documentos

Respecto al primer grupo, los relacionados con los aspectos arquitectónicos del sistema, una buena herramienta de visualización debe ofrecer al usuario básicamente tres funcionalidades: el control sobre el proceso de recuperación, la posibilidad de la agregación o desagregación de los documentos recuperados (estrechamiento y ampliación de los resultados de búsqueda) y la navegabilidad de la página de resultados (para facilitar su exploración).

Algunas propuestas alternativas (figura 4) han intentado integrar y articular esas funcionalidades dentro de una misma interfaz de interacción (Pérez-Montoro y Nualart, 2015). Por otro lado, respecto a los aspectos relacionados con las características semánticas de los documentos, una buena herramienta debe comenzar representado cada uno de los documentos recuperados con una adecuada densidad de información asociada.

Esa densidad de información debe mantener el equilibro entre la cantidad mínima de información necesaria para que el usuario pueda identificar y discriminar el contenido del documento y la cantidad de información máxima para que el sistema pueda presentar de forma visual la totalidad del conjunto de documentos recuperados.

Figura 5. Aplicación de la herramienta de visualización Texty a una base de datos de artículos científicos

Por otro lado, manteniendo ese equilibro en la densidad de información ofrecida por documento, el sistema debe también suministrar información sobre el enfoque temático del contenido del documento recuperado, debe mostrar las posibles relaciones semánticas que éste puede mantener con otros documentos recuperados, y debe también poder orientar al usuario sobre la distribución y estructura temática de cada uno de esos documentos recuperados.

Existen algunas propuestas conceptuales, como por ejemplo Texty (figura 5), que intentan, al menos en parte, representar los principales atributos semánticos, relacionales y temáticos de los documentos recuperados y su distribución espacial a lo largo esos mismos documentos (Nualart y Pérez-Montoro, 2013).

Bibliografía

Anderson, T. J., Hussam, A., Plummer, B. & Jacobs, N. (2002). “Pie charts for visualizing query term frequency in search results”. Proceedings of the 5th International Conference on Asian Digital Libraries: Digital Libraries: People, Knowledge, and Technology (pp. 440–451). London: Springer-Verlag.

Baeza-Yates R. A. & Ribeiro-Neto, B. (2011). Modern information retrieval. Boston, MA: Addison-Wesley Longman.

Baeza-Yates, R. (2011). “Tendencias en recuperación de información en la web”. [Trends in information retrieval on the Web.] BiD: textos universitaris de biblioteconomia i documentació, desembre, núm. 27. Retrieved from http://www.ub.edu/bid/27/baeza2.htm on 22-01-2013.

Baeza-Yates, R., Broder, A. & Maarek, Y. (2011). “The new frontier of Web search technology: seven challenges”. S. Ceri & M. Brambilla (Eds.), Search Computing (Vol. 6585, pp. 3–9). Berlin & Heidelberg: Springer Verlag.

Bates, Marcia J. (1989). “The Design of Browsing and Berrypicking Techniques for the Online Search Interface”. Online Review, n. 13, págs. 407-424.

Begelman, G., Keller, P., Smadja, F., & others. (2006). “Automated tag clustering: Improving search and exploration in the tag space”. Collaborative Web Tagging Workshop at WWW2006, Edinburgh, Scotland (pp. 15–33).

Brandes, U., Hoefer, M. & Lerner, J. (2006). “WordSpace: visual summary of text corpora”. Robert F. Erbacher, Jonathan C. Roberts, Matti T. Gröhn & Katy Börner (Eds.). Visualization and data analysis 2006 (pp. 212-223). Bellingham, WA: SPIE-the International Society for Optics and Photonics. (Proceedings of SPIE, Volume 6060).

Czerwinski, M., Van Dantzich, M., Robertson, G. & Hoffman, H. (1999). “The contribution of thumbnail image, mouse-over text and spatial location memory to web page retrieval in 3D”. Proceedings of the INTERACT’99 conference, (pp. 163-170). Dordrecht, Kluwer. Retrieved 2 June, 2013 from http://research.microsoft.com/en-us/um/people/marycz/interact99.pdf

Dziadosz, S. & Chandrasekar, R. (2002, August). “Do thumbnail previews help users make better relevance decisions about web search results?”. Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, (pp. 365-366). New York, NY: ACM Press.

Egan, D.E., Remde, J. R., Gomez, L.M., Landauer, T.K., Eberhardt, J. & Lochbaum, C.C. (1989). “Formative design evaluation of superbook”. ACM Transactions on Information Systems (TOIS), 7(1), 30–57.

Fellbaum, C. (ed.) (1998). WordNet: an electronic lexical database. Massachusetts: MIT Press.

Granitzer, M., Kienreich, W., Sabol, V., Andrews, K. & Klieber, W. (2004). “Evaluating a system for interactive exploration of large, hierarchically structured document repositories”. IEEE Symposium on Information Visualization, 2004. INFOVIS 2004.  (pp. 127-134). Los Alamitos, CA: IEEE Computer Society Press.

Hearts, M. (2009). Search user interfaces. Cambridge: Cambridge University Press.

Hoeber, O. & Yang, X. D. (2006). “A comparative user study of web search interfaces: HotMap, Concept Highlighter, and Google”. WI ’06: Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence, (pp. 866-874). Washington, DC: IEEE Computer Society.

Hornbæk, K. & Frøkjaer, E. (2001). “Reading of electronic documents: the usability of linear, fisheye, and overview+ detail interfaces”. CHI ’01 Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, (pp. 293-300). New York, NY: ACM Press.

Jhaveri, N. & Räihä , K. J. (2005). “The advantages of a cross-session web workspace”. CHI EA ’05 Extended Abstracts on Human Factors in Computing Systems, (pp. 1949-1952). New York, NY: ACM Press.

Kaasten, S., Greenberg, S. & Edwards, C. (2002). “How people recognise previously seen Web pages from titles, URLs and thumbnails”. Xristine Faulkner, Janet Finlay & Françoise Détienne. People and Computers XVI – Memorable Yet Invisible: Proceedings of HCI 2002 (pp. 247–266). Berlin/Heidelberg: Springer.

Larson, R. R. (1991). “Classification clustering, probabilistic information retrieval, and the online catalog”. The Library Quarterly, 61(2), 133–173.

Morville, P. & Rosenfeld, L. (2006). Information architecture for the world wide web: designing large-scale web sites. Sebastopol, CA: O’Reilly Media.

Moya-Anegón, F., Vargas-Quesada, B., Herrero-Solana, V., Chinchilla-Rodríguez, Z., Corera-Álvarez, E. & Munoz-Fernández, F. J. (2004). “A new technique for building maps of large scientific domains based on the cocitation of classes and categories”. Scientometrics, 61(1), 129–145.

Nualart, Jaume and Pérez-Montoro, Mario (2013). “Texty, a Visualization Tool to Aid Selection of Texts from Search Outputs”. Information Research, v. 18, nº 2, paper 581. ISSN 1368-1613. [Available at http://InformationR.net/ir/18-2/paper581.html].

Pérez-Montoro, M. (2010). “Arquitectura de la información en entornos web”. El profesional de la información, 19(4), 333-338.

Pérez-Montoro, Mario (2014). “La visualización en la recuperación de información: estándares, tendencias y limitaciones”. Anuario ThinkEPI, v. 8, p. 301-306. ISSN: 1886-6344.

Pérez-Montoro, Mario and Codina, Lluís (2017). Navigation Design and SEO for Content-Intensive Websites: A Guide for an Efficient Digital Communication. Oxford: Elsevier (Chandos). ISBN 978-0-08-100676-4.

Pérez-Montoro, Mario and Nualart, Jaume (2015). “Visual Articulation of Navigation and Search Systems for Digital Libraries”. International Journal of Information Management, v. 35, n. 5, p. 572-579.  http://dx.doi.org/10.1016/j.ijinfomgt.2015.06.005. ISSN 0268-4012

Shneiderman, B. (1992). Designing the user interface: strategies for effective human-computer interaction. (2nd ed.) Boston, MA: Addison-Wesley Longman Publishing Co., Inc.

Shneiderman, B. (1992). “Tree visualization with tree-maps: 2-d space-filling approach”. ACM Transactions on Graphics, 11(1), 92–99.

Shneiderman, B. & Plaisant, C. (2009). “Treemaps for space-constrained visualization of hierarchies”. Retrieved 3 June, 2013 from http://www.cs.umd.edu/hcil/treemap-history/ (Archived by WebCite® at http://www.webcitation.org/6H6Mp735I)

Tryon, R. (1939). Cluster analysis. New York, NY: McGraw-Hill.

Viégas, F. B. & Donath, J. (2004). “Social network visualization: Can we go beyond the graph”. Workshop on Social Networks, CSCW 2004, pp. 6-10.

Woodruff, A., Faulring, A., Rosenholtz, R., Morrsion, J. & Pirolli, P. (2001). “Using thumbnails to search the Web”. Proceedings of the SIGCHI conference on Human factors in computing systems (pp. 198–205). New York, NY: ACM Press.

Yee, K. P., Fisher, D., Dhamija, R. & Hearst, M. (2001). “Animated exploration of dynamic graphs with radial layout”. INFOVIS ’01 Proceedings of the IEEE Symposium on Information Visualization 2001, (p. 43). Washington, DC: IEEE Computer Society.


Este trabajo es fruto de la revisión, actualización y edición de un trabajo anterior (Pérez-Montoro, 2014). Es importante destacar también que este trabajo forma parte de los resultados de los proyectos “Creación y contenido interactivo en la comunicación de información audiovisual: audiencias, diseño, sistemas y formatos” (CSO2015-64955-C4-2-R) y “El acceso abierto a la ciencia en España: evaluación de su impacto en el sistema de comunicación científica” (CSO2014-52830-P) financiados por el Ministerio de Economía y Competitividad (España).


Mario Pérez-Montoro es Profesor del Departamento de Biblioteconomía, Documentacióń y Comunicacióń Audiovisual de la Universidad de Barcelona. Su docencia e investigación se desarrolla en las disciplinas del diseño de interacción y la visualización de información.

Acerca de Mario Pérez-Montoro 1 Article
Profesor del Departamento de Biblioteconomía, Documentacióń y Comunicacióń Audiovisual de la Universidad de Barcelona. Su docencia e investigación se desarrolla en las disciplinas del diseño de interacción y la visualización de información.