CRAT – A research tool for multidimensional studies

Posted: April 28, 2008 in CAOS-E, corpus, CRAT, research, SENECA, SLA, software

CRAT is a tool that allows intuitive and easy queries on annotated language corpora. A distinctive feature of this tool is the possibility of carrying out searches based on criteria of very diverse natures or dimensions. As for dimensionality, CRAT does not only allow the most basic query options, including word forms and lemmas, but also offers supplementary mechanisms to conduct morphosyntactic queries as well as dimension-based queries which provide more semantic granularity to the results, as is the case of the categories or dimensions included in Biber 1988 and 2003.

A further distinctive characteristic of this tool is the possibility of combining the multidimensionality feature of the queries with options to restrict searches to specific parts of the corpus according to a wide range of semantic parameters. This feature turns the tool into an element of information guidance and selection that facilitates text exploration in accordance with factors which are not directly present in the text. In other words, the user can select excerpts of the corpus which include specific meta-information about the producer of the fragment such as their mother tongue, their educational background or the number of years spent abroad.

Finally, the output resulting from the abovementioned exploratory possibilities linked to the multidimensionality features of the tool is displayed in a user-friendly way and complemented by statistical information that enables the establishment of comparisons from two different perspectives: inter-dimensional and intra-dimensional. Apart from these features, CRAT also offers the possibility of browsing through the output results in order to establish relations which are not readily apparent.

Download User’s manual here (Spanish)

Want to try CRAT? Send us an e-mail: pascualf at um dot es

CRAT es una herramienta que permite realizar búsquedas de forma fácil e intuitiva dentro de corpus lingüísticos anotados. Una característica que la diferencia de las demás es la posibilidad de realizar búsquedas atendiendo a criterios de diferentes naturalezas o dimensiones. Además, la mezcla de estos criterios desemboca en la creación de ordenes de búsquedas de información multidimensionales (Biber 1988). En cuanto a la dimensionalidad, decir que no solo permite el estado más básico de búsqueda de información atendiendo a las formas o lemas de las palabras sino que además proporciona mecanismos para realizar búsquedas de índole morfo-sintáctico así como búsquedas en dimensión que proporcionan mucho más nivel de semántica en los resultados, como son las de las categorías o dimensiones proporcionadas por Biber (1988,2003).

Otro elemento diferenciador de la herramienta atiende a la posibilidad de combinar esta multi-dimensionalidad de las búsquedas con mecanismos para seleccionar las partes del corpus sobre las que se desean realizar las búsquedas atendiendo a parámetros muy ricos semánticamente hablando. Esta característica convierte a la herramienta un elemento de guiado y selección de la información que permite realizar exploración dentro del texto atendiendo a factores no esta directamente presente en el texto. i.e. se pueden seleccionar fragmentos de corpus atendiendo a la meta-información disponible del productor del fragmento como nº de año en el extranjero, idioma, nivel de estudios, L1, etc.

Por último, el elemento unificado de esta posibilidad exploratoria con la multi-dimensionalidad de las búsquedas es la obtención tanto de los resultado de forma amigable como de la información estadística que permite hacer comparaciones atendiendo a estimadores estadísticos desde dos perspectiva: tanto las comparaciones inter-dimensionales como intra-dimensionales. Además la posibilidad de navegar por la información resultante para establecer relaciones que a simple vista no se podrían descubrir es otra virtud de esta herramienta.

Descarga el manual de uso aquí.

Si quiere usar CRAT, mándenos un e-mail: pascualf arroba um punto es

