DISEÑO, COMPILACIÓN Y PROCESAMIENTO DEL CORPUS ESPADA-UNCUYO (CORPUS DE ESPAÑOL EN EL DISCURSO ACADÉMICO DE LA UNIVERSIDAD NACIONAL DE CUYO)
RESUMEN
Con la construcción del Corpus EspaDA-UNCuyo, se inició una línea de investigación a partir del proyecto bienal 2016-2018, que supone el trabajo por etapas en la ejecución de sucesivos proyectos propuestos a la Secretaría de Investigación, Internacionales y Posgrado (UNCuyo). La línea de investigación tiene como meta el desarrollo y la puesta en funcionamiento de un recurso informático que, en su versión final (RTM), reúna una muestra representativa, equilibrada y homogénea de eventos comunicativos académicos auténticos del ámbito de la Universidad Nacional de Cuyo. El Corpus EspaDA-UNCuyo se constituiría, así, en la primera fuente multidisciplinaria de evidencias empíricas para la descripción, el análisis y la enseñanza-aprendizaje de géneros discursivos orales y escritos de docencia, investigación, administrativos e institucionales de circulación efectiva en nuestra comunidad universitaria. El corpus ya cuenta con un prototipo computacional alfa (versión 20220220), desarrollado durante el proyecto bienal 2019-2021 y alojado en el servidor de la UNCuyo. Con la aplicación de filtros que restringen resultados sobre la base de criterios externos o contextuales, el diseño actual del recurso permite la consulta de eventos comunicativos orales y escritos. Para esta nueva etapa en la construcción del corpus, se plantean los siguientes objetivos: (1) Establecer los criterios definitivos de construcción y publicación del corpus; (2) Incrementar y sistematizar la muestra de géneros académicos, según un modelo de datos representativo de la información del corpus; (3) Diseñar, implementar y evaluar una metodología algorítmica para la clasificación mecanizada de textos por género discursivo, basada en el modelo de datos del corpus; (4) Revisar, evaluar y actualizar los protocolos de recolección, almacenamiento y transcripción de eventos orales; (5) Definir el protocolo de procesamiento de los eventos escritos, para su inclusión en el corpus EspaDA-UNCuyo; (6) Explorar, probar y evaluar herramientas y métodos computacionales de registro, anotación y etiquetado de documentos, en relación con la funcionalidad del análisis, la consulta y la explotación del Corpus EspaDA-UNCuyo; (7) Actualizar el prototipo de consulta al corpus EspaDA-UNCuyo a una versión beta.
PROYECTO SIIP TIPO 1 BIENAL 2019 | 06/G785
CORPUS ESPADA-UNCUYO: DISEÑO Y PRECOMPILACIÓN DE UN CORPUS DEL DISCURSO ACADÉMICO ORAL Y ESCRITO DE LA UNIVERSIDAD NACIONAL DE CUYO
RESUMEN
El Corpus EspaDA-UNCuyo (Corpus del Español en el Discurso Académico de la Universidad Nacional de Cuyo) es un recurso en construcción a partir del proyecto bienal SIIP 06/G718 (2016-2018), que ya cuenta con un prototipo computacional versión alfa, alojado en el servidor de la UNCuyo. La investigación se orienta a que, en su versión final (RTM), el corpus reúna una muestra representativa y equilibrada de eventos comunicativos auténticos y de circulación efectiva en nuestra comunidad universitaria; y con ello aspiramos a que se constituya en la primera fuente multidisciplinaria de evidencias para la descripción, el análisis y la enseñanza-aprendizaje de géneros académicos orales y escritos de docencia, de investigación e institucionales. En el presente proyecto continuamos en la fase inicial de diseño y precompilación de la muestra, habiendo sumado la metodología de lingüística de corpus a la línea de investigación en discurso académico-científico sostenida ininterrumpidamente por nuestro equipo desde el año 2000, en proyectos acreditados por la SIIP-UNCuyo. Los objetivos generales son: (1) contribuir al campo de estudio del discurso académico a partir de la construcción del Corpus EspaDA-UNCuyo; (2) diseñar y precompilar una muestra de eventos comunicativos orales y escritos auténticos y de circulación efectiva en la Universidad Nacional de Cuyo con metodología de lingüística de corpus. Los objetivos específicos son: (1) evaluar la operatividad del sistema de criterios externos definido en la primera fase de diseño del Corpus EspaDA-UNCuyo (2016-2018); (2) diseñar un modelo de datos orientado a representar la información del corpus; (3) sistematizar la muestra piloto existente de géneros académicos según el modelo de datos; (4) diseñar una metodología para la clasificación mecanizada de textos por género discursivo basada en el modelo de datos del corpus; (5) definir protocolos de recolección, almacenamiento y transcripción de documentos; (6) explorar, probar y evaluar herramientas y métodos computacionales de registro, anotación y etiquetado de documentos en relación con la funcionalidad de la consulta, el análisis y la explotación del Corpus EspaDA-UNCuyo.
PROYECTO SECTYP BIENAL 2016 | 06/G718
CONSTRUCCIÓN DE UN CORPUS DE DISCURSO ACADÉMICO ESCRITO Y ORAL DE LA UNIVERSIDAD NACIONAL DE CUYO CON METODOLOGÍA DE LINGÜÍSTICA DE CORPUS. PROYECCIONES HACIA ÁMBITOS CIENTÍFICOS Y DIDÁCTICO-PEDAGÓGICOS
RESUMEN
Los estudios del lenguaje se benefician de evidencias empíricas de diversas fuentes para contribuir al desarrollo acumulativo del conocimiento científico. Los corpora son una fuente de evidencias privilegiada para la descripción, el análisis y la enseñanza de discursos de todo tipo: generales, especializados, orales y escritos y brindan una base empírica poderosa para el desarrollo de materiales educativos diversos. La lingüística de corpus brinda sustento a la investigación de la lengua en uso a partir de corpora con sustrato computacional. No se entiende como un área de la lingüística sino como un método para la investigación en todas las áreas y niveles y desde enfoques diferentes. Permite llevar a cabo investigaciones en contextos auténticos, sus aplicaciones son múltiples y sus posibilidades de indagación, ilimitadas. En la presente investigación nos centraremos en el primer estadio de la construcción de un corpus de discurso académico oral y escrito en el ámbito de la UNCuyo. Se comenzará la recolección de textos correspondientes a géneros académicos problemáticos tanto desde una perspectiva de investigación en análisis del discurso especializado como desde su aplicación pedagógica. Se evaluarán modelos probados y exitosos de clasificación y marcaje de textos académicos para contextualizar la muestra en formación; se definirán variables para la categorización genérica; se establecerán parámetros que permitirán la futura anotación del corpus y su implementación informática y se procurará llegar a distintos tipos de anotación: fonética, morfológica, léxico- semántica, pragmática y discursiva. Estas definiciones se orientarán a sentar las bases para un segundo estadio de diseño de un modelo de datos que permita representar el sistema de información del corpus y su posterior alojamiento y publicación en la web para su acceso. Las principales ventajas de una investigación basada en corpus y con las que se espera contribuir a partir de la línea de investigación metodológica que aquí se inicia son (1) adecuada representación del discurso en su ocurrencia natural en muestras representativas a partir de textos originales; (2) procesamiento lingüístico (semi)automático de los textos que permite análisis más amplios y profundos a partir de conjuntos de rasgos caracterizadores; (3) mayor confiabilidad en los análisis cualitativos y cuantitativos de los rasgos lingüísticos; (4) posibilidad de resultados acumulativos y replicables.