CEDEL2 (Corpus Escrito del Español como L2)

Base de datos

Fecha de publicación

1 de enero del 2020

Descripción

***VERSIÓN EN ESPAÑOL***

CEDEL2 (Corpus Escrito del Español L2) es un corpus lingüístico gratuito. Un corpus es una base de datos en formato electrónico que contiene el lenguaje producido por hablantes. Existen dos tipos de hablantes: no nativos y nativos. Los no nativos (=aprendices) son hablantes de español como segunda lengua y cuya lengua materna es alguna de estas 11 lenguas (inglés, alemán, neerlandés, francés, portugués, italiano, griego, ruso, chino, japonés, árabe). El corpus nativo contiene datos de hablantes nativos de español de España y Latinoamérica.

La recogida de datos de CEDEL2 comenzó en 2006. En su segunda versión (CEDEL2 v.2), el corpus contiene más de un millón de palabras procedentes de más de cuatro mil hablantes que han participado voluntariamente. CEDEL2 sigue en desarrollo y se espera una nueva versión (v. 3) en los próximos años con más participantes y más lenguas. Para datos estadísticos, véase: http://cedel2.learnercorpora.com/statistics

Los textos se pueden filtrar y descargar gratuitamente según varios criterios (edad, nivel lingüístico del informante, edad de exposición al español, años estudiando español, duración de estancia en país de habla hispana, etc). Asimismo, se pueden hacer varios tipos de búsquedas en los textos (por palabras, por combinaciones de palabras, por frecuencias de palabras, por lemas, y por categorías gramaticales). Dichas búsquedas se pueden descargar o se pueden mostrar como concordancias.

Acceso gratuito al corpus en: http://cedel2.learnercorpora.com

 

***ENGLISH VERSION***

CEDEL2 stands for ‘Corpus Escrito Del Español L2’ (L2 Spanish written corpus) and is a freely available linguistic corpus. It contains two large subcorpora coming from non-native and native speakers. The non-native corpus comes from learners of Spanish as a second language whose mother tongue is one of these 11 languages (English, German, Dutch, French, Portuguese, Italian, Greek, Russian, Chinese, Japanese, Arabic). The native corpus contains data from Spanish native speakers from Spain and Latin America, plus data from a few other native corpora (English, Greek, Arabic, Japanese, Portuguese).

The CEDEL2 data collection started in 2006. In its second version (CEDEL2 v.2) in 2020, the corpus contains over a million words coming from over 4,000 speakers who have voluntarily participated. CEDEL2 is still growing and version 3 is expected to be released in the near future with more speakers and more languages. For more statistical data on CEDEL2, see http://cedel2.learnercorpora.com/statistics

CEDEL2 is freely available online and its texts can be filtered and downloaded according to several criteria (age of the speaker, proficiency level, age of exposure to Spanish, years studying Spanish, length of stay in a Spanish-speaking country, etc). Likewise, texts can be searched according to several criteria (words, word combinations, word frequencies, lemmas, grammatical categories). These searches can be downloaded and they can be shown as concordances as well.

Free access to the corpus: http://cedel2.learnercorpora.com

Imagen para el artefacto digital CEDEL2 (Corpus Escrito del Español como L2)