Entregables
- E1.1: Corpus monolingües de gran tamaño para euskera y castellano para los cinco dominios especificados: documento
- E1.2: Corpus multilingües (comparables y paralelos) de gran tamaño para euskera, castellano e inglés: documento
- E2.1: Nuevas representaciones vectoriales estáticas parael euskara utilizando los modelos del estado del arte (word2vec, Fasttext): documento
- E2.2: Nuevos modelos de lenguaje monolingües para el castellano y euskara basadas en las últimas arquitecturas neuronales: documento
- E2.3: Nuevos modelos de lenguaje multilingües para el euskara, castellano e inglés utilizando corpus monolingües y paralelos: documento
- E2.4: Nuevas meta-representaciones vectoriales estáticas multilingües: documento
- E3.1+E3.2+E3.3: Resultados de adaptación a dominio y a idioma de los modelos de lenguaje: documento
- E4.1: Marco de evaluación unificado BasqueGLUE: documento
- E4.2: Marco de evaluación unificado SpanishGLUE: documento
- E4.3: Informe de evaluación de modelos sobre BasqueGLUE y SpanishGLUE: documento
Corpus
- Euscrawl: http://www.ixa.eus/euscrawl/
Embeddings estáticos monolingües
- Word2vec, FastText: https://storage.googleapis.com/elhuyar/Deeptext/staticEmbeddings/index.html
Embeddings estáticos multilingües
- Embeddings EU-EN: http://www.deeptext.eus/resources/euen.zip
- Embeddings EU-ES :http://www.deeptext.eus/resources/eues.zip
Modelos de lenguaje monolingües
- BERTeus: https://huggingface.co/ixa-ehu/berteus-base-cased
- RoBERTeus v1: http://www.deeptext.eus/resources/roberteus-v1.zip
- RoBERTeus v2: http://www.deeptext.eus/resources/roberteus-v2.zip
- IXABERTes v1: http://www.deeptext.eus/resources/ixabertes-v1.zip
- IXABERTes v2: http://www.deeptext.eus/resources/ixabertes-v2.zip
- roberta-eus-euscrawl-base(*): https://huggingface.co/ixa-ehu/roberta-eus-euscrawl-base-cased
- roberta-eus-euscrawl-large(*): https://huggingface.co/ixa-ehu/roberta-eus-euscrawl-large-cased
- roberta-eus-mc4-base(*): https://huggingface.co/ixa-ehu/roberta-eus-mc4-base-cased
- roberta-eus-cc100-base(*): https://huggingface.co/ixa-ehu/roberta-eus-cc100-base-cased
(*) modelos realizados en colabotación con META.
Modelos de lenguaje multilingües
Marco de evaluación
- BasqueGLUE: https://github.com/Elhuyar/BasqueGLUE
- SpanishGLUE: https://github.com/Elhuyar/SpanishGLUE