Entregatzekoak
- E1.1: Corpus monolingües de gran tamaño para euskera y castellano para los cinco dominios especificados: dokumentua
- E1.2: Corpus multilingües (comparables y paralelos) de gran tamaño para euskera, castellano e inglés: dokumentua
- E2.1: Nuevas representaciones vectoriales estáticas parael euskara utilizando los modelos del estado del arte (word2vec, Fasttext): doumentua
- E2.2: Nuevos modelos de lenguaje monolingües para el castellano y euskara basadas en las últimas arquitecturas neuronales: dokumentua
- E2.3: Nuevos modelos de lenguaje multilingües para el euskara, castellano e inglés utilizando corpus monolingües y paralelos: dokumentua
- E2.4: Nuevas meta-representaciones vectoriales estáticas multilingües: dokumentua
- E3.1+E3.2+E3.3: Resultados de adaptación a dominio y a idioma de los modelos de lenguaje: dokumentua
- E4.1: Marco de evaluación unificado BasqueGLUE: dokumentua
- E4.2: Marco de evaluación unificado SpanishGLUE: dokumentua
- E4.3: Informe de evaluación de modelos sobre BasqueGLUE y SpanishGLUE: dokumentua
Corpusa
- Euscrawl: http://www.ixa.eus/euscrawl/
Embedding estatiko elebakarrak
- Word2vec, FastText: https://storage.googleapis.com/elhuyar/Deeptext/staticEmbeddings/index.html
Embedding estatiko eleanitzak
- EU-EN embeddingak: http://www.deeptext.eus/resources/euen.zip
- EU-ES embeddingak:http://www.deeptext.eus/resources/eues.zip
Hizkuntza-eredu elebakarrak
- BERTeus: https://huggingface.co/ixa-ehu/berteus-base-cased
- RoBERTeus v1: http://www.deeptext.eus/resources/roberteus-v1.zip
- RoBERTeus v2: http://www.deeptext.eus/resources/roberteus-v2.zip
- IXABERTes v1: http://www.deeptext.eus/resources/ixabertes-v1.zip
- IXABERTes v2: http://www.deeptext.eus/resources/ixabertes-v2.zip
- roberta-eus-euscrawl-base (*): https://huggingface.co/ixa-ehu/roberta-eus-euscrawl-base-cased
- roberta-eus-euscrawl-large (*): https://huggingface.co/ixa-ehu/roberta-eus-euscrawl-large-cased
- roberta-eus-mc4-base (*): https://huggingface.co/ixa-ehu/roberta-eus-mc4-base-cased
- roberta-eus-cc100-base (*): https://huggingface.co/ixa-ehu/roberta-eus-cc100-base-cased
(*) Ereduak METArekin batera burutuak.
Hizkuntza-eredu eleanitzak
Ebaluazio markoa
- BasqueGLUE: https://github.com/Elhuyar/BasqueGLUE
- SpanishGLUE: https://github.com/Elhuyar/SpanishGLUE