DSL-logo
Sprogteknologi // Language Technology

Go to English version 🇬🇧

PAROLE-DK og ePAROLE

Ressourcerne er udarbejdet af Ole Norling-Christensen, Britt-Katrin Keson, Jørg Asmussen m.fl.

PAROLE-projektets målsætning

MĂĄlet med PAROLE-projektet (1996-1998) var at opbygge og udgive omfattende basale og genanvendelige skriftsprogsressourcer for alle EU-sprog. Dette skulle ske i form af:

  1. Almensproglige tekstkorpusser med 20 millioner ord for hvert af de følgende 14 sprog: dansk, engelsk, finsk, flamsk, fransk, græsk, hollandsk, irsk, italiensk, katalansk, norsk, portugisisk, svensk og tysk;
  2. Sprogteknologiske leksika med 20.000 lemmaer for hvert af de følgende 12 sprog: dansk, engelsk, finsk, fransk, græsk, hollandsk, italiensk, katalansk, portugisisk, spansk, svensk og tysk.

Ressourcernes særlige værdi lå ikke kun i deres størrelse og det antal sprog, de dækkede, men bestod først og fremmest i, at de blev opbygget med fælles standarder og specifikationer.

Tekstkorpusser

Tekstkorpusserne blev samlet og annoteret efter de samme retningslinjer:

Sprogteknologiske leksika

Leksikaene er harmoniseret efter en fælles model, som blev udviklet til formålet (PAROLE-modellen), og som gør det muligt at kode morfologiske og syntaktiske oplysninger for alle involverede sprog. Således er alle leksika opbygget efter de samme designprincipper og lingvistiske specifikationer og anvender samme format.

Projektets medvirkende

Ressourcer til download

Du kan frit downloade de følgende PAROLE-ressourcer ved at klikke på linkene:

  1. Det morfosyntaktisk annoterede korpus PAROLE-DK med 250.000 ord og dokumentation
  2. ePAROLE – betaversion af det morfosyntaktisk annoterede korpus PAROLE-DK tagget med ePOS-tagsættet. Der findes ingen dokumentation af korpusset endnu, men en beskrivelse af tagsættet i Design of the ePOS tagger

Public Domain Mark
This work (PAROLE-DK and ePAROLE – Morphosyntactically Annotated Danish Language Corpus, by Ole Norling-Christensen, Britt-Katrin Keson, Jørg Asmussen, The Society for Danish Language and Literature, DSL), identified by The Society for Danish Language and Literature, DSL, is free of known copyright restrictions.

Korpusserne består af sætninger og små uddrag (citater) i tilfældig rækkefølge. De indeholder ingen hele tekster.


PAROLE-DK and ePAROLE

Aim of the PAROLE Project

The aim of the PAROLE project (1996-1998) was to compile and make available large, generic and re-usable written language resources for all EU Languages, comprising more specifically:

  1. General language text corpora of 20 million words for each of the following 14 languages: Catalan, Danish, Dutch, English, Finnish, Flemish, French, German, Greek, Irish, Italian, Norwegian, Portuguese and Swedish;
  2. Computational lexicons with 20.000 lemmas for each of the following 12 languages: Catalan, Danish, Dutch, English, Finnish, French, German, Greek, Italian, Portuguese, Spanish, Swedish.

The value of these resources lies not only in the size and number of languages covered by the project, but also in the fact that they are built according to common standards and specifications.

Text Corpora

The text corpora have been compiled and annotated following the same guidelines:

Computational Lexicons

For the lexicons, harmonisation is achieved by developing a common model (the PAROLE model) which caters for the encoding of morphological and syntactic information in all languages; thus, all the lexicons are built according to the same design principles and linguistic specifications and are encoded in the same representation format.

Project Partners:

Resources for download

You are free to download the following PAROLE resources, just click on the links:

  1. Morphosyntactically Annotated PAROLE-DK Corpus comprising 250.000 words, including documentation
  2. ePAROLE – beta version of the morphosyntactically annotated PAROLE-DK Corpus tagged with the ePOS tag set. No documentation yet, refer to Design of the ePOS tagger instead

Public Domain Mark
This work (PAROLE-DK and ePAROLE – Morphosyntactically Annotated Danish Language Corpus, by Ole Norling-Christensen, Britt-Katrin Keson, Jørg Asmussen, The Society for Danish Language and Literature, DSL), identified by The Society for Danish Language and Literature, DSL, is free of known copyright restrictions.

These corpus resources comprise sentences or shorter excerpts in arbitrary order. They do not contain full texts.