KorpusDK

Ressourcen er udarbejdet af Jørg Asmussen, DSL.

KorpusDK består af Korpus 90 med tekster fra omkring 1990, Korpus 2000 med tekster fra omkring år 2000 og Korpus 2010 med tekster fra omkring 2010. Korpusset er på over 100 millioner ord i alt og er ePOS-tagget. Tekstmaterialet i dette korpus stammer fra mange forskellige skriftsproglige kilder så som aviser, blade, skønlitteratur, leksika, dagbøger, blogs etc. En oversigt over hovedkilderne findes i manualen til korpussøgesystemet CoREST, som også giver umiddelbar adgang til søgning i dette korpus.

Korpus 90

Korpus 90 er en del af Den Danske Ordbogs korpus (DDO-korpus). Det blev udarbejdet i 1991-93 til brug for redigeringen af bogudgaven af Den Danske Ordbog. Korpussets oprindelige tilblivelse og sammensætning er beskrevet af Norling-Christensen & Asmussen, 1998. KORPUS-90 omfatter ca. tre fjerdedele af det oprindelige DDO-korpus; transskriberet talesprog og tekster med restriktive brugsbetingelser er udeladt. Korpus 90 indeholder godt 32 mio. ords tekst.

Korpus 2000

Korpus 2000 blev udarbejdet under DSL-projektet Korpus 2000. Formålet med projektet var at opbygge et tekstkorpus, der skulle afspejle alment dansk skriftsprog i årene omkring år 2000. Projektet blev gennemført i 2000–2002 og blev støttet af År 2000 Fonden. Projektets baggrund, fremgangsmåder og perspektiver er beskrevet i NYS nr. 30, 2001. Korpus 2000 indeholder godt 30 mio. ords tekst.

Korpus 2010

Korpus 2010 er et referencekorpus over dansk almensprog omkring 2010. Det blev opbygget som led i det danske CLARIN-projekt (2008-2011). Endvidere er metadata- og tekstformatering beskrevet i Asmussen & Halskov, 2009 i proceedings fra CL2009. Tekster kan muligvis downloades fra CLARIN-projektets repositorie under clarin.dk. Adgang forudsætter dog et særligt login, som kan være vanskeligt at få. Korpus 2010 indeholder ca. 45 mio. løbende ord.

OBS! Af ophavsretlige grunde består disse korpusser af sætninger eller mindre udsnit (citater) blandet i tilfældig orden. Korpusserne indeholder ikke tekster i deres helhed.

Opmærkning

Materialet er lemmatiseret og ordklassetagget med ePOS-tagsættet.

Filformat

Hver zip-fil indeholder en mappe med 10.000 tekstfiler. Filernes format er kompatibelt med det, der bruges i IMS Open Corpus Workbench (CWB/CQP).

Sætningsformat

Hver fil indeholder et stort antal sætninger, hver sætning er omgivet af <s>-tags. Hvert ord i en sætning står på sin egen linje, som består af seks enheder afgrænset fra hinanden ved tabulatortegn:

Ordet gengivet i en lettere forenklet stavning
Ordet gengivet så tæt på dets oprindelige stavning som muligt
Ordgrænse til højre for ordet (mellemrum angives som understreg)
Ordets grundform (lemmaform)
ePOS-ordklassetag
Udvidet ePOS-ordklassetag med bøjningsoplysninger

Eksempel på en sætning:

Download

Før du downloader materialet, skal du acceptere betingelserne vedrørende ophavsret, brug og kreditering.

KorpusDK

Compiled by Jørg Asmussen, DSL.

KorpusDK comprises the following three subcorpora:

Korpus 90 – 32 million tokens of written Danish LGP gathered around 1990, ePOS-tagged and lemmatized
Korpus 2000 – 30 million tokens of written Danish LGP gathered around 2000, ePOS-tagged and lemmatized
Korpus 2010 – 45 million tokens of written Danish LGP gathered around 2010 as part of the DK-CLARIN Project, ePOS-tagged and lemmatized

OBS! Due to copyright reasons, these corpus resources comprise sentences or shorter excerpts in arbitrary order. They do not contain full texts.

Tagging

The material is lemmatized and POS-tagged with the ePOS tag set.

File format

Each zip-file contains a folder with 10.000 text files. The format of these files is compatible with the IMS Open Corpus Workbench (CWB/CQP).

Sentence format

Each file comprises a large number of sentences, each sentence surrounded by <s> tags. A sentence is subdivided into words, one word per line. Each line consists of six tab-divided units:

Word in a slightly simplified spelling
Word as close to its original spelling as possible
The right boundary of the word (space is denoted by underscore)
Lemma form of the word
ePOS tag
Extended ePOS tag including inflectional information

The following is an example sentence:

Download

Before downloading this material, you must accept the conditions for copyright, use, and crediting that apply.