Sprogteknologi // Language Technology
Ressourcen er udarbejdet af Jørg Asmussen, DSL.
KorpusDK består af Korpus 90 med tekster fra omkring 1990, Korpus 2000 med tekster fra omkring år 2000 og Korpus 2010 med tekster fra omkring 2010. Korpusset er på over 100 millioner ord i alt og er ePOS-tagget. Tekstmaterialet i dette korpus stammer fra mange forskellige skriftsproglige kilder så som aviser, blade, skønlitteratur, leksika, dagbøger, blogs etc. En oversigt over hovedkilderne findes i manualen til korpussøgesystemet CoREST, som også giver umiddelbar adgang til søgning i dette korpus.
Korpus 90 er en del af Den Danske Ordbogs korpus (DDO-korpus). Det blev udarbejdet i 1991-93 til brug for redigeringen af bogudgaven af Den Danske Ordbog. Korpussets oprindelige tilblivelse og sammensætning er beskrevet af Norling-Christensen & Asmussen, 1998. KORPUS-90 omfatter ca. tre fjerdedele af det oprindelige DDO-korpus; transskriberet talesprog og tekster med restriktive brugsbetingelser er udeladt. Korpus 90 indeholder godt 32 mio. ords tekst.
Korpus 2000 blev udarbejdet under DSL-projektet Korpus 2000. Formålet med projektet var at opbygge et tekstkorpus, der skulle afspejle alment dansk skriftsprog i årene omkring år 2000. Projektet blev gennemført i 2000–2002 og blev støttet af År 2000 Fonden. Projektets baggrund, fremgangsmåder og perspektiver er beskrevet i NYS nr. 30, 2001. Korpus 2000 indeholder godt 30 mio. ords tekst.
Korpus 2010 er et referencekorpus over dansk almensprog omkring 2010. Det blev opbygget som led i det danske CLARIN-projekt (2008-2011). Endvidere er metadata- og tekstformatering beskrevet i Asmussen & Halskov, 2009 i proceedings fra CL2009. Tekster kan muligvis downloades fra CLARIN-projektets repositorie under clarin.dk. Adgang forudsætter dog et særligt login, som kan være vanskeligt at få. Korpus 2010 indeholder ca. 45 mio. løbende ord.
OBS! Af ophavsretlige grunde består disse korpusser af sætninger eller mindre udsnit (citater) blandet i tilfældig orden. Korpusserne indeholder ikke tekster i deres helhed.
Materialet er lemmatiseret og ordklassetagget med ePOS-tagsættet.
Hver zip-fil indeholder en mappe med 10.000 tekstfiler. Filernes format er kompatibelt med det, der bruges i IMS Open Corpus Workbench (CWB/CQP).
Hver fil indeholder et stort antal sætninger, hver sætning er omgivet af <s>
-tags. Hvert ord i en sætning står på sin egen linje, som består af seks enheder afgrænset fra hinanden ved tabulatortegn:
Eksempel på en sætning:
Før du downloader materialet, skal du acceptere betingelserne vedrørende ophavsret, brug og kreditering.
Compiled by Jørg Asmussen, DSL.
KorpusDK comprises the following three subcorpora:
OBS! Due to copyright reasons, these corpus resources comprise sentences or shorter excerpts in arbitrary order. They do not contain full texts.
The material is lemmatized and POS-tagged with the ePOS tag set.
Each zip-file contains a folder with 10.000 text files. The format of these files is compatible with the IMS Open Corpus Workbench (CWB/CQP).
Each file comprises a large number of sentences, each sentence surrounded by <s>
tags. A sentence is subdivided into words, one word per line. Each line consists of six tab
-divided units:
The following is an example sentence:
Before downloading this material, you must accept the conditions for copyright, use, and crediting that apply.