DSL-logo
Sprogteknologi // Language Technology

Go to English version 🇬🇧

De hyppigste ord i dansk

Ressourcen er udarbejdet af Jørg Asmussen, DSL.

En liste over de mest brugte ord i dansk. Listerne indeholder kun opslagsformerne (lemmaformen, fx hus) for ordene, den indeholder ikke bøjningsformer (fx husene). Frekvensen er beregnet som summen over både lemmaformen og bøjningsformerne.

Listen findes i to varianter, som er pakket sammen i en zip-fil:

  1. De 10.000 mest frekvente lemmaer (ord) i dansk inklusive proprier (egennavne) og numeralier (talord)
  2. De 10.000 mest frekvente lemmaer i dansk eksklusive proprier og numeralier.

Listerne er i rent tekstformat med LF-linjeskift, som bruges i Unix, Linux og MacOS. Dette kan forårsage formateringsproblemer i Windows-baserede programmer. Problemerne kan løses ved at åbne listen i en teksteditor og gemme den igen under et nyt navn.

Hver linje i listen indeholder tre oplysningstyper:

  1. Lemmaets ordklasse (POS)
  2. Lemmaformen
  3. Lemmaets frekvens summeret for samtlige af dets bøjningsformer.

Oplysningstyperne er separeret med TAB (tabulator). Herunder ses de første 10 linjer af listen uden egennavne og talord.

T	i	0.032249628510297
V	være	0.0309023882233708
C	og	0.029584070147617
P	en	0.0253413695013101
P	den	0.0248728148892572
T	pĂĄ	0.015317332743123
T	til	0.0152345449047462
P	det	0.0147142978135353
U	at	0.0144963754376622
T	af	0.014170235977948

Lemmaerne er opmærket med en af de ordklasser, der er angivet i kolonnen Tag i tabellen herunder. Den liste, der inkluderer egennavne og talord indeholder alle slags ordklasser fra tabellen, mens den ekskluderende liste kun indeholder de ordklasser der er markeret med en bullet i kolonnen Ex-list.

Tag POS Example Ex-list
A adjective god •
C conjunction og •
D adverb ud •
EW POW lex.item anti@ •
I interjection ja •
L numeral 13
LW POW numeral 10
M POW morph.item @erne
NC common noun år •
NP proper noun Danmark
NW POW noun tv
P pronoun den •
T preposition i •
U "unique" at, som, der •
V verb være •

POW i listen ovenfor står for 'part of word' (del af ord). Disse orddele kan enten være

Lemmafrekvensen angives som et decimaltal, der er beregnet ved at dividere antallet af ordets forekomster i korpus (alle bøjningsformer medregnet) med det samlede antal ordformer i korpus. Det korpus, der er anvendt til frekvensberegningen, indeholder ca. 880 millioner ordformer og består af tekster fra 1983 til 2016. Det drejer sig om 2016-udgaven af BAKSPEJLET, som er det korpus, som redaktører ved Den Danske Ordbog anvender til leksikografiske undersøgelser.

Download

Før du downloader materialet, skal du acceptere betingelserne vedrørende ophavsret, brug og kreditering.


Most frequently used lemmas in Danish

Compiled by Jørg Asmussen, DSL.

The zip-file contains two lists:

  1. Most frequently used 10000 lemmas of Danish including proper nouns and numerals
  2. Most frequently used 10000 lemmas of Danish excluding proper nouns and numerals.

The technical format of these lists is plain text with LF newlines as used by Unix, Linux, and OS X. This may cause some formatting issues in Windows-based text processors that often can be solved by opening the list in a text editor and save it under a new name. Each line comprises three items: The part of speech (POS) of a lemma, the lemma itself, and its frequency. These items are separated by TAB characters. The following snippet shows the first ten lines of the excluding list.

T	i	0.032249628510297
V	være	0.0309023882233708
C	og	0.029584070147617
P	en	0.0253413695013101
P	den	0.0248728148892572
T	pĂĄ	0.015317332743123
T	til	0.0152345449047462
P	det	0.0147142978135353
U	at	0.0144963754376622
T	af	0.014170235977948

The lemmas are tagged with one of the POS-markers from the table below. The including list contains words of any POS whereas the excluding list (ex-list in the table) only includes words of those POS marked with a dot.

Tag POS Example Ex-list
A adjective god •
C conjunction og •
D adverb ud •
EW POW lex.item anti@ •
I interjection ja •
L numeral 13
LW POW numeral 10
M POW morph.item @erne
NC common noun år •
NP proper noun Danmark
NW POW noun tv
P pronoun den •
T preposition i •
U "unique" at, som, der •
V verb være •

POW in the liste above means 'part of word'. As hyphens and apostrophes are defined as word delimiters in the underlying corpus, some word parts occur in the including list. These belong to one of the following types:

The lemma frequency is a real number indicating the number of occurrences of all forms of the lemma in the underlying corpus divided by the size of the corpus in tokens. The underlying corpus is the 2016 version of the BAKSPEJLET Corpus which is used by the editorial staff of The Danish Dictionary. The corpus has a size of approximately 1000 million tokens and comprises text material from 1983 until 2016.

Download

Before downloading this material, you must accept the conditions for copyright, use, and crediting that apply.