De hyppigste ord i dansk

Ressourcen er udarbejdet af Jørg Asmussen, DSL.

En liste over de mest brugte ord i dansk. Listerne indeholder kun opslagsformerne (lemmaformen, fx hus) for ordene, den indeholder ikke bøjningsformer (fx husene). Frekvensen er beregnet som summen over både lemmaformen og bøjningsformerne.

Listen findes i to varianter, som er pakket sammen i en zip-fil:

De 30.000 mest frekvente lemmaer (ord) i dansk inklusive proprier (egennavne) og numeralier (talord)
De 30.000 mest frekvente lemmaer i dansk eksklusive proprier og numeralier.

Listerne er i rent tekstformat med LF-linjeskift, som bruges i Unix, Linux og MacOS. Dette kan forårsage formateringsproblemer i Windows-baserede programmer. Problemerne kan løses ved at åbne listen i en teksteditor og gemme den igen under et nyt navn.

Hver linje i listen indeholder tre oplysningstyper:

Lemmaets ordklasse (POS)
Lemmaformen
Lemmaets frekvens summeret for samtlige af dets bøjningsformer.

Oplysningstyperne er separeret med TAB (tabulator). Herunder ses de første 10 linjer af listen uden egennavne og talord.

T	i	0.032249628510297
V	være	0.0309023882233708
C	og	0.029584070147617
P	en	0.0253413695013101
P	den	0.0248728148892572
T	på	0.015317332743123
T	til	0.0152345449047462
P	det	0.0147142978135353
U	at	0.0144963754376622
T	af	0.014170235977948

Lemmaerne er opmærket med en af de ordklasser, der er angivet i kolonnen Tag i tabellen herunder. Den liste, der inkluderer egennavne og talord indeholder alle slags ordklasser fra tabellen, mens den ekskluderende liste kun indeholder de ordklasser der er markeret med en bullet i kolonnen Ex-list.

Tag	POS	Example	Ex-list
A	adjective	god	•
C	conjunction	og	•
D	adverb	ud	•
EW	POW lex.item	anti@	•
I	interjection	ja	•
L	numeral	13
LW	POW numeral	10
M	POW morph.item	@erne
NC	common noun	år	•
NP	proper noun	Danmark
NW	POW noun	tv
P	pronoun	den	•
T	preposition	i	•
U	"unique"	at, som, der	•
V	verb	være	•

POW i listen ovenfor står for 'part of word' (del af ord). Disse orddele kan enten være

Leksikalske enheder, dvs. enheder der har en leksikalsk funktion, men normalt ikke optræder som selvstændige ord
Morfologiske enheder, typisk suffikser, som er hægtet på ordstammen med en apostrof
Orddelingsenheder fra sammensætninger, hvori der indgår en bindestreg, og hvor orddelene er enten selvstændige ord eller tal

Lemmafrekvensen angives som et decimaltal, der er beregnet ved at dividere antallet af ordets forekomster i korpus (alle bøjningsformer medregnet) med det samlede antal ordformer i korpus. Det korpus, der er anvendt til frekvensberegningen, indeholder ca. 1.100 millioner ordformer og består af tekster fra 1983 til 2024. Det drejer sig om 2024-udgaven af BAKSPEJLET, som er det korpus, som redaktører ved Den Danske Ordbog anvender til leksikografiske undersøgelser.

Download

Før du downloader materialet, skal du acceptere betingelserne vedrørende ophavsret, brug og kreditering.

Most frequently used lemmas in Danish

Compiled by Jørg Asmussen, DSL.

The zip-file contains two lists:

Most frequently used 30000 lemmas of Danish including proper nouns and numerals
Most frequently used 30000 lemmas of Danish excluding proper nouns and numerals.

The technical format of these lists is plain text with LF newlines as used by Unix, Linux, and OS X. This may cause some formatting issues in Windows-based text processors that often can be solved by opening the list in a text editor and save it under a new name. Each line comprises three items: The part of speech (POS) of a lemma, the lemma itself, and its frequency. These items are separated by TAB characters. The following snippet shows the first ten lines of the excluding list.

T	i	0.032249628510297
V	være	0.0309023882233708
C	og	0.029584070147617
P	en	0.0253413695013101
P	den	0.0248728148892572
T	på	0.015317332743123
T	til	0.0152345449047462
P	det	0.0147142978135353
U	at	0.0144963754376622
T	af	0.014170235977948

The lemmas are tagged with one of the POS-markers from the table below. The including list contains words of any POS whereas the excluding list (ex-list in the table) only includes words of those POS marked with a dot.

Tag	POS	Example	Ex-list
A	adjective	god	•
C	conjunction	og	•
D	adverb	ud	•
EW	POW lex.item	anti@	•
I	interjection	ja	•
L	numeral	13
LW	POW numeral	10
M	POW morph.item	@erne
NC	common noun	år	•
NP	proper noun	Danmark
NW	POW noun	tv
P	pronoun	den	•
T	preposition	i	•
U	"unique"	at, som, der	•
V	verb	være	•

POW in the liste above means 'part of word'. As hyphens and apostrophes are defined as word delimiters in the underlying corpus, some word parts occur in the including list. These belong to one of the following types:

Lexical items, i.e. items that have a lexical function but usually do not occur as independent words
Morphological items, typically suffixes that are attached to the stem of a word by an apostrophe
Word formation items from words that were combined of independent words or numbers by the use of hyphens.

The lemma frequency is a real number indicating the number of occurrences of all forms of the lemma in the underlying corpus divided by the size of the corpus in tokens. The underlying corpus is the 2024 version of the BAKSPEJLET Corpus which is used by the editorial staff of The Danish Dictionary. The corpus has a size of approximately 1100 million tokens and comprises text material from 1983 until 2024.

Download

Before downloading this material, you must accept the conditions for copyright, use, and crediting that apply.