Sprogteknologi // Language Technology
Ressourcen er udarbejdet af Jørg Asmussen, DSL.
En liste over de mest brugte ord i dansk. Listerne indeholder kun opslagsformerne (lemmaformen, fx hus) for ordene, den indeholder ikke bøjningsformer (fx husene). Frekvensen er beregnet som summen over både lemmaformen og bøjningsformerne.
Listen findes i to varianter, som er pakket sammen i en zip-fil:
Listerne er i rent tekstformat med LF-linjeskift, som bruges i Unix, Linux og MacOS. Dette kan forårsage formateringsproblemer i Windows-baserede programmer. Problemerne kan løses ved at åbne listen i en teksteditor og gemme den igen under et nyt navn.
Hver linje i listen indeholder tre oplysningstyper:
Oplysningstyperne er separeret med TAB (tabulator). Herunder ses de første 10 linjer af listen uden egennavne og talord.
T i 0.032249628510297
V være 0.0309023882233708
C og 0.029584070147617
P en 0.0253413695013101
P den 0.0248728148892572
T på 0.015317332743123
T til 0.0152345449047462
P det 0.0147142978135353
U at 0.0144963754376622
T af 0.014170235977948
Lemmaerne er opmærket med en af de ordklasser, der er angivet i kolonnen Tag i tabellen herunder. Den liste, der inkluderer egennavne og talord indeholder alle slags ordklasser fra tabellen, mens den ekskluderende liste kun indeholder de ordklasser der er markeret med en bullet i kolonnen Ex-list.
Tag | POS | Example | Ex-list |
---|---|---|---|
A | adjective | god | • |
C | conjunction | og | • |
D | adverb | ud | • |
EW | POW lex.item | anti@ | • |
I | interjection | ja | • |
L | numeral | 13 | |
LW | POW numeral | 10 | |
M | POW morph.item | @erne | |
NC | common noun | år | • |
NP | proper noun | Danmark | |
NW | POW noun | tv | |
P | pronoun | den | • |
T | preposition | i | • |
U | "unique" | at, som, der | • |
V | verb | være | • |
POW i listen ovenfor står for 'part of word' (del af ord). Disse orddele kan enten være
Lemmafrekvensen angives som et decimaltal, der er beregnet ved at dividere antallet af ordets forekomster i korpus (alle bøjningsformer medregnet) med det samlede antal ordformer i korpus. Det korpus, der er anvendt til frekvensberegningen, indeholder ca. 1.100 millioner ordformer og består af tekster fra 1983 til 2024. Det drejer sig om 2024-udgaven af BAKSPEJLET, som er det korpus, som redaktører ved Den Danske Ordbog anvender til leksikografiske undersøgelser.
Før du downloader materialet, skal du acceptere betingelserne vedrørende ophavsret, brug og kreditering.
Compiled by Jørg Asmussen, DSL.
The zip-file contains two lists:
The technical format of these lists is plain text with LF newlines as used by Unix, Linux, and OS X. This may cause some formatting issues in Windows-based text processors that often can be solved by opening the list in a text editor and save it under a new name. Each line comprises three items: The part of speech (POS) of a lemma, the lemma itself, and its frequency. These items are separated by TAB characters. The following snippet shows the first ten lines of the excluding list.
T i 0.032249628510297
V være 0.0309023882233708
C og 0.029584070147617
P en 0.0253413695013101
P den 0.0248728148892572
T på 0.015317332743123
T til 0.0152345449047462
P det 0.0147142978135353
U at 0.0144963754376622
T af 0.014170235977948
The lemmas are tagged with one of the POS-markers from the table below. The including list contains words of any POS whereas the excluding list (ex-list in the table) only includes words of those POS marked with a dot.
Tag | POS | Example | Ex-list |
---|---|---|---|
A | adjective | god | • |
C | conjunction | og | • |
D | adverb | ud | • |
EW | POW lex.item | anti@ | • |
I | interjection | ja | • |
L | numeral | 13 | |
LW | POW numeral | 10 | |
M | POW morph.item | @erne | |
NC | common noun | år | • |
NP | proper noun | Danmark | |
NW | POW noun | tv | |
P | pronoun | den | • |
T | preposition | i | • |
U | "unique" | at, som, der | • |
V | verb | være | • |
POW in the liste above means 'part of word'. As hyphens and apostrophes are defined as word delimiters in the underlying corpus, some word parts occur in the including list. These belong to one of the following types:
The lemma frequency is a real number indicating the number of occurrences of all forms of the lemma in the underlying corpus divided by the size of the corpus in tokens. The underlying corpus is the 2024 version of the BAKSPEJLET Corpus which is used by the editorial staff of The Danish Dictionary. The corpus has a size of approximately 1100 million tokens and comprises text material from 1983 until 2024.
Before downloading this material, you must accept the conditions for copyright, use, and crediting that apply.