DSL-logo
Sprogteknologi // Language Technology

Go to English version 🇬🇧

Det Danske FrameNet-leksikon

Det danske FrameNet-leksikon indeholder 5.300 verber og 6.490 substantiver (med verbal betydning = verbalsubstantiver) fra Den Danske Begrebsordbog og Den Danske Ordbog, beskrevet i 33.930 forskellige udtryk (herunder ordet i ren form) med tilhørende Frame-værdi fra den internationale standard Berkeley FrameNet. Der er anvendt i alt 671 forskellige Frame-værdier til at beskrive de danske ord og udtryk.

Leksikonet er udarbejdet af Sanni Nimb, DSL, i 2016-17 i samarbejde med Københavns Universitet (Sussi Olsen, CST/NORS, og Anders Søgaard, DIKU).

De beskrevne ord og udtryk blev først udtrukket i rækkefølge fra semantiske grupper i Den Danske Begrebsordbogs grundmanuskript og efterfølgende tildelt en passende Frame-værdi fra Berkeley FrameNet i leksikonet. Da id-numre og gruppenumre fra udtrækningen er medtaget i leksikonet, kan man, ud over at sortere ordene ud fra Frame-værdien, også sortere dem ud fra den rækkefølge de står i fra start til slut i Begrebsordbogens 888 afsnit, eller ud fra de semantiske undergrupper de optræder i (i rækkefølge fra start til slut) i de 888 afsnit. Man kan dog ikke udtrække de enkelte afsnits (og tilsvarende kapitlers) titler, med andre ord er det ikke beskrevet i leksikonet hvilket afsnit et id eller gruppenr stammer fra.

Listen indeholder følgende tab-separerede oplysningstyper:

Oplysningstype Beskrivelse Eksempel
id Id-nummer svarende til ordets rækkefølge i udtræk af ord/udtryk i Den Danske Begrebsordbogs grundmanuskript Fx 791 for ordet beskadige; 34718 for ordet beskyde. Man kan udlede af numrene at beskadige står i et af de første kapitler i Begrebsordbogen, beskyde i et af de sidste
gruppenr Nummer der angiver semantisk gruppetilhørsforhold i Den Danske Begrebsordbogs grundmanuskript. Ord og udtryk med samme gruppenr. er semantisk beslægtede. Fx 1373: ord og udtryk med beslægtet betydning, i dette tilfælde inden for betydningen stilling/resultat i sport, fx 1-0-sejr
udtryk Ord eller udtryk med den pågældende Frame-værdi Fx abe efter; borteliminere; beskyldningerne flyver gennem luften
lemma Lemma som udtrykket stammer fra i DDO. Ved flerordsudtryk kun ét af lemmaerne Fx efter (i udtrykket abe efter); luft (i udtrykket beskyldningerne flyver gennem luften *); borteliminere* for ordet borteliminere
lemklas Lemmaets ordklasse Fx adv. for efter (i udtrykket abe efter); sb. for luft (i udtrykket beskyldningerne flyver gennem luften) og vb. for borteliminere
kernevb Det centrale verbum (lemma i DDO) der er indeholdt i udtrykket Fx abe for abe efter; borteliminere for borteliminere; flyve for udtrykket beskyldningerne flyver gennem luften
frame Tildelt Frame fra Berkeley FrameNet Fx Imitating for abe efter; Removing for borteliminere; Quarreling for udtrykket beskyldningerne flyver gennem luften
komm Eventuel kommentar til Frame-tildelingen Fx mangler når Berkeley FrameNet ikke har nogen ramme der dækker betydningen. Typisk er komm = Null (dvs.ingen kommentar)

Ord og udtryk kan bestå af et lemma fra DDO i ren form, fx verbet beskikke eller substantivet beplantning, et fast udtryk fra DDO (fx besinde sig), et lemma eller fast udtryk inklusive præpositioner fra valensmønstret i DDO, fx besinde sig på, et udtryk bestående af et lemma og en kollokation fra DDO, fx beskikke en forsvarer, eller et helt udfoldet udtryk fra DDO, fx beskyldningerne flyver gennem luften.

Et ord eller udtryk kan godt have den samme Frame-værdi flere gange. Det skyldes at ordet/udtrykket optræder i flere afsnit i Den Danske Begrebsordbog. Id-værdier og gruppenr-værdier er med andre ord forskellige i disse tilfælde.

Man kan læse om projektet og data i følgende artikler:

  1. Nimb: The Danish FrameNet Lexicon: Method and Lexical Coverage præsenteret på The International FrameNet Workshop 2018
  2. Pedersen, Nimb, Søgaard et al.: A Danish FrameNet Lexicon and an Annotated Corpus Used for Training and Evaluating a Semantic Frame Classifier præsenteret på LREC 2018 Conference
  3. 3. Nimb, Sanni; Braasch, Anna; Olsen, Sussi; Pedersen, Bolette Sandford; Søgaard, Anders From Thesaurus to FrameNet præsenteret på eLex 2017 conference

Download

Når du downloader filen, skal du acceptere følgende betingelser vedrørende kreditering.

Download her...


The Danish FrameNet Lexicon

The Danish FrameNet Lexicon is based on Den Danske Begrebsordbog (thesaurus of Danish) and The Danish Dictionary and it contains 5,300 verbs and 6,490 verbal nouns represented in 33,930 different expressions. Compilation was carried out in 2016-17 as a joint project between the University of Copenhagen (Sussi Olsen, CST and Anders Søgaard, DIKU) and Sanni Nimb at the Society for Danish Language and Literature. The project was financed by the Carlsberg Foundation.

The 33,930 words and expressions were transferred from Den Danske Begrebsordbog (The Danish Thesaurus) and assigned an appropriate frame value from the international standard Berkeley FrameNet. A total of 671 different frames were applied in the description of the Danish verb and verbal noun vocabulary (the verbs in the lexicon represent 80 % of the verb lemmas in the Danish Dictionary).

Apart from lemma, expression and frame, the lexicon also contains id-numbers depending on the order of the expression in the thesaurus, as well as group numbers referring to subgroups in the 888 thematic sections in the thesaurus manuscript. Due to this, the lexical data allows for the grouping of words and expressions into not only frame categories, but also into the (often more fine-grained) semantic groups in the Danish Thesaurus. However, the Danish titles of the 14 chapters and 888 sections are not included in the data, and not a part of the lexical information.

The spreadsheet data contain the following tab-separated types of information:

Info type Description Example
id Id-number representing the order in which the word or expression appears in the Danish Thesaurus manuscript e.g 791 for the verb beskadige (’harm’); 34718 for the verb beskyde (’shoot at’). Due to the numbers we know that beskadige occurs in one of the first chapters and sections in the Danish Thesaurus, and beskyde in one of the last ones
gruppenr Group number from the Danish Thesaurus manuscript, representing a close semantic relation between words with identical number e.g. 1373: words and expressions with a closely related sense, in this case ‘result in sports games’, e.g.1-0-sejr (‘1-0 victory’)
udtryk The word or expression in which the kernevb (= core verb) evokes the frame value Fx abe efter(’imitate; mimic’); borteliminere(’eliminate’); beskyldningerne flyver gennem luften (’the air is thick with accusations’)
lemma Lemma of which the entry contains description of the word sense / the expression in the Danish Dictionary DDO. In the case of multi word expressions only one of the lemmas. If not a verb, the kernevb presents the verb information instead E.g. efter (’after) (for the expression abe efter); luft (’air’) (in the expression beskyldningerne flyver gennem luften (’the air is thick with accusations’ *); borteliminere* (‘eliminate’) for the word borteliminere
lemklas Part of speech of the lemma adv. for efter (’after) (for the expression abe efter); sb. (noun) for luft (’air’) (in the expression beskyldningerne flyver gennem luften (’the air is thick with accusations’); vb. (verb) for borteliminere (‘eliminate’) for the word borteliminere; adj. (adjective)
kernevb Core verb of the expression e.g. abe for abe efter; borteliminere for borteliminere; flyve (’to fly’) in the expression beskyldningerne flyver gennem luften
frame Assigned frame from Berkeley FrameNet = the kernevb evokes the frame (in thisexpression) e.g. Imitating for abe efter; Removing for borteliminere; Quarreling for the expression beskyldningerne flyver gennem luften
komm Comments to the assignment of frame e.g. mangler (’missing’) in the cases where the Berkeley FrameNet inventory does not cover the sense. In most cases, komm = Null (= no comment)

Words and expressions either consist of

Words/expressions might be assigned the same frame value twice or more in the lexicon, however this is due to cases of multiple representations in the Danish Thesaurus, and id-number as well as group number will then differ.

More about the project and the data provided can be found in:

  1. Nimb: The Danish FrameNet Lexicon: Method and Lexical Coverage presented at The International FrameNet Workshop 2018
  2. Pedersen, Nimb, Søgaard et al.: A Danish FrameNet Lexicon and an Annotated Corpus Used for Training and Evaluating a Semantic Frame Classifier presented at the LREC 2018 Conference
  3. Nimb, Sanni; Braasch, Anna; Olsen, Sussi; Pedersen, Bolette Sandford; Søgaard, Anders From Thesaurus to FrameNet presented at eLex 2017 conference

Download

License: By downloading the Danish FrameNet Lexicon, you agree to the Danish FrameNet License.

Download here...