Sprogteknologi // Language Technology
Det danske FrameNet-leksikon indeholder 5.300 verber og 6.490 substantiver (med verbal betydning = verbalsubstantiver) fra Den Danske Begrebsordbog og Den Danske Ordbog, beskrevet i 33.930 forskellige udtryk (herunder ordet i ren form) med tilhørende Frame-værdi fra den internationale standard Berkeley FrameNet. Der er anvendt i alt 671 forskellige Frame-værdier til at beskrive de danske ord og udtryk.
Leksikonet er udarbejdet af Sanni Nimb, DSL, i 2016-17 i samarbejde med Københavns Universitet (Sussi Olsen, CST/NORS, og Anders Søgaard, DIKU).
De beskrevne ord og udtryk blev først udtrukket i rækkefølge fra semantiske grupper i Den Danske Begrebsordbogs grundmanuskript og efterfølgende tildelt en passende Frame-værdi fra Berkeley FrameNet i leksikonet. Da id-numre og gruppenumre fra udtrækningen er medtaget i leksikonet, kan man, ud over at sortere ordene ud fra Frame-værdien, også sortere dem ud fra den rækkefølge de står i fra start til slut i Begrebsordbogens 888 afsnit, eller ud fra de semantiske undergrupper de optræder i (i rækkefølge fra start til slut) i de 888 afsnit. Man kan dog ikke udtrække de enkelte afsnits (og tilsvarende kapitlers) titler, med andre ord er det ikke beskrevet i leksikonet hvilket afsnit et id eller gruppenr stammer fra.
Listen indeholder følgende tab-separerede oplysningstyper:
Oplysningstype | Beskrivelse | Eksempel |
---|---|---|
id | Id-nummer svarende til ordets rækkefølge i udtræk af ord/udtryk i Den Danske Begrebsordbogs grundmanuskript | Fx 791 for ordet beskadige; 34718 for ordet beskyde. Man kan udlede af numrene at beskadige står i et af de første kapitler i Begrebsordbogen, beskyde i et af de sidste |
gruppenr | Nummer der angiver semantisk gruppetilhørsforhold i Den Danske Begrebsordbogs grundmanuskript. Ord og udtryk med samme gruppenr. er semantisk beslægtede. | Fx 1373: ord og udtryk med beslægtet betydning, i dette tilfælde inden for betydningen stilling/resultat i sport, fx 1-0-sejr |
udtryk | Ord eller udtryk med den pågældende Frame-værdi | Fx abe efter; borteliminere; beskyldningerne flyver gennem luften |
lemma | Lemma som udtrykket stammer fra i DDO. Ved flerordsudtryk kun ét af lemmaerne | Fx efter (i udtrykket abe efter); luft (i udtrykket beskyldningerne flyver gennem luften *); borteliminere* for ordet borteliminere |
lemklas | Lemmaets ordklasse | Fx adv. for efter (i udtrykket abe efter); sb. for luft (i udtrykket beskyldningerne flyver gennem luften) og vb. for borteliminere |
kernevb | Det centrale verbum (lemma i DDO) der er indeholdt i udtrykket | Fx abe for abe efter; borteliminere for borteliminere; flyve for udtrykket beskyldningerne flyver gennem luften |
frame | Tildelt Frame fra Berkeley FrameNet | Fx Imitating for abe efter; Removing for borteliminere; Quarreling for udtrykket beskyldningerne flyver gennem luften |
komm | Eventuel kommentar til Frame-tildelingen | Fx mangler når Berkeley FrameNet ikke har nogen ramme der dækker betydningen. Typisk er komm = Null (dvs.ingen kommentar) |
Ord og udtryk kan bestå af et lemma fra DDO i ren form, fx verbet beskikke eller substantivet beplantning, et fast udtryk fra DDO (fx besinde sig), et lemma eller fast udtryk inklusive præpositioner fra valensmønstret i DDO, fx besinde sig på, et udtryk bestående af et lemma og en kollokation fra DDO, fx beskikke en forsvarer, eller et helt udfoldet udtryk fra DDO, fx beskyldningerne flyver gennem luften.
Et ord eller udtryk kan godt have den samme Frame-værdi flere gange. Det skyldes at ordet/udtrykket optræder i flere afsnit i Den Danske Begrebsordbog. Id-værdier og gruppenr-værdier er med andre ord forskellige i disse tilfælde.
Man kan læse om projektet og data i følgende artikler:
Når du downloader filen, skal du acceptere følgende betingelser vedrørende kreditering.
The Danish FrameNet Lexicon is based on Den Danske Begrebsordbog (thesaurus of Danish) and The Danish Dictionary and it contains 5,300 verbs and 6,490 verbal nouns represented in 33,930 different expressions. Compilation was carried out in 2016-17 as a joint project between the University of Copenhagen (Sussi Olsen, CST and Anders Søgaard, DIKU) and Sanni Nimb at the Society for Danish Language and Literature. The project was financed by the Carlsberg Foundation.
The 33,930 words and expressions were transferred from Den Danske Begrebsordbog (The Danish Thesaurus) and assigned an appropriate frame value from the international standard Berkeley FrameNet. A total of 671 different frames were applied in the description of the Danish verb and verbal noun vocabulary (the verbs in the lexicon represent 80 % of the verb lemmas in the Danish Dictionary).
Apart from lemma, expression and frame, the lexicon also contains id-numbers depending on the order of the expression in the thesaurus, as well as group numbers referring to subgroups in the 888 thematic sections in the thesaurus manuscript. Due to this, the lexical data allows for the grouping of words and expressions into not only frame categories, but also into the (often more fine-grained) semantic groups in the Danish Thesaurus. However, the Danish titles of the 14 chapters and 888 sections are not included in the data, and not a part of the lexical information.
The spreadsheet data contain the following tab-separated types of information:
Info type | Description | Example |
---|---|---|
id | Id-number representing the order in which the word or expression appears in the Danish Thesaurus manuscript | e.g 791 for the verb beskadige (’harm’); 34718 for the verb beskyde (’shoot at’). Due to the numbers we know that beskadige occurs in one of the first chapters and sections in the Danish Thesaurus, and beskyde in one of the last ones |
gruppenr | Group number from the Danish Thesaurus manuscript, representing a close semantic relation between words with identical number | e.g. 1373: words and expressions with a closely related sense, in this case ‘result in sports games’, e.g.1-0-sejr (‘1-0 victory’) |
udtryk | The word or expression in which the kernevb (= core verb) evokes the frame value | Fx abe efter(’imitate; mimic’); borteliminere(’eliminate’); beskyldningerne flyver gennem luften (’the air is thick with accusations’) |
lemma | Lemma of which the entry contains description of the word sense / the expression in the Danish Dictionary DDO. In the case of multi word expressions only one of the lemmas. If not a verb, the kernevb presents the verb information instead | E.g. efter (’after) (for the expression abe efter); luft (’air’) (in the expression beskyldningerne flyver gennem luften (’the air is thick with accusations’ *); borteliminere* (‘eliminate’) for the word borteliminere |
lemklas | Part of speech of the lemma | adv. for efter (’after) (for the expression abe efter); sb. (noun) for luft (’air’) (in the expression beskyldningerne flyver gennem luften (’the air is thick with accusations’); vb. (verb) for borteliminere (‘eliminate’) for the word borteliminere; adj. (adjective) |
kernevb | Core verb of the expression | e.g. abe for abe efter; borteliminere for borteliminere; flyve (’to fly’) in the expression beskyldningerne flyver gennem luften |
frame | Assigned frame from Berkeley FrameNet = the kernevb evokes the frame (in thisexpression) | e.g. Imitating for abe efter; Removing for borteliminere; Quarreling for the expression beskyldningerne flyver gennem luften |
komm | Comments to the assignment of frame | e.g. mangler (’missing’) in the cases where the Berkeley FrameNet inventory does not cover the sense. In most cases, komm = Null (= no comment) |
Words and expressions either consist of
The lemma itself (as represented in DDO), e.g. the verb beskikke (’to appoint’) in infinitive form or the noun beplantning (planting’)
A fixed expression from DDO (verb in infinitive form), fx besinde sig (’collect oneself’); besinde sig på (‘to consider’)
A verb or fixed expression (in infinitive form) including a preposition or particle (adverbium) being part of the described valency pattern in DDO, e.g. ruge over (‘to brood on/over’); benytte sig af at (‘to take advantage of the fact that’), sometimes also including the prepositional object (benytte sig af chancen ‘(‘to take advantage of the opportunity’
A verb in infinitive form including the object: riste kaffe (‘to roast coffee’), rive hul (‘tear a hole’), e.g. beskikke en forsvarer (’to assign counsel’)
Other types of (verbal) collocational expressions from DDO (in infinitive form): bidrage positivt til (‘make a positive contribution to’)
A whole sentence with the verb in present tense, e.g. beskyldningerne flyver gennem luften (’the air is thick with accusations’)
Words/expressions might be assigned the same frame value twice or more in the lexicon, however this is due to cases of multiple representations in the Danish Thesaurus, and id-number as well as group number will then differ.
More about the project and the data provided can be found in:
License: By downloading the Danish FrameNet Lexicon, you agree to the Danish FrameNet License.