DSL-logo

Generelt om korpusser i CoREST

Typer af korpusser

CoREST opererer med tre slags korpusser, der falder i to grupper, nemlig sammensatte og ikke-sammensatte korpusser:

  1. Unikorpus: ikke-sammensat, ét helt korpus
  2. Multikorpus: sammensat af omtrent lige store delkorpusser
  3. Hybridkorpus: sammensat af to delkorpusser, et stort uforanderligt og et lille, der løbende opdateres.

Korpustypernes forskellige egenskaber vil blive beskrevet mere detaljeret i det følgende.

Unikorpus

Et unikorpus udgør én helhed, det er ikke sat sammen af enkelte, i princippet selvstændige, delkorpusser, men står for sig. Unikorpusser er standardkorpustypen i CoREST. En søgning i et unikorpus gennemsøger altid hele korpus på én gang og frembringer som resultater én ordliste og én konkordans for hele korpus. KORPUS-DK er et eksempel på et unikorpus. Her i manualen beror alle eksempler på unikorpusset KORPUS-DK med mindre andet er oplyst.

Multikorpus

Et multikorpus består af flere, omtrent lige store delkorpusser. Disse delkorpusser kan i princippet også være tilgængelige som unikorpusser i CoREST. Kriteriet for opdelingen i delkorpusser er oftest tilblivelsestidspunktet for teksterne. Således vil et delkorpus typisk indeholde materiale fra en bestemt periode, fx en årrække eller et enkelt år. Multikorpusset -TiDK 2018 består således af ét delkorpus per år for perioden 2008-2017. I korpusvælgeren kan et multikorpus kendes på, at dets navn begynder med en bindestreg. -KORPUS-DK er en multikorpusudgave af KORPUS-DK og består af tre delkorpusser: KORPUS-90, KORPUS-2000 og KORPUS-2010. En søgning i et multikorpus vil altid præsentere resultaterne for hvert delkorpus for sig, dvs. én konkordans per delkorpus, én ordliste osv. Opsplitningen gør det muligt at lave sammenlignende undersøgelser af resultaterne for de forskellige delkorpusser. Resultater kan også præsenteres i form af diagrammer.

Fordele og ulemper ved uni- over for multikorpusser

Fordele og ulemper illustreres her med udgangspunkt i multikorpusser.

Fordele ved multikorpusser:

Ulemper ved multikorpusser:

For unikorpusser forholder det sig omvendt med fordelene og ulemperne: ingen grafiske oversigter, tidskrævende vedligeholdelse for meget store korpusser. Dette står over for visning af samtlige resultater og brugerannoteringer på en gang.

Hybridkorpus

Et hybridkorpus kan betragtes som en blanding af et uni- og et multikorpus. Et hybridkorpus er sammensat af to delkorpusser, hvoraf det ene er et stort uforanderligt basiskorpus og det andet et mindre supplementkorpus, som løbende kan opdateres med aktuelle tekster. Hybridkorpusser kan ses som et kompromis mellem de fordele og ulemper, der hver især er ved uni- og multikorpusser.

Resultater vises i to grupper: for det store basiskorpus og for det aktuelle supplementkorpus, hver for sig. Ved sproglige undersøgelser (dvs. fortolkning af konkordanser, ordlister og annotering af fund), bør du bruge resultaterne fra basiskorpusset. Du bør kun inddrage supplementkorpusset ved undersøgelsen af sproglige fænomener, som er særligt udprægede her. CoREST kan også vise en grafisk fordeling af de relative forekomster af et sprogligt fænomen mellem basis- og supplementkorpusset i form af et lagkagediagram.

Indtil videre findes der i CoREST kun ét hybridkorpus, nemlig -BAKSPEJLET#, som kun er tilgængelig i DSL-udgaven, og som bruges internt på Den Danske Ordbogs redaktion ved udarbejdelsen af ordbogsartikler.

I korpusvælgeren kan multikorpusser kendes på, at deres navn begynder med en bindestreg, fx -KORPUS-DK og -TiDK. Mens hybridkorpusser kan kendes på, at deres navn begynder med en bindestreg og slutter med en havelåge. Søger du i multikorpusser, vil du ud over en konkordans få en grafisk oversigt med det relative antal af fund i de forskellige delkorpusser.

Korpusstruktur

Med korpusstrukturen menes opbygningen af et korpus med henblik på, hvilke ordoplysninger og tekstoplysninger der findes. Svarer de til det princip, som gælder for KORPUS-DK og dermed er beskrevet i manualen her, er der tale om en CoREST-struktur. Er der andre ord- og tekstoplysninger på spil, har pågældende korpus en speciel struktur.

Korpusser i CoREST

Den følgende tabel giver et overblik over samtlige korpusser, som er tilgængelige i de forskellige udgaver af CoREST. På de følgende sider i manualen er der flere oplysninger at hente for de fleste af disse korpusser.

• = med i CoREST-udgave
Navn Type Struktur Standard Research Ømål DSL
KORPUS-DK uni CoREST
-KORPUS-DK multi CoREST
-TiDK-2xxx multi CoREST
WIKIPEDIA uni CoREST
SDEWAC uni speciel
DIAKO uni speciel
-BAKSPEJLET multi CoREST
-BAKSPEJLET# hybrid CoREST
DDO-CLASSIC uni CoREST
S-90 uni speciel
SPORDHUND uni CoREST