<-

Vejledning til korpusværktøjet ...

Denne vejledning gælder Semaskop version 1.0 af 2. april 2001, som kan downloades som Korpus 2000-testversion fra DSL's hjemmeside www.dsl.dk



Vejledningen vil løbende blive udvidet med nye eksempler, jf. www.dsl.dk/korpus2000

Seneste rettelser og tilføjelser i den foreliggende version af vejledningen: 03.10.2001

Forslag til rettelser m.m. kan sendes til: korpus2000@dsl.dk


Oversigt

  1. KORPUSUNDERSØGELSER MED SEMASKOP [^]
    1. Semaskop-vinduets opbygning
      1. Kommandopanelet
      2. Konkordansområdet
      3. Oplysningsområdet
      4. Statusområdet
    2. Efter start af Semaskop
    3. Undersøgelsestyper
    4. Konkordans på ordform
      1. Konkordansområdets opbygning og funktion
        1. Manøvrering
        2. Kontekstens bredde
        3. Specielle tegn
        4. Nøgleordets placering
      2. Styrepanelet
      3. Markering og sletning af konkordanslinjer
      4. Mærkning af konkordanslinjer
      5. Sortering af konkordanser
      6. Arkivering af konkordanser
      7. Mere kontekst
      8. Flere oplysninger om teksten: tekstinfo
      9. Flere oplysninger om konteksten: naboer
      10. Flere oplysninger om søgeordet: endelser og begyndelser
      11. Ordformerne i korpus: ordliste
      12. Eksport af undersøgelsesresultater
    5. Konkordans på lemma
      1. Grammatiske og ortografiske varianter
    6. Udvid konkordans
    7. Filtrér konkordans
    8. Indstillinger
  2. FILERNE I SEMASKOP-SYSTEMET[^]
    1. Program- og indstillingsfil
    2. Korpusfiler og korpusopsætningsfil
    3. Korpusopsætningsfilens opbygning
    4. Sessionsprotokollen
    5. Standardopsætning af Semaskop-systemet
  3. TASTATURGENVEJE[^]
    1. Generelle tastaturgenveje
    2. Specielle tastaturgenveje
      1. Konkordansområdet er aktivt
      2. Kontekstområdet er aktivt
      3. Tekstinfo-området er aktivt
      4. Området med nabo-ord er aktivt
      5. Området med begyndelser el. endelser er aktivt
      6. Området med varianter er aktivt
      7. Området med ordlisten er aktivt

[^]



1. KORPUSUNDERSØGELSER MED SEMASKOP [^]

I det følgende vil de forskellige faciliteter i Semaskop blive gennemgået med udgangspunkt i en række eksempler. På Korpus 2000's hjemmeside www.dsl.dk/korpus 2000 vil der med tiden blive offentliggjort flere eksempler på sproglige spørgsmål, som man ved hjælp af Semaskop selv kan finde svar på. Det korpus, som ligger til grund for eksemplerne i denne vejledning, er en særlig version af Den Danske Ordbogs Korpus (DDO-Korpus) på 36 millioner ords tekst (den fulde version er på 40 millioner ords tekst). DDO-Korpus indeholder i øvrigt også DK87-90 Korpus og dele af Parole-Korpus.

I download-versionen af Semaskop medfølger der et lille test-korpus, Parole-Korpus, som er på 250.000 ord. Mange af eksemplerne i denne vejledning kan også afprøves på Parole-Korpusset. På grund af dets meget begrænsede omfang på kun en kvart million ord vil resultaterne dog ikke kunne bruges som grundlag for principielle udsagn om dansk sprogbrug. Der henvises derfor til de øvrige DSL-korpora, som kan downloades fra www.dsl.dk eller rekvireres på cd-rom hos DSL, nemlig DK87-90 på 4 millioner ord, DDO-Korpus på 36 millioner ord eller – fra august 2002 – Korpus 2000 på mindst 20 millioner ord.

[^]


1.1 Semaskop-vinduets opbygning [^]

Semaskop-vinduet er delt op i fire vandrette områder:






[^] Det første områder et kommandopanel, som består af et indtastningsfelt til venstre samt fem knapper til styring af en række af Semaskops grundlæggende funktioner. Knappen udfør skifter betegnelse afhængigt af undersøgelsestype (dette beskrives nærmere i afsnittene om de forskellige undersøgelsestyper), og bruges til at starte søgningen på det indtastede ord. gem gemmer konkordansen, hent henter gemte konkordanser frem, og eksporter eksporterer resultaterne i form af en tekstfil. Knappen indstillinger omtales nærmere i afsnit 1.8.

[^] Det andet område er konkordansområdet, hvor konkordanslinjerne vises. Ved at klikke på bjælken øverst i konkordansområdet kan man styre, om nøgleordet skal stå midt i vinduet, eller om man hellere vil se mere af teksten på henholdsvis højre eller venstre side. Nederst er der et styrepanel, hvor man kan se antallet af forekomster, og hvor mange af forekomsterne der vises. Knappen reducer gør det muligt at reducere antallet af viste forekomster, og ved hjælp af mærk kan man markere konkordanslinjerne for eksempel ud fra deres betydning (se afsnit 1.4.4).

På den lodrette bjælke i venstre side af billedet er der en markør, der angiver hvor mange konkordanslinjer, det er muligt at se på én gang. Ved at klikke på bjælken kan man gøre konkordansområdet større eller mindre efter behov.

[^] Det tredje område er oplysningsområdet, hvor man finder supplerende oplysninger i relation til en konkordans eller et bestemt søgeord. Oplysningsområdet er delt op i en oversigt over ordformer (i det følgende ordformområdet) i korpus og et vindue til øvrige oplysninger (info-området i det følgende).

[^] Det fjerde og sidste område er statusområdet. Her vises blandt andet programmets versionsnummer, og man kan se, hvor langt Semaskop er i opstillingen af konkordansen eller andre beregninger. Ved længerevarende processer fremkommer knappen afbryd i højre side – det er dog ikke alle processer, der kan afbrydes.

[^]


1.2 Efter start af Semaskop [^]

Når Semaskop startes, åbnes det sidstanvendte korpus. Under fanen korpusinfo ses hvilket korpus, der er tale om, og hvor stort det er. Det er muligt at skifte til et andet korpus ved at vælge knappen skift korpus.




Semaskop er nu klar til brug: Indtastningsfeltet er aktivt, og en markør står og blinker i feltet. De forskellige områder kan aktiveres ved tryk på tabulatortasten eller med musen. Et aktivt område er hvidt, mens de passive områder er lysegrå. Farverne kan ændres under indstillinger ved at vælge fanebladet fremtoning.

[^]


1.3 Undersøgelsestyper[^]

Når man indtaster et ord i søgefeltet og vælger udfør, kommer der et vindue frem på skærmen med følgende indhold:


Vinduet indeholder en liste over undersøgelsestyper i Semaskop. Under punktet Bogstavelig kan man vælge, om man kun er interesseret i de forekomster, der nøjagtigt matcher søgeordet – for eksempel hund udelukkende med små bogstaver – eller om man også vil se varianter for eksempel med stort begyndelsesbogstav (Hund) eller skrevet udelukkende med store bogstaver (HUND). Punktet kan vælges ved at klikke med musen eller taste Alt-b.

De forskellige undersøgelsestyper kan vælges med musen eller ved at taste Alt efterfulgt af tegnet i de kantede parenteser. Dette gælder dog ikke listerne over ordbegyndelser og -endelser, hvor der tastes henholdsvis Alt-d og Alt-y.

Man kan helt undgå at skulle søge via vinduet med undersøgelsestyper, hvis man før søgeordet taster det tegn, der står i de kantede parenteser (et såkaldt præfiks). Hvis man for eksempel kun vil søge på ordformen, taster man -hund, mens man skriver hund* for at finde alle de ord, der starter med hund. I eksemplerne nedenfor anvendes søgemetoden med præfikser, men alle undersøgelserne kan naturligvis også foretages ved at vælge undersøgelsestype på en af de andre beskrevne måder.

Undersøgelsestyperne beskrives nærmere i følgende afsnit:

[^]


1.4 Konkordans på ordform [^]

Semaskops primære funktion er at kunne opstille konkordanser. Konkordanser er oversigter, der viser et bestemt ord i alle de kontekster, som det optræder i i det valgte korpus. Disse konkordanser kan herefter bearbejdes i Semaskop på forskellig vis, og de kan danne udgangspunkt for andre undersøgelser for eksempel af statistisk art.

Ved en ordform forstås et ord, sådan som det optræder i en tekst for eksempel husene, gjort eller mindre. I en ordbog er disse ord typisk kun opført under deres grundformer (hus, gøre, lille). Hvis man kun er interesseret i en konkordans over en bestemt ordform, skal man skrive nøjagtigt den form som søgeord - for eksempel husene (se i afsnit 1.5, hvordan man finder alle former af et ord i én søgning). Semaskop søger ret mekanisk efter ordformer. Er man for eksempel interesseret i at finde den bestemte form af substantivet lam, altså lammet, finder Semaskop frem til alle ordformer, som bogstaveligt svarer til lammet. Det vil sige, at konkordansen også indeholder præteritum participium-formen (kort tillægsform) lammet af verbet at lamme.

Hvis man vil undersøge forekomster af ordformen fyr, indtastes -fyr. Knappen udfør skifter samtidig betegnelse til ny konkordans. Tast herefter retur eller klik på ny konkordans. Da Semaskop tager ordformen fyr ret bogstaveligt, indeholder konkordansen eksempler på både substantivet fyr i fælleskøn og substantivet fyr i intetkøn - Semaskop skelner ikke mellem disse to varianter. Semaskop kan nemlig ikke skelne mellem forskellige ordklasser, bøjninger eller betydninger af ord. Med hensyn til stavemåden derimod laver Semaskop dog en række generaliseringer, der kan ses i ordformområdet under det aktive faneblad varianter. Her viser Semaskop de varianter af en ordform, som er taget med i konkordansen.




Efter de enkelte ordformer oplyses i kantede parenteser, hvor mange gange de forekommer i korpus. I tilfældet fyr ses varianterne fyr, FYR, Fyr, Für og für. Især de to sidste varianter giver anledning til bekymring, idet der her sandsynligvis er tale om en tysk præposition (forholdsord), der spøger visse steder i DDO-Korpus. Hvordan man sletter den slags uønskede varianter, forklares i afsnit 1.4.3 om markering og sletning af konkordanslinjer.

[^]


    1.4.1 Konkordansområdets opbygning og funktion [^]

Konkordansen med fyr danner baggrund for en gennemgang af faciliteterne i Semaskop. I selve konkordansområdet ses de enkelte linjer med nøgleordet fyr i midten. Nøgleordet er fremhævet med blå og fed. Konkordansens skrifttype samt indstillingerne for nøgleordet kan ændres under indstillinger (eller tast Alt-i). Vælg fanebladet fremtoning og følg menuen.




[^] Manøvrering: Når konkordansen er oprettet, bliver konkordansområdet automatisk til det aktive område, og den første konkordanslinje er markeret. Med tasterne pil-ned og pil-op kan man navigere i konkordansen. I linjenummerfeltet vises den aktuelt markerede konkordanslinjes nummer. Ruller man så langt ned i konkordansen som muligt, kan man konstatere, at man på denne måde kun kan komme til linje 100, selvom fyr-konkordansen har 1759 linjer. Det skyldes, at en konkordans altid deles op i sider à 100 linjer. Adgang til de enkelte sider fås ved at klikke på de nummererede (0, 100, 200, 300, ...) faneblade allernederst i konkordansområdet. Ønsker man at kende konkordanslinjens præcise nummer, lægges fanebladets nummer sammen med tallet i linjenummerfeltet yderst til højre i konkordansområdet (sidste linje i fyr-konkordansen er dermed nummer 1759).

Man kan blade i konkordansen på flere måder: 1) ved at bruge pil-højre og pil-venstre, 2) ved at klikke på pil-knappen til venstre for linjenummerfeltet eller 3) ved at taste Alt-[bindestreg]. I de to sidste tilfælde kommer der en oversigt over samtlige fanebladsnumre frem. Her kan man med piletasterne rulle hen til den side, man vil have vist og taste retur. Derudover kan man ved tryk på Home- og End-tasten sætte konkordanslinjemarkøren på en konkordanssides henholdsvis første og sidste linje, mens side-op- og side-ned-tasterne ruller et konkordansområdeudsnit henholdsvis opad og nedad i konkordansen. [^]

[^] Kontekstens bredde: Kontekstens bredde omkring selve nøgleordet er fastlagt i Semaskop som et antal såkaldte standardord til højre og venstre for nøgleordet. Semaskop holder internt styr på et korpus ved at inddele det i standardord, som er ord på op omkring 7 bogstaver - lange ord tæller som to eller flere standardord. Konteksten begrænses således hverken af sætningsgrænser såsom punktummer, linjeskift, afsnit eller lignende, men alene af antallet af standardord omkring nøgleordet. [^]

[^] Specielle tegn: I en konkordanslinje kan der forekomme visse tegn, som Semaskop ikke umiddelbart kan vise i en konkordans. Det er som oftest de tegn, der i den oprindelige tekst angiver linjeskift. Disse tegn vises som firkanter eller lignende i konkordanslinjerne. Et linjeskift optræder typisk som to firkanter efter hinanden i en konkordanslinje. [^]

[^] Nøgleordets placering: Ved at klikke på bjælken øverst i konkordansområdet kan man styre, om nøgleordet skal stå midt i vinduet, eller om man hellere vil se mere af teksten på henholdsvis højre eller venstre side. Man kan dog ikke få vilkårligt meget kontekst at se omkring nøgleordet, da den er begrænset til et antal standardord på begge sider af nøgleordet. Den kontekst, der ligger ud over standardordene, kan ikke umiddelbart vises.

[^]


    1.4.2 Styrepanelet [^]

Nederst i konkordansområdet ses styrepanelet, som giver forskellige oplysninger om konkordansen og gør det muligt at bearbejde den.




Længst til venstre oplyses efter antal, hvor mange forekomster søgeordet har i korpus. Dette tal svarer som udgangspunkt til antallet af konkordanslinjer. Ordformen fyr har 1759 forekomster og heraf vises i den aktuelle konkordans 1759, som det ses af tallet efter viser. Antallet af viste konkordanslinjer i en konkordans kan reduceres, hvilket er nyttigt, hvis man for eksempel vil skaffe sig et overblik over en ordforms grundlæggende betydninger. Til dette brug er 100-200 konkordanslinjer som regel tilstrækkelige. Antallet af konkordanslinjer i en konkordans kan reduceres ved at klikke på knappen reducer eller ved at taste e. I dialogen på skærmen er der tre reduktionsmuligheder: 1) fjern markerede linjer, 2) reducér til et bestemt antal linjer eller 3) reducér til et antal procent.

[^]


    1.4.3 Markering og sletning af konkordanslinjer [^]

Konkordanslinjerne skal markeres, før de kan fjernes. Dette kan gøres på flere måder. Ønsker man for eksempel at markere Für- eller für-varianterne i fyr-konkordansen for at slette dem, kan man gøre det manuelt enten ved at flytte musen hen på de linjer, der skal markeres eller ved at manøvrere med piletasterne, og i begge tilfælde samtidig holde shift-tasten nede. De markerede linjer fremhæves med rødt.




Herefter aktiveres knappen reducer og 'fjern markerede linjer' vælges (alternativt tastes e). Markeringen kan i øvrigt fortrydes på samme måde. Für- og für-varianterne kan også vælges over ordformområdet ved at trykke Alt-a, stille markøren på varianten og dobbeltklikke med musen. Konkordanslinjemarkøren stiller sig herefter på første forekomst af Für, og varianterne markeres som ovenfor.




Efter sletningen kan man overbevise sig om, at de markerede linjer er væk ved atter at springe til konkordansens sidste linje. Desuden kan man i kontrolpanelet under konkordansen se, at der nu kun vises 1722 linjer af de i alt 1759 af fyr med ortografiske varianter, netop det, der bliver tilbage, når man fjerner für-varianterne.

[^]


    1.4.4 Mærkning af konkordanslinjer [^]

Vil man se nærmere på de forskellige betydninger, som ordformen fyr optræder i i konkordansen, kan man tage udgangspunkt i hele konkordansen, fjerne für-varianterne og herefter reducere konkordansen til 50 linjer for overskuelighedens skyld. Betragter man linjerne, kan man hurtigt se, at der forekommer flere forskellige betydninger af fyr. Hver betydning kan markeres med et tal mellem 1 og 9 ved at sætte konkordanslinjemarkøren på linjerne og klikke på knappen mærk. Herefter dukker en lille menu med tallene 1 til 9 og 0 op. I menuen vælges tallet 1. Tallet på den blå baggrund i begyndelsen af den markerede konkordanslinje skifter nu fra grundværdien 0 til 1, samtidig fremhæves nøgleordet fyr i den pågældende linje med en gul baggrund. I stedet for at bruge musen kan man blot taste 1, når konkordansområdet er aktivt, eller man kan taste k, hvorefter menuen kommer op. Der vælges med pil-op eller pil-ned og afsluttes med retur.




På denne måde kan hver linje i konkordansen mærkes med en talværdi, således at linjer med samme talværdi har noget til fælles, her altså betydningen. Man ændrer i øvrigt en mærkning blot ved at mærke linjen med den nye værdi. Man fjerner en mærkning ved at mærke linjen med 0, som er grundværdien med betydningen 'ej mærket'. Man kan også mærke en hel gruppe linjer på en gang ved at markere dem med rødt og dernæst klikke/taste den ønskede mærkning. Denne metode virker dog kun inden for den aktuelle konkordansside. Har man også markeret linjer på andre konkordanssider, vil disse ikke blive berørt af mærkningen. Skal disse også mærkes, må man blade frem til dem og gentage mærkningen.

[^]


    1.4.5 Sortering af konkordanser [^]

Når hele konkordansen er mærket, kan den ordnes den efter betydninger. Dette sker på følgende måde: Klik på knappen m under 'orden' helt til venstre i konkordansstyrepanelet. Alternativt tast m. Konkordansen vises sorteret efter mærkninger, og inden for hver mærkning sorteres linjerne endvidere efter højre kontekst. Man kan også få vist hele konkordansen uden hensyn til mærkninger kun sorteret efter højre kontekst ved at klikke på knappen h eller ved at taste h. Skal der ikke tages hensyn til skilletegn (komma, punktum etc.) og ordmellemrum, skal der altså sorteres alene efter ord til højre for nøgleordet, kan man klikke på knappen H eller taste H (et stort H). Tilsvarende kan man få vist konkordansen sorteret efter kontekst eller ord til venstre for nøgleordet. Vælges kontekstsortering her skal man være opmærksom på, at konteksten til venstre for nøgleordet går fra højre mod venstre, og sorteringen er tilsvarende spejlvendt (eller bagvendt) i forhold til sortering på højre kontekst. Sortering er især nyttig, hvis man er interesseret i at få ord med samme endelser grupperet til venstre for nøgleordet. Lidt anderledes forholder det sig, når der sorteres på ord i venstre kontekst, idet sorteringen først tager udgangspunkt i det første hele ord til venstre for nøgleordet og sorterer efter det på normal vis, således at ord, der begynder med a kommer før ord, der begynder med b osv. Når der således er sorteret efter det første ord til venstre for nøgleordet, tages det næste ord til venstre for på samme måde og så fremdeles.




Bortset fra ja- og nej-knappen under 'udsnit' er samtlige faciliteter i konkordansområdet nu gennemgået. Under gennemgangen blev der opstillet en betydningsopdelt konkordans på 50 eksempler med ordformen fyr. Ønsker man at bevare denne konkordans (og ikke mindst den tilknyttede mærkning), skal den gemmes.

[^]


    1.4.6 Arkivering af konkordanser [^]

En konkordans gemmes ved at klikke på knappen gem eller ved at taste Alt-g. I dialogen foreslås et filnavn for konkordansen. Filnavnet kan naturligvis ændres, men navnet skal overholde den gamle konvention med, at det kun må være på højst otte bogstaver efterfulgt af punktum og endelsen kon. Dialogen viser også, hvilket bibliotek konkordansen vil blive gemt i. Man bør til enhver tid sikre sig, at det er det rette resultatbibliotek.




Det er kun konkordansen inklusive mærkningen, der gemmes. Andre oplysninger afledt af konkordansen gemmes ikke, men vil hurtigt kunne genetableres på baggrund af den. Oplysningen om det oprindelige samlede antal forekomster, som konkordansens nøgleord har i korpus, vil dog gå tabt. Der vil derfor fremkomme et spørgsmålstegn i det felt, hvor det samlede antal forekomster normalt oplyses, når man henter en gemt konkordans fra arkivet.

En konkordans hentes fra arkivet ved at klikke på hent eller ved at taste Alt-n.

Formatet, som Semaskop bruger til at gemme konkordanser i, er ret pladskrævende, da det kun er optimeret med henblik på den størst mulige hastighed. Det frarådes at gemme uredigerede konkordanser, altså konkordanser, der hverken er reduceret eller betydningsmærket, da det normalt vil være lige så nemt at genskabe dem ved endnu en søgning som at hente dem fra arkivet.

[^]


    1.4.7 Mere kontekst [^]

Skal man danne sig et indtryk af ords betydninger og brug i løbende tekst, er det nødvendigt at have tilstrækkelig meget kontekst at bedømme ud fra. I linje 4 i den reducerede og betydningsmærkede fyr-konkordans (Den lille fyr havde åbenbart været så uheldig, at...), er det ikke umiddelbart til at se, hvilken slags fyr, der er tale om. Noget (lille fyr og sugekopper) tyder på, at der kan være tale om et dyr, men hvilket? Ved at flytte nøgleordsmarkøren langt til højre fås så tilstrækkelig meget kontekst til venstre for, at man kan se, at der åbenbart er tale om en gekko. Sommetider kan det blive nødvendigt at få endnu mere kontekst at se. Ved at klikke på fanebladet kontekst i info-området eller ved at taste Alt-k kan man få mere kontekst at se i info-området. Konteksten er dog begrænset til, hvad der må anses som forsvarligt ifølge citatretten.




Vælges kontekstfanebladet, bliver kontekstfeltet til det aktive område i Semaskop. Med piletasterne kan man nu styre rundt i feltet. Faktisk er kontekstfeltet en lille teksteditor, hvor man kan redigere i konteksten, og hvorfra man kan kopiere kontekst og sætte den ind i andre dokumenter. Tekst kopieres herfra ved enten at taste Ctrl-C eller Ctrl-Insert.

Konkordansområdet kan gøres aktivt igen ved to gange at trykke på tabulatortasten eller ved at klikke på dette område med musen. Så længe kontekstfanebladet er valgt, vil man i info-området automatisk kunne se den bredere kontekst for den konkordanslinje, som konkordanslinjemarkøren står på.

[^]


    1.4.8 Flere oplysninger om teksten: tekstinfo [^]

Hvis der til teksterne i et korpus er knyttet særlige tekstoplysninger, kan de ses ved at vælge fanebladet tekstinfo i info-området (vælges enten med musen eller ved at taste Alt-t).




[^]


    1.4.9 Flere oplysninger om konteksten: naboer [^]

Ud fra konteksten omkring et nøgleord kan man som regel udlede, i hvilken betydning ordet er brugt. Imidlertid kan det hurtig blive en ret uoverskuelig opgave at gennemgå en stor konkordans på måske over 1000 eksempler og klassificere dem for eksempel ved at mærke konkordanslinjerne én efter én. Et mere systematisk indtryk af de forskellige kontekster kan man få ved at benytte funktionen naboer.

Når fyr-konkordansen er opstillet, tastes enten Alt-b eller der klikkes med musen på fanebladet naboer i info-området. I statusområdet vises nu meddelelsen ”Samler naboer” og efter nogen tid vises følgende ordliste:




Man måler typiskheden af naboord ved at beregne, hvor ofte naboordet er til stede inden for en afstand af fire ord til hver side af nøgleordet set i forhold til, hvor ofte nøgle- og naboord forekommer hver for sig og i forbindelse med andre ord i korpusset. Fyr optræder som bekendt 1759 gange i korpusset, og en søgning på for eksempel -flamme giver 192 forekomster. Sammen (i forbindelsen fyr og flamme) forekommer de to ord 22 gange. Hvis flamme optræder mindst ti gange så ofte som nabo til fyr som det i gennemsnit forekommer som nabo til et hvilket som helst andet ord i korpusset, betegner man det som en typisk nabo, og som man kan se i Semaskops beregning af naboer er det netop tilfældet.

Man skal være opmærksom på, at det ikke giver nogen mening at opstille lister over typiske naboord på baggrund af en for lille konkordans – den bør være på mindst 200 linjer, ellers kan listen over naboord let blive for tilfældig. Ofte er det end ikke muligt i disse tilfælde overhovedet at opstille en liste over typiske naboer: den vil da være tom. Det gælder for eksempel for ordformen bjergfyr, der kun har 20 forekomster i DDO's Korpus.

Efter typiskhedsværdien følger et af de tre tegn -, < eller >. Bindestregen (-) betyder, at pågældende nabo-ord optræder både til venstre og til højre for nøgleordet; < betyder, at pågældende nabo-ord kun optræder til venstre for nøgleordet. Disse ord er fremhævet med rødt. Endelig betyder >, at pågældende nabo-ord kun optræder til højre for nøgleordet. Disse ord er fremhævet med grønt.

Når fanebladet naboer er aktivt, kan man med piletasterne rulle gennem listen fra naboord til naboord. Samtidig vises i konkordansområdet det udsnit af konkordansen, hvor pågældende naboord optræder:






Listen over typiske ord giver os et indtryk af, hvordan man bruger ordet fyr, især i hvilke mere eller mindre faste udtryk og udsagn det indgår i. En fyr (i betydningen 'mand') forestiller sprogbrugerne sig altså åbenbart typisk som høj, ung, flot, pæn og flink. Det er desuden åbenbart en, man typisk møder og går i seng med. De typiske naboer afslører altså tydeligvis, hvilke egenskaber og handlinger man typisk forbinder med en fyr. Derudover får man ved hjælp af typiskheden øje på en række særlige faste ordforbindelser (for eksempel fyr og flamme)

Ved hjælp af naboerne får man hurtigt et overblik over, hvilken betydning et ord optræder i, og dermed bliver det mere overskueligt for eksempel at mærke de enkelte linjer med betydningsnumre.

Listen over naboord kan også ordnes efter hyppighed. Det gøres ved at klikke på knappen hyp eller ved at taste h (når området med nabo-ord er aktivt).






Når naboerne vises ordnede efter hyppighed, kan man slå tærskelen fra, og således også få vist de mere sjældne naboer til et bestemt ord, altså dem, hvis forekomsttal ligger på eller under tærskelværdien, som i fyrs tilfælde er 13. Af ovenstående liste ses tydeligt, at typiskhed bestemt ikke er det samme som hyppighed: Det hyppigste naboord til fyr er en, som forekommer 1047 gange som nabo til fyr i DDO's Korpus, men eftersom en også forekommer i naboskabet til så mange andre ord, er der ingen særlig tiltrækning mellem netop en og fyr. Nogle af de hyppige, men ikke typiske, naboord kan dog alligevel være interessante: lille og sammen optræder således ret hyppigt sammen med fyr - men altså også sammen med så mange andre ord. Derfor er de ikke særligt typiske naboer til fyr. Fra de tilhørende konkordansudsnit kan man udlede flere oplysninger om, hvordan fyr bruges – som her i eksemplet med sammen:






I alt er der 58 forekomster af sammen som naboord til fyr, hvoraf de første 15 vises i udsnittet ovenfor. Det ses, at ganske bestemte sproglige konstruktioner er fremherskende i forbindelse med fyr: at være, komme eller bo sammen med en fyr.

Endelig kan man få vist en alfabetisk sorteret liste over naboord. Her kan man atter slå tærskelen fra, som det følgende eksempel viser:






Udover at kunne manøvrere ved hjælp af piletasterne, side-op og side-ned samt Home og End kan i en alfabetisk sorteret liste over nabo-ord springe fra bogstav til bogstav ved at taste det pågældende bogstav samtidig med, at holder skiftetasten nede.

En alfabetisk sorteret liste over naboord kan først og fremmest bruges til at tjekke, om et bestemt ord står i naboskabet til nøgleordet eller ej. Ord som lille, gammel, grim, hæslig og ondskabsfuld er åbenbart ikke typiske naboer til fyr. For lilles vedkommende kunne det allerede under den hyppighedssorterede liste konstateres, at ordet faktisk optræder ganske tit i naboskabet til fyr, men altså alligevel ikke opfyldte betingelserne for at blive klassificeret som typisk.

[^]


    1.4.10 Flere oplysninger om søgeordet: endelser og begyndelser [^]

Et bestemt søgeord tiltrækker ikke kun bestemte andre ord i form af typiske eller hyppige naboer, men indgår også ofte i bestemte sammensætninger. I Semaskop kan man ved enten at klikke på fanebladet endelser eller begyndelser eller ved at taste enten Alt-d eller Alt-y se, hvilke ord der ender/begynder med søgeordet. Figuren viser et udsnit af endelserne til ordformen fyr. Ordformer, som forekommer mindst fem gange i korpus, er fremhævet med fed skrift:






Tilsvarende viser den næste figur samtlige begyndelser til ordformen fyr:






I listerne kan man manøvrere markøren på sædvanlig vis med piletasterne og side-op- og side-ned-tasterne. Et tryk på retur opstiller en ny konkordans på den ordform fra listen, som markøren står på. Trykkes derimod Alt-retur eller dobbeltklikker man med musen, udvides den eksisterende konkordans med yderligere konkordanslinjer, som har ordformen fra listen som nøgleord. Følgende figur viser et udsnit af sammensætninger, der har fyr i betydningen 'apparat til (central) opvarmning af huse med mere'. En sådan trinvis udvidet konkordans kan siden behandles som en hvilken som helst anden konkordans i Semaskop: Den kan reduceres, sorteres, gemmes, og der kan opstilles lister over naboord.






[^]


    1.4.11 Ordformerne i korpus: ordliste [^]

Ordlisten er nært beslægtet med listen over endelser og vises i ordformområdet ved, at man enten klikker på ordliste-fanebladet med musen eller ved taste Alt-s. Når ordliste-fanebladet aktiveres efter en søgning på fyr, ses følgende alfabetiske ordliste:






Ordlisten begynder nogle ord før søgeordet og omfatter i alt godt tusind ordformer. Også i denne liste kan man manøvrere markøren som i alle de øvrige: Home og End springer henholdsvis til listens første og sidste ordform, side-op og side-ned bladrer henholdsvis en side op eller ned, mens piletasterne flytter markøren fra ordform til ordform på listen. Tastes retur, opstilles en konkordans over den ordform, markøren står på i ordlisten.

[^]


    1.4.12 Eksport af undersøgelsesresultater [^]

Samtlige undersøgelsesresultater kan eksporteres til almindelige tekstfiler – og herfra for eksempel hentes ind i tekstbehandlingssystemer eller behandles videre på anden vis. Et klik på knappen eksporter i kommandopanelet eller et tryk på Alt-e frembringer følgende dialog:






Her vælges, hvilket undersøgelsesresultat der skal eksporteres (kun ét ad gangen). Som standardinstilling er mærker valgt, og hermed eksporteres også mærkerne for hver konkordanslinje. Dette kan være nyttigt, hvis man for eksempel har betydningsmærket hver linje. Har man ikke ændret på mærkningen af linjerne, kan man vælge mærker fra. Ved klik på Udfør-knappen foreslås der i dialogen et navn til den tekstfil, som konkordansen skal eksporteres til. Navnet kan ændres, men som udgangspunkt er det lettest at overlade navngivningen og valg af bibliotek til Semaskop. Man skal dog være opmærksom på, at Semaskop automatisk vælger et filnavn, der svarer til nøgleordet, og derfor kan det være nødvendigt at ændre navnet, hvis man vil undgå overskrivninger, når man gemmer flere forskellige versioner af konkordanser på samme ord.

Den eksporterede fil kan nu indlæses i et tekstbehandlingsprogram. En eksporteret konkordans indeholder samtlige konkordanslinjer fra Semaskop-konkordansen. Slår man linjeombrydningen fra og vælger en tilpas lille Courier-skrift, står linjerne pænt under hinanden med nøgleordet i midten:






[^]


    1.5 Konkordans på lemma [^]

Søgningerne i de foregående afsnit har alle været baseret på enkelte ordformer. Man kan dog også vælge at foretage søgningerne på baggrund af et såkaldt lemma, der omfatter både grundformen af et ord og samtlige dets bøjningsformer. Søger man for eksempel på lemmaet fyr, får man også fyren, fyre og fyrene med i sin konkordans.

I Semaskop er der indbygget et såkaldt leksikon, der for cirka 60.000 grundformer kan oplyse, hvilke forskellige former disse kan optræde i i løbende tekst. Semaskops aktuelle leksikon er dog behæftet med en række – dog oftest ubetydelige - unøjagtigheder: I visse tilfælde frembringer det sjældne eller usandsynlige bøjningsformer for ord, desuden er leksikonet ikke afstemt med den aktuelle version af Retskrivningsordbogen.

Søger man på lemmaet ydelse, opstilles en konkordans, som indeholder samtlige bøjningsformer og samtlige stavemæssige varianter af søgeordet. Hvilke bøjningsformer og hvilke varianter, det drejer sig om, fremgår af variantlisten i ordformområdet:




Øverst oplyses, at ydelse er et substantiv (navneord)(endelsen _S). Herefter angives hvilke forskellige former – betinget af grammatisk bøjning – lemmaet kan optræde i, nemlig ydelse, ydelses, ydelsen, ydelsens, ydelser, ydelsers, ydelserne, ydelsernes. Under hver bøjningsform ses de stavemæssige varianter, denne optræder i i korpus. Tallene i de kantede parenteser oplyser antallet af forekomster af hver bøjningsform i korpusset.

Opstiller man som før nævnt en konkordans over fyr, finder man 8225 forekomster. I ordformområdet ses hvilke former, der er søgt på, og det fremgår, at fyr i både fælleskøn og intetkøn er taget med. Semaskop kan nemlig ikke se forskel på de forskellige forekomster af fyr i korpus og henregner derfor for en sikkerheds skyld samtlige fyr-ordformer i korpus under samtlige fyr-former af de tre substantiver.

[^]


    1.5.1 Grammatiske og ortografiske varianter [^]

I variantfeltet kan man vælge de ortografiske varianter fra, som man ikke vil have med i konkordansen. Dermed kan man også forhindre, at bestemte varianter tages med flere gange i konkordansen. Variantområdet aktiveres ved at taste Alt-a (eller ved hjælp af musen). Når området er aktivt, kan med tasterne pil-op og pil-ned flytte en markør rundt i området. Med mellemrumstasten kan man nu vælge de varianter fra, man ikke ønsker i konkordansen. Trykkes på mellemrumstasten, ændres et plus-tegn i begyndelsen af den markerede variant til et minus-tegn. Taster man herefter retur (hvorved knappen tilret konkordans aktiveres), gendannes konkordansen uden den (de) fravalgte variant(er). At fravælge varianter er således en anden måde at reducere sin konkordans på. Man vælger varianter til på samme måde, som man vælger dem fra: Mellemrumstasten skifter mellem de to muligheder.




[^]


1.6 Udvid konkordans [^]

Som nævnt i afsnittet om ordlister kan man tilføje linjer med alternative nøgleord til en eksisterende konkordans. Opstilles en konkordans på ordformen parentes, får man en konkordans på 138 linjer: 136 med varianten parentes og to med varianten Parentes. Det kan dog tænkes, at mange skriver den forkerte variant parantes. Det kunne derfor være interessant også at få denne variant med på konkordansen, for eksempel hvis efterfølgende vil se de typiske naboord til alle varianter af parantes. Eventuelt fejlstavede parentes-varianter tilføjes til vores liste ved at indtaste <parantes (< står for 'udvid konkordansen med den følgende ordform') eller ved at vælge udvid i undersøgelsesdialogen. Konkordansen er herefter på 168 forekomster, 30 nye eksempler med parantes (29 gange parantes og én gang Parantes) er hægtet på i enden af den oprindelige konkordans:






En konkordans kan udvides vilkårligt mange gange på denne måde.

[^]


1.7 Filtrér konkordans [^]

Mange ord indgår i faste udtryk og vendinger, og det kan derfor være interessant at undersøge, hvordan disse udtryk og vendinger optræder i et korpus.

Til det formål kan man filtrere konkordansen. Hvis man for eksempel vil søge på betale husleje, kan man starte med at opstille en konkordans over ordformen betale. For at finde de steder, hvor betale optræder sammen med husleje, indtastes herefter >husleje (> står for 'filtrer konkordansen med den følgende ordform'), eller man vælger filtrer i undersøgelsesdialogen. Filterordet tages altid helt bogstaveligt af Semaskop - der er med andre ord forskel på, om man filtrerer med husleje eller med Husleje. Efter en sådan filtrering fås en konkordans på 33 linjer, hvoraf et udsnit ses her:




Standardindstillingen for filtreringsfunktionen i Semaskop er en kontekst på otte standardord til venstre og otte standardord til højre for nøgleordet. På fanebladet funktioner under Indstillinger kan filterkonteksten ændres efter behov. Er man for eksempel kun interesseret i de forekomster af betale husleje, hvor husleje står til højre fra betale, kan man sætte venstrekonteksten til nul.




Ofte kan man også finde forbindelser som betale husleje ved at se på naboordene. Det er dog ikke givet, at man får vist samme antal forekomster, da naboordene skal optræde inden for en fast afgrænset kontekst på fire ord til hver side, mens filtreringen som nævnt kan tage højde for en kontekst på helt op til otte ord til hver side.




I de tilfælde, hvor den fastlagte kontekst for nabo-ord er passende for søgningen efter ordgrupper, er det en smagssag, om man finder bestemte ordgrupper ved hjælp af filtrerings- eller naboord-funktionen. Bliver konkordansen meget stor, eller spiller kontekstens bredde en afgørende rolle for søgningen, er filtrering som regel at foretrække. Et eksempel herpå er opstilling af en konkordans over det var det. En sådan konkordans kan laves på flere måder. Oftest er det hurtigst at begynde med den ordform, som har færrest forekomster, i dette tilfælde var. Herefter filtreres på det til venstre for, idet venstrekonteksten sættes til 1 og højrekonteksten til 0. Endelig filtreres på det i højrekonteksten ved at stille denne på 1, mens venstrekonteksten sættes til 0. Herefter ses den ønskede konkordans på det var det. For at få et bedre overblik over de forskellige det var det-varianter kan det betale sig at sortere konkordansen på konteksten til højre for nøgleordet. Det kan i øvrigt ofte være en fordel at vælge en lidt bredere kontekst end strengt nødvendig. Dermed får man muligvis får et par varianter mere med på det, man egentlig søger på, for eksempel det var så det i det netop beskrevne eksempel, hvis højrekonteksten i anden filtreringsomgang sættes til 2:






[^]


1.8 Indstillinger [^]

Semaskops udseende og funktioner kan justeres ved at taste Alt-i eller klikke på knappen Indstillinger. Fanebladet former er uden betydning i den nuværende version af Semaskop.









[^]


2. FILERNE I SEMASKOP-SYSTEMET

2.1 Program- og indstillingsfil [^]

Selve programmet Semaskop består af én fil: SEMASKOP.EXE. Denne fil bør placeres i biblioteket C:\SEMASKOP\. Til programmet knytter der sig en særlig fil, hvori der registreres en række indstillinger, som blandt andet fastlægges af programmets bruger. Denne fil hedder SEMASKOP.{I}, og den skal ligge i samme bibliotek som selve programmet. Gør den ikke det, anvender programmet standardindstillinger og opretter automatisk indstillingsfilen.

[^]


2.2 Korpusfiler og korpusopsætningsfil [^]

Et korpus består af seks sammenhørende filer, som har samme 'fornavn' på højst otte tegn (det, der står foran punktummet), men forskellige 'efternavne' (det, der står efter punktummet, fremover 'filekstension', nemlig A1, A2, A3, B, C, D). Disse seks filer, der tilsammen udgør et korpus, bindes sammen af en særlig opsætningsfil, som samtidig også er bindeleddet mellem Semaskop og korpusfilerne: uden opsætningsfil ingen adgang til korpus! Har man flere korpora og dermed flere korpusopsætningsfiler, bør sidstnævnte ligge samlet i et særligt bibliotek, for eksempel C:\SEMASKOP\KORPORA\, mens de egentlige korpusfiler, som opsætningsfilerne etablerer forbindelse til, godt kan være spredt ud over flere forskellige diske (dog skal de tre A-filer ligge i samme bibliotek). Semaskop registrerer i indstillingsfilen, hvilket korpus man sidst har arbejdet med og åbner dette korpus, når man starter Semaskop på ny. Hvis dette korpus i mellemtiden er blevet flyttet eller slettet eller hvis indstillingsfilen ikke findes, og Semaskop derfor starter med standardindstillingerne, skal man efter start af Semaskop udpege det korpus, man vil arbejde med. Semaskop viser da en dialog med en oversigt over de korpusopsætningsfiler, som ligger i samme bibliotek som selve programmet. Skulle der ikke være nogen korpusopsætningsfiler (med filekstensionen {K}) på listen i dialogen, kan man i dialogen skifte til andre drev og biblioteker og således manøvrere hen til en korpusopsætningsfil. Er der af en eller anden grund slet ingen tilgængelige korpusopsætningsfiler, er det ikke muligt at åbne Semaskop, og programmet vil lukke med meddelelsen "Ingen korpusopsætningsfil valgt. Semaskop lukkes".

[^]


2.3 Korpusopsætningsfilens opbygning [^]

En korpusopsætningsfil er en almindelig tekstfil, der indeholder en række oplysninger om det korpus, den repræsenterer, og oplysninger om hvor de filer, korpusset består af, er placeret på computerens harddisk eller i netværket. Et eksempel på en korpusopsætningsfil:

NAVN=Den Danske Ordbogs Korpus
A=C:\SEMASKOP\KORPORA\K-FILER\DDO
B=C:\SEMASKOP\KORPORA\K-FILER\DDO
C=C:\SEMASKOP\KORPORA\K-FILER\DDO
D=C:\SEMASKOP\KORPORA\K-FILER\DDO
LEKSIKON=C:\SEMASKOP\LEKSIKA\FORMER
RESULTATBIBLIOTEK=C:\SEMASKOP\RESULTAT\DDO
TEGNSAET=Windows
ORDSKILLETEGN=+-*/".,;?()!:#»«[]=&%
TEKSTINFO-START=<i>
TEKSTINFO-SLUT=</i>

En opsætningsfil består af en række linjer, der indledes med betegnelsen for en bestemt oplysningstype (altid med store bogstaver) efterfulgt af et lighedstegn, der igen efterfølges af den oplysning, som er knyttet til pågældende oplysningstype. Nogle af oplysningstyperne er fakultative, det vil sige, at de ikke behøver at være til stede, for at Semaskop kan fungere korrekt, mens andre er obligatoriske. De enkelte oplysningstyper beskrives nærmere i det følgende.

NAVN (fakultativ oplysningstype): Her oplyses korpusets navn; dette kan vælges fuldstændig frit. Navnet kommer til at stå i Semaskops titelbjælke.

A, B, C og D (obligatoriske oplysningstyper): Ud for hvert af disse bogstaver oplyses, hvor de forskellige korpusfiler er placeret. A, B, C og D betegner forskellige typer af filer: Af type A findes tre filer (A1, A2 og A3), mens der af de øvrige typer kun findes én. Filernes placering oplyses som hele stien til og med filens navn, dog uden filekstensionen, som Semaskop selv sætter. A-filerne i opsætningseksemplet ovenfor hedder således DDO.A1, DDO.A2 og DDO.A3 og er placeret i biblioteket SEMASKOP\KORPORA\K-FILER på drev C. Som det fremgår af dette eksempel, skal A-filerne ligge samlet ét sted (på samme drev, i samme bibliotek og med samme fornavn), mens de øvrige korpusfiler godt kan ligge andre og indbyrdes forskellige steder. I praksis bør man dog kun lægge sine korpusfiler forskellige steder, hvis pladsforholdene på ens harddisk er for begrænsede, til at man kan have samtlige korpusfiler samlet ét sted. Omdøber man sine korpusfiler, eller flytter man dem til andre biblioteker eller diske, skal man tilsvarende ændre oplysningerne under A, B, C og D i den tilhørende korpusopsætningsfil, da korpusset ellers ikke længere vil kunne åbnes af Semaskop. Redigeringen i korpusopsætningsfilen foregår ved hjælp af en almindelig teksteditor. Men man bør være omhyggelig under redigeringen (og gemme opsætningsfilen som ren tekstfil), idet manglende eller fejlagtige oplysninger vil resultere i, at Semaskop ikke kan åbne korpuset.

LEKSIKON (fakultativ oplysningstype): Her oplyses, hvilket leksikon der er knyttet til det korpus, som opsætningsfilen beskriver. Et leksikon i Semaskop indeholder typisk bøjningsformerne for en stor mængde ord. Ved hjælp af leksikonet er det muligt at søge på en grundform af et bestemt ord og få opstillet konkordanser, der indeholder både samtlige eksempler med grundformen og alle eksempler på samtlige former af det pågældende ord, såvidt de fremgår af leksikonet. Der er principielt ikke noget i vejen for, at leksikonet indeholder andre oplysninger om ord end deres bøjning, for eksempel kunne den også indeholde semantiske relationer, således at en søgning på frugt fx gav en konkordans over samtlige frugter, altså for eksempel appelsin, æble, banan og så videre (og eventuelt disses bøjningsformer). Et i øjeblikket funktionsløst faneblad Leksikon under indstillinger skal i senere versioner bruges til indlæsning og redigering af leksika, men dette er ikke muligt i den nuværende version. Er der ikke knyttet noget leksikon til korpuset, er det kun muligt at opstille konkordanser på det indtastede søgeord (uden beslægtede former).

RESULTATBIBLIOTEK (fakultativ oplysningstype): Her oplyses navnet på det bibliotek, hvor Semaskop skal lægge midlertidige filer, og hvor arkiverede resultater fra søgninger som udgangspunkt skal gemmes, når der arbejdes på det korpus, som opsætningsfilen beskriver. Arbejder man med flere korpora (og har dermed beskrevet dem i flere korpusopsætningsfiler), er det vigtigt at bruge forskellige resultatbiblioteker for de forskellige korpora. Semaskop kan ikke ud fra en arkiveret konkordans se, hvilket korpus den oprindeligt hørte til og vil derfor altid gå ud fra, at den hører til det aktuelt valgte korpus. Er dette korpus et andet end det, hvorfra den gemte konkordans stammer, kan der optræde fejl. Hvert korpus bør derfor have defineret sit eget resultatbibliotek og man bør kun gemme resultater fra søgninger i et korpus i det dertilhørende resultatbibliotek! Eksisterer det oplyste resultatbibliotek ikke i forvejen, prøver Semaskop om muligt at oprette det. Hvis dette ikke er muligt, bruger Semaskop det bibliotek, hvor selve programfilen ligger, som resultatbibliotek. Det samme gælder, hvis oplysningen om resultatbiblioteket mangler i opsætningsfilen. Selvom resultatbiblioteket ikke nødvendigvis skal oplyses i opsætningsfilen, og der altså er tale om en fakultativ oplysningstype, må det stærkt anbefales, at man gør det, så resultater fra flere korpora ikke blandes sammen i det bibliotek, hvor programfilen ligger.

TEGNSAET (fakultativ oplysningstype): Oplysningstypen er kun relevant i forbindelse med indeksering af nye tekstfiler, der skal tilføjes til et korpus. Hvis TEGNSAET-linjen mangler i opsætningsfilen, eller hvis dens værdi er forskellig fra DOS, vil Semaskop automatisk antage, at tekstfilerne, som skal indlæses og indekseres, er i Windows-tegnsæt. Er der tale om DOS-tekstfiler, angives DOS som oplysning til denne oplysningstype, og DOS-tegnsættet vil under indlæsningen blive konverteret til Windows-tegnsættet. Forskellen på DOS- og Windows-tegnsættet berører især gengivelsen af æ, ø, å og tilsvarende sprogspecifikke alfabetiske tegn.

ORDSKILLETEGN (fakultativ oplysningstype): Oplysningstypen er især relevant i forbindelse med indeksering af tekster. Som værdier anføres efter lighedstegn de karakterer, som skal betragtes som ordgrænser, og som i sig selv ignoreres under selve indekseringen. Hvis & for eksempel er defineret som ordskilletegn, vil strengen B&W blive betragtet som to ord, nemlig B og W, mens &-tegnet i sig selv ignoreres. Hvis ORDSKILLETEGN-linjen i opsætningsfilen mangler, eller hvis der ikke oplyses nogle værdier efter lighedstegnet, bruges alene mellemrumtegnet som ordskilletegn under indlæsning af ny tekst. Mellemrumstegnet er med andre ord altid ordskilletegn, og denne funktion kan heller ikke slås fra - det, der oplyses efter ORDSKILLETEGN, er altså i virkeligheden yderligere skilletegn ud over mellemrum. Det anbefales altid at bibeholde den liste af ordskilletegn, som blev anvendt under indlæsningen af korpus, idet de også (til en vis grad) anvendes i forbindelse med opstilling af lister over naboord til nøgleord: der kan fremkomme upålidelige naboord, hvis man ændrer ordskilletegnene i forhold til, hvad de var, da korpus blev indlæst. Dette kan eksemplificeres ved flg. eksperiment: tilføj e til rækken af ordskilletegn i opsætningsfilen til det aktuelle korpus, start Semaskop, og opstil en liste over naboord på et ord, for eksempel fabrik - resultatet turde tale for sig selv: e blev også anvendt som ordskilletegn under isoleringen af de enkelte nabo-ord.

TEKSTINFO-START og TEKSTINFO-SLUT (fakultative oplysningstyper): Er kun relevante i forbindelse med indlæsning af tekster. Tekstoplysninger om de enkelte tekster i korpusset, som ikke skal betragtes som en del af selve teksten, kan omgives af særlige markeringer, der angiver, hvor informationerne starter, og hvor de slutter. Den markerede tekstinfo-del vil under indlæsningen af tekst blive ignoreret som søgbar tekst, men vil i stedet blive registreret særskilt, således at man siden hen i sine undersøgelser til enhver konkordanslinje kan få oplyst tekstinformationerne til den tekst, konkordanslinjen stammer fra (under tekstinfo). Markeringerne af tekstinfo-start og -slut skal oplyses i form af SGML-tags, dvs. et navn i skarpe parenteser, for eksempel <info> for tekstinfo-start og </info> for tekstinfo-slut (skråstregen har her betydningen 'slut'). Er der ikke oplyst tekstinfo-markeringer, eller er der oplyst forkerte tekstinfo-markeringer, når man indlæser ny tekst, indekseres al tekst inklusive eventuelle info-dele som søgbart korpus af Semaskop - og der vil ikke blive oprettet en særlig tekstinfo-fortegnelse.

[^]


2.4 Sessionsprotokollen [^]

Ved en session forstås tidsrummet fra et program startes, til det afsluttes. Sessionsprotokollen registrerer en række væsentlige hændelser, som finder sted i denne periode. Protokollen kan især bruges til at finde eventuelle fejl med. Semaskop registrerer kun hændelser vedrørende åbning af et korpus i protokollen samt hændelser under indlæsning af nye tekster. Et overblik over, hvordan Semaskop fortolker de oplysninger, som står i et korpus' opsætningsfil, får man, hvis man efter start af Semaskop vælger fanebladet protokol (Alt-p eller klik med musen) i Semaskops info-område. Sessionsprotokollen kan desuden betragtes med en teksteditor, idet Semaskop lægger den som tekstfil ved navn SEMASKOP.TXT i programbiblioteket. Sessionsprotokollen overskrives fra session til session. Sessionsprotokollen vil efter start af Semaskop – med Parole-Korpuset som det aktive korpus – typisk, det vil sige med en standardinstallation, se således ud:






Nogle kommentarer til linjerne:

! Meddelelser (1=vigtigt(!), 2=ekstra(*), 3=teknisk($)): 12


Her oplyses, hvilke typer oplysninger der skal protokolleres af Semaskop. Der er tre typer af meddelelser:

- vigtige meddelelser, der giver nødvendig information om systemets funktion eller mangel på samme; linjer med sådanne meddelelser indledes altid med et udråbstegn
- ekstra meddelelser, der kun tjener til almen information; disse linjer indledes med en asterisk
- tekniske meddelelser, der oplyser, hvilke processer i systemet der er blevet kaldt; disse linjer indledes med et dollartegn.


Meddelelseslinjen ovenfor oplyser, at vigtige (1) og ekstra (2) meddelelser skal protokolleres. Dette er standardindstillingen.

I Semaskop optræder der (næsten) kun meddelelser af første type og (næsten) kun i forbindelse med fortolkning af opsætningsfilen samt åbning af korpusfiler.

I Semaskop er det muligt - omend indtil videre ligegyldigt - at indstille, hvilke typer meddelelser man vil have protokolleret. Dette sker ved at klikke på knappen indstillinger og ved at vælge fanebladet Funktioner i den dialog, der kommer frem. Sæt hak ud for de meddelelsestyper, der skal protokolleres. Er intet hak sat, skrives ingen meddelelser til sessionsprotokollen.



! Evt. åbent korpus lukket


Semaskop tjekker, om der allerede er åbnet et korpus og lukker i givet fald dette.



! Korpusopsætning: C:\SEMASKOP\KORPORA\Parole.{K}


Navnet og placeringen på den anvendte (senest brugte) korpusopsætningsfil.



! Programbibliotek: C:\SEMASKOP\


Det bibliotek, hvor selve programmet og filen med programindstillingerne ligger, og hvor tekstfilen med sessionsprotokollen oprettes.



! A=C:\SEMASKOP\KORPORA\K-FILER\Parole
! B=C:\SEMASKOP\KORPORA\K-FILER\Parole
! C=C:\SEMASKOP\KORPORA\K-FILER\Parole
! D=C:\SEMASKOP\KORPORA\K-FILER\Parole
! LEKSIKON=C:\SEMASKOP\LEKSIKA\FORMER


Disse linjer er en gentagelse af, hvad der står i opsætningsfilen vedr. korpus- og leksikonfilernes placering. Skulle der i det følgende optræde fejlmeddelelser om, at korpus ikke kunne åbnes, kan disse linjer måske være med til at forklare, hvor præcist der er opstået en fejl.



! Tegnsæt under indeksering: Windows


Hvis der skal indekseres ny tekst, vil Semaskop gå ud fra, at det anvendte tegnsæt i tekstmaterialet er Windows. Kun hvis der i opsætningsfilen er opført linjen TEGNSAET=DOS, konverterer Semaskop tegnsættet fra DOS til Windows under indekseringen af det nye tekstmateriale.



! Ordskilletegn: [MELLEMRUM]+-*/".,;?()!:#»«[]=&%


Her oplyses, hvilke ordskilletegn der anvendes. Et almindeligt blankt mellemrumstegn er obligatorisk. De øvrige ordskilletegn kan vælges af brugeren.



! TEKSTINFO-startmarkering: <i>
! TEKSTINFO-slutmarkering: </i>


Det, der står mellem disse markeringer, betragtes af Semaskop under indeksering af et nyt tekstmateriale som informationer vedrørende den efterfølgende tekst. Al tekst, som står mellem sådanne markeringer, indekseres ikke, og er derfor heller ikke søgbar i Semaskop.



! Resultatbibliotek: C:\SEMASKOP\RESULTAT\Parole\ ÅBNET


Hvis det angivne resultatbibliotek allerede findes, åbner Semaskop det. Hvis det ikke findes, prøver Semaskop at oprette det og meddeler OPRETTET. Mislykkes dette (for eksempel hvis drevbogstavet er forkert), meddeles FEJL.



! A1= C:\SEMASKOP\KORPORA\K-FILER\Parole.A1 (+)
! A2= C:\SEMASKOP\KORPORA\K-FILER\Parole.A2 (+)
! A3= C:\SEMASKOP\KORPORA\K-FILER\Parole.A3 (+)
! B = C:\SEMASKOP\KORPORA\K-FILER\Parole.B (+)
! :ÅBNET


Korpus udgøres af tre A-filer samt en B-, C- og D-fil. A-filerne og B-filen udgør teknisk set en sammenhængende gruppe og åbnes derfor samlet. Plusserne efter de enkelte linjer angiver, at pågældende korpusfil er fundet og åbnet, mens minusser oplyser, at de ikke findes, og at Semaskop derfor prøver at oprette dem. Kun hvis alle fire filer i denne gruppe er til stede og kan åbnes, meddeles i den sidste linje ÅBNET.



! C = C:\SEMASKOP\KORPORA\K-FILER\Parole.C ÅBNET
! D = C:\SEMASKOP\KORPORA\K-FILER\Parole.D ÅBNET


Her meddeles, hvorvidt det er lykkedes at åbne de resterende to korpusfiler, C-filen og D-filen.



! Leksikon ÅBNET


Her meddeles, hvorvidt det er lykkedes at åbne leksikonet. Mangler det, kan man kun foretage søgninger på enkelte ordformer.

! Korpus åbnet


Korpus kan kun åbnes, hvis samtlige seks korpusfiler findes og kan åbnes. Hvis blot én af dem mangler eller ikke kan findes, kan korpus ikke åbnes. Fejmeddelelser vedrørende dette skrives til sessionsprotokollen.

[^]


2.5 Standardopsætning af Semaskop-systemet [^]

Den anbefalede standardopsætning af Semaskop-systemet på pc'ens C-drev ser således ud (biblioteksnavne er gengivet med store, filnavne med små bogstaver):



[^]


3. TASTATURGENVEJE [^]

De anførte tastaturgenveje gælder for Semaskops hovedvindue. Herudover er der en række dialog-vinduer, som betjenes ved hjælp af tabulator-tasten og piletasterne: retur sætter herefter en proces i gang, Esc-tasten bakker ud af pågældende dialog. Knapper med mere kan desuden udløses over tastaturet ved at man holder Alt-tasten nede og taster det understregede bogstav i pågældende betjeningselements navn.

[^]


3.1 Generelle – fungerer altid [^]

Alt-a: vis liste med ortografiske (og morfologiske) varianter af søgeordet
Alt-b: (opret og) vis liste over nabo-ord til nøgleordene i den aktuelle konkordans
Alt-c:
Alt-d: (opret og) vis liste over ord-endelser (højretrunkering)
Alt-e: eksporter undersøgelsesresultater som tekstfiler (blandt andet også til udskrift)
Alt-f: skift korpus
Alt-g: gem konkordans
Alt-h:
Alt-i: indstillinger
Alt-j:
Alt-k: vis mere kontekst til markeret konkordanslinje
Alt-l:
Alt-m:
Alt-n: hent en konkordans fra arkivet
Alt-o:
Alt-p: vis sessionsprotokollen
Alt-q:
Alt-r:
Alt-s: vis alfabetisk liste over ord i korpus
Alt-t: vis oplysninger om teksten, som markeret konkordanslinje stammer fra
Alt-u: vis korpus-info
Alt-v:
Alt-w:
Alt-x:
Alt-y: (opret og) vis liste over ord-begyndelser (venstretrunkering)
Alt-z:
Alt--: vis oversigt over konkordanssider
Alt-F4: afslut Semaskop

[^]


3.2 Specielle – fungerer, når et bestemt område er aktivt [^]

  1. 3.2.1 Konkordansområdet er aktivt [^]

0: mærk den (de) markerede linje(r) med værdien 0 (grundværdien)
1: mærk den (de) markerede linje(r) med værdien 1
2: mærk den (de) markerede linje(r) med værdien 2
3: mærk den (de) markerede linje(r) med værdien 3
4: mærk den (de) markerede linje(r) med værdien 4
5: mærk den (de) markerede linje(r) med værdien 5
6: mærk den (de) markerede linje(r) med værdien 6
7: mærk den (de) markerede linje(r) med værdien 7
8: mærk den (de) markerede linje(r) med værdien 8
9: mærk den (de) markerede linje(r) med værdien 9
k: vis mærk-menuen
e: reducer konkordans
H: vis konkordans sorteret efter ord i højre kontekst
h: vis konkordans sorteret efter tegn i højre kontekst
m: vis konkordans sorteret efter mærker, dernæst højre kontekst
r: vis konkordans sorteret efter (grammatisk/)ortografisk form, dernæst korpusrækkefølge
V: vis konkordans sorteret efter ord i venstre kontekst
v: vis konkordans sorteret efter tegn (fra højre til venstre) i venstre kontekst
j: vis konkordansudsnit med eksempler på brugen af et bestemt naboord
n: vis hele konkordansen
pil-højre: blad én konkordansside frem
pil-venstre: blad én konkordansside tilbage
pil-ned: sæt konkordanslinjemarkøren på næste linje
pil-op: sæt konkordanslinjemarkøren på forudgående linje
Skift-pil-ned: marker aktuel konkordanslinje og sæt markøren på den efterfølgende linje
Skift-pil-op: marker aktuel konkordanslinje og sæt markøren på den forudgående linje

[^]


  1. 3.2.2 Kontekstområdet er aktivt [^]

Kontekstområdet virker som de fleste Windows-editorer.

[^]


  1. 3.2.3 Tekstinfo-området er aktivt [^]

Tekstinfo-området virker som de fleste Windows-editorer.

[^]


  1. 3.2.4 Området med naboord er aktivt [^]

a: vis naboord i alfabetisk orden
h: vis naboord sorteret efter hyppighed
t: vis naboord efter typiskhed i forhold til nøgleordet
j: vis kun naboord, hvis antal forekomster ligger over en bestemt tærskelværdi
n: vis samtlige naboord
A-Å: sæt markøren på første ord, der begynder med pågældende bogstav (ved alfabetisk orden)
pil-ned: sæt markøren på efterfølgende naboord og vis det dertil hørende konkordansudsnit
pil-op: sæt markøren på forudgående naboord og vis dertil hørende konkordansudsnit
pil-højre: sæt markøren på naboord i næste kolonne og vis konkordansudsnit
pil-venstre: sæt markøren på naboord i forudgående kolonne og vis konkordansudsnit

[^]


  1. 3.2.5 Området med ordbegyndelser el. -endelser er aktivt [^]

pil-ned: sæt markøren på efterfølgende ord
pil-op: sæt markøren på forudgående ord
pil-højre: sæt markøren på ord i næste kolonne
pil-venstre: sæt markøren på ord i forudgående kolonne
retur: opstil en konkordans over det ord, markøren står på

[^]


  1. 3.2.6 Området med varianter er aktivt [^]

pil-ned: sæt markøren på efterfølgende form eller variant
pil-op: sæt markøren på forudgående form eller variant
mellemrum: fra- eller tilvælg den variant, som markøren står på
retur: gendan konkordans under hensyn til fra- og tilvalg af varianterne
Alt-retur: spring til første forekomst af varianten i konkordansen



[^]


  1. 3.2.7 Området med ordlisten er aktivt [^]

pil-ned: sæt markøren på efterfølgende ord på listen
pil-op: sæt markøren på forudgående ord på listen
retur: opstil en konkordans over det ord, markøren står på



[^]