Søk etter allittererende koordinasjoner

1. Allittererende koordinasjoner

I blogginnlegget Bokstavrim og brøkdeler. Hvor ofte allittererer vi? skal det søkes etter allittererende tilfeller av koordinasjoner med strukturen i Figur 1:


Figur 1. Frasestrukturen i en enkel koordinasjon av substantiver.

Søkeuttrykket må utelukke at NP-ene har flere døtre enn N, siden vi ikke vil ha med eksempler med bestemmere eller andre tillegg til substantivene. Videre må det sørges for at de to substantivene begynner på samme bokstav, begrenset til følgende 15 konsonanter:

b d f g h j k l m n p r s t v

For å spesifisere at NOMcoord skal ha døtrene NP CONJ NP, og ikke flere, bruker vi operatoren ‘->’:

(1)
NOMcoord -> NP CONJ NP

En alternativ operator ‘>’, som i f.eks. NOMcoord > CONJ, spesifiserer bare at NOMcoord skal dominere CONJ direkte, altså bare at CONJ er en av kanskje flere døtre til NOMcoord.

For å kunne referere til døtrene i senere deler av søkeuttrykket, tilordner vi dem varabler. Variabelnavn begynner alltid på ‘#’ (når de er  eksistenskvantifisert), og inneholder dessuten en understrekning når det ikke er meningen at deres verdier skal listes ut etter søket. (1) erstattes da av (2):

(2)
NOMcoord -> #x_:NP #y_:CONJ #z_:NP

Videre skal første NP, altså #x_, bare ha en datter N (som vi tilordner variabelen #m_):

(3)
#x_ -> #m_:N

Tilsvarende gjelder den andre NP-en, #z_, der den dominerte N får variabelen #n_:

(4)
#z_ -> #n_:N

CONJ, altså #y_, skal dominere et ord – konjunksjonen – som vi vil ha listet ut, noe vi oppnår ved ikke å inkludere noen understrekning i variabelnavnet #b:

(5)
#y_ > #b

Så gjenstår det å sørge for at de ordene som de to N-ene, henholdsvis #m_ og #n_, dominerer, begynner på samme konsonant. La oss først se hvordan vi kunne sørge for at begge begynner på b-:

(6)
#m_ > #a:»b.*» & #n_ > #c:»b.*»

Første N, altså #m_, dominerer en ordform som vi gir variabelnavnet #a, uten understrekning, slik at ordformen blir listet ut. Ordformen spesifiseres i doble anførselstegn «…». Der finner vi et regulært uttrykk: Første bokstav i ordformen er ‘b’, og deretter står ‘.’ for en arbitrær bokstav, mens Kleene-stjernen ‘*’ uttrykker at en arbitrær bokstav innsettes et likegyldig antall ganger. Tilsvarende gjelder for annen N, #n_.

Vi inkluderer de øvrige konsonantene i uttrykket ved å si at enten begynner begge på b-eller så begynner begge på d-eller … . Disjunksjoner (enten-eller-forbindelser) uttrykkes med ( … | … ). Hvis vi bare ville si at begge ord skal begynne på b, eller begge på d, ville uttrykket i 6 bli erstattet av (7):

(7)
(#m_ > #a:»b.*» & #n_ > #c:»b.*» | #m_ > #a:»d.*» & #n_ > #c:»d.*»)

I (8) har vi kombinert alle uttrykkene i ett søkeuttrykk, der de ulike setningene er forbundet med ‘&‘, og vi har inkludert alle 15 konsonanter i disjunksjonen til slutt:

(8)
NOMcoord -> #x_:NP #z_:CONJ #y_:NP
& #x_ -> #m_:N
& #y_ -> #n_:N
& #z_ > #b
& (#m_ > #a:»b.*» & #n_ > #c:»b.*» | #m_ > #a:»d.*» & #n_ > #c:»d.*» | #m_ > #a:»f.*» & #n_ > #c:»f.*» | #m_ > #a:»g.*» & #n_ > #c:»g.*» | #m_ > #a:»h.*» & #n_ > #c:»h.*» | #m_ > #a:»j.*» & #n_ > #c:»j.*» | #m_ > #a:»k.*» & #n_ > #c:»k.*» | #m_ > #a:»l.*» & #n_ > #c:»l.*» | #m_ > #a:»m.*» & #n_ > #c:»m.*» | #m_ > #a:»n.*» & #n_ > #c:»n.*» | #m_ > #a:»p.*» & #n_ > #c:»p.*» | #m_ > #a:»r.*» & #n_ > #c:»r.*» | #m_ > #a:»s.*» & #n_ > #c:»s.*» | #m_ > #a:»t.*» & #n_ > #c:»t.*» | #m_ > #a:»v.*» & #n_ > #c:»v.*»)

Søkeuttrykket finner 12 040 forekomster fordelt over 8 064 ulike koordinasjoner (tallene blir litt endret i senere bearbeidelse). Toppen av den frekvenssorterte trefflisten vises i Figur 2. Resultatene diskuteres videre i blogginnlegget Bokstavrim og brøkdeler. Hvor ofte allittererer vi?


Figur 2. Toppen av den frekvenssorterte trefflisten på skjermen.

2. Alle koordinasjoner

I blogginnlegget Bokstavrim og brøkdeler sammenlignes tallene for allittererende koordinasjoner av to substantiver med tallene for koordinasjoner av to substantiver generelt, uavhengig av bokstavrim. Søkeuttrykket for å finne den sistnevnte typen er slik:

(9)
NOMcoord -> #x_:NP #y_:CONJ #z_:NP
& #x_ -> #m_:N
& #z_ -> #n_:N
& #m_ > #a:»(b|d|f|g|h|j|k|l|m|n|p|r|s|t|v).*»
& #y_ > #b
& #n_ >  #c:»(b|d|f|g|h|j|k|l|m|n|p|r|s|t|v).*»

Det er fjerde og sjette linje som først og fremst avviker fra søkeuttrykket (8) ovenfor. Fjerde linje sier at første N, altså verdien til variabelen #m_, dominerer en ordform #a som begynner med én av de 15 aktuelle konsonantene og fortsetter med en arbitrær mengde arbitrære tegn (‘.*’).

Dette søkeuttrykket finner ca. 88 020 forekomster fordelt over ca. 59 450 ulike koordinasjoner. Resultatene diskuteres videre i blogginnlegget.