Søk etter maskuline og feminine verb-argumenter

Som beskrevet i innlegget Far leser og mor syr? skal vi søke etter verb som har maskulint eller feminint argument 1 (ARG1) og sortere dem etter hvor ofte de opptrer med maskulint og hvor ofte med feminint ARG1. Vi ønsker da å definere en argumentkategori MASK og en argumentkategori FEM:

MASK: mannsnavn + han + mann + gut(t) + far
FEM: kvinnenavn + hun/ho + kvinne + jente + mor

Her skal vi se litt mer detaljert på søkeuttrykkene. Som et grunnlag for å presentere søkeuttrykkene ser vi først på analysene av noen enkle eksempler slik de ville se ut i trebanken:

  1. Mor leser avisen
  2. Avisen ble lest av Per
  3. Jeg så henne lese avisen

I setning (1) er vi interessert i å registrere subjektet mor  som den handlende for predikatet lese. I den passive setning (2) er vi interessert i å registrere Per i agensleddet av Per som den handlende, og i setning (3) vil vi registrere objektet for , altså henne, som den underforståtte handlende for lese. Analysene i trebanken gir grunnlag for å generalisere over disse og andre lignende tilfeller.

Trebankens fulle analyse av en setning som 1 er som i Figur 1

Figur 1: Full analyse av Mor leser avisen

Den fulle analysen består av en c-struktur – et trediagram som viser setningens oppbygning i fraser og delfraser, og en f-struktur – en attributt-verdistruktur  som viser syntaktiske funksjoner, syntaktiske trekk og semantiske predikatverdier (PRED), og som er systematisk relatert til c-strukturen gjennom forbindelseslinjer som ikke vises i figuren. For eksempel ‘projiserer’ NP-en Mor i c-strukturen verdien til attributtet TOPIC i f-strukturen (det vil si, mor er TOPIC), der vi finner at leddets predikat (PRED) er ‘mor’, at det har ubestemt form (DEF-MORPH -), at det (likevel i dette tilfellet) har bestemt referanse (DEF +), m.m. Vi ser også at setningens subjekt (SUBJ) er identisk med TOPIC, ettersom de to attributtene har samme verdi. Dette fremgår av at verdien til SUBJ er indeksen 4, som vi gjenfinner på verdien til TOPIC.

For vårt formål er ikke alle disse detaljene relevante. Derfor gir vi bare forenklede versjoner av f-strukturene for de tre setningene nedenfor, og nevner c-strukturen der det er relevant.


Figur 2: Forenklet f-struktur for Mor leser avisen


Figur 3: Forenklet f-struktur for Avisen ble lest av Per


Figur 4: Forenklet f-struktur for Jeg så henne lese avisen

F-strukturen i Figur 2 er kommentert ovenfor. I Figur 3 viser attributtet XCOMP at lest av Per analyseres som et åpent komplement til passiv-hjelpeverbet bli, og der er Per OBL-AG, det vil si ‘oblik agent’ eller agensledd for ‘lese’. I Figur 4 er lese avisen på tilsvarende måte XCOMP for se, som tar objektet (OBJ) henne (med predikat hun), og dette objektet kontrollerer subjektet for lese, slik at hun dukker opp også som subjekt for dette predikatet (uttrykt gjennom den felles indeksen 2).

Det alle tre analysene har felles, er at det aktuelle handlende leddet i alle tre er å finne som første argument i argumentlisten for predikatet lese: henholdsvis mor, Per og hun. Verdien av PRED er alltid et semantisk predikat, eventuelt etterfulgt av en argumentliste omsluttet av <…>. Argumentene i disse listene er lenket til de syntaktiske funksjonene som realiserer dem, uttrykt med indekser i figurene. Således har første argument for lese i Figur 1 indeksen 4, identisk med indeksen ved verdiene til SUBJ og TOPIC: subjektet (og topic) realiserer første argument, den handlende, for lese. Det betyr at disse tre elementene (argument 1, SUBJ og TOPIC) er identiske (unifisert). Søkeuttrykkene tillater oss å referere til attributtnavn som TOPIC,  SUBJ, OBJ, OBL-AG osv., men også til medlemmene av slike argumentlister, da ved hjelp av attributtnavn som ARG1, ARG2 osv., selv om disse ikke er uttrykt i f-strukturene. Ved å søke etter ARG1 vil vi dermed kunne finne de relevante eksemplene.

Vi begynner med et forholdsvis enkelt søkeuttrykk. For å søke etter eksempler der f.eks. mor står som argument 1 til et verb, og å få disse verbene listet ut med frekvenser, kan vi bruke dette søkeuttrykket:

(1)
#f_ >PRED #p
& #f_ >(ARG1 PRED) ‘mor’
& #f_ >VFORM

Søkeuttrykket beskriver egenskaper ved en setning og finner setninger som tilfredsstiller denne beskrivelsen. ‘#’ markerer (eksistenskvantifiserte) variabler over delstrukturer. Første linje sier at det finnes en struktur #f_ som har et attributt PRED med verdi #p. Når variabelnavnet ‘#p’ ikke inneholder noen understrekning, medfører det at verdien blir skrevet ut. Annen linje sier at den samme strukturen #f_ har et ARG1 som igjen har et attributt PRED med verdien ‘mor’ – altså at argument 1 er mor. Tredje linje sier at strukturen også har et attributt VFORM (verbform) med en eller annen verdi – det tar vi med fordi også andre ordklasser enn verb kan ha argumenter (f.eks. preposisjoner), og vi ønsker å begrense oss til verb. Alle verb har en verdi for VFORM.

Dette søkeuttrykket finner 21 780 setninger (med 27 596 treff) i trebanken, med 2 167 ulike verb. Toppen av den frekvenssorterte listen er som nedenfor; selvsagt er de mest frekvente verbene generelt vanlige og ikke spesielle for ‘mor’ eller andre kvinnelige predikater.


Figur 5: Toppen av frekvenslisten for verb med mor som ARG1

For å utvide søket til de andre kvinnelige predikatene, bortsett fra egennavn, nevnt ovenfor (hun/ho, kvinne og jente) kan vi endre linje to i (1) ovenfor ved å erstatte predikatet ‘mor’ med en disjunksjon (en eller-forbindelse) mellom ulike predikater:

(2)
& #f_ >(ARG1 PRED) ‘hun|ho|kvinne|jente|mor’

Vi kan ikke liste opp alle mulige egennavn, men egennavn får en egen markering i c-strukturen, som også kan vises i diagrammet. Figur 6 viser c-strukturen for Avisen ble lest av Per:


Figur 6: C-struktur for Avisen ble lest av Per med morfologisk analyse av Per vist.

Det fremgår av Figur 6 at mannsnavn får de morfologiske trekkene Masc og FirstName; kvinnenavn får Fem og FirstName. Dette kan benyttes i søkeuttrykkene. For å søke etter verb med kvinnenavn som ARG1 kan vi bruke søkeuttrykket (3):

(3)
#f_ >PRED #p
& #x_:PROP > #w_:[morph=(«Fem») & morph=( «FirstName»)]
& #x_ >> #g_
& #f_ >ARG1 #g_
& #f_ >VFORM

Første linje er som i (1). Annen linje sier at det finnes en c-strukturnode #x_ med etikett PROP (som vi ser i Figur 6), og at denne dominerer (>) en node #w_ (selve navnet) med de morfologiske trekkene Fem og FirstName. Tredje linje sier at noden #x_ projiserer (>>), altså er forbundet med, en f-strukturnode #g_ (det vil si egennavnets f-struktur), og fjerde linje sier at #f_ har denne #g_ som sitt ARG1. Siste linje er som i (1). Dette søkeuttrykket vil da gi en utlisting av verb med frekvenser, i likhet med søkeuttrykket (1).

Det fulle søkeuttrykket som skal ta med både predikatene og egennavnene, og dessuten både de maskuline og de feminine på en slik måte at det blir sortert mellom dem, blir mye mer komplekst, og det vil føre for langt å gjennomgå det i detalj her. Sorteringen mellom kvinnelige og mannlige predikater oppnår vi ved at vi lister ut verdien av (GEND MASC) i f-strukturen (sml. Figur 1) ved de mannlige predikatene, og lar være å liste ut noen slik verdi ved de kvinnelige. Søkeuttrykket får da form av en kompleks disjunksjon (eller-forbindelse), der ‘… eller …’ markeres med ( …| … ):

(4)
((#f_ >PRED #p & #f_ >ARG1 #g_ >PRED ‘han|mann|gutt|gut|far’ & #f_ >(ARG1 GEND MASC) #masc | #x_:PROP > #w_:[morph=(«Masc») & morph=( «FirstName»)] & #x_ >> #g_ & #f_ >PRED #p & #f_ >ARG1 #g_ >(GEND MASC) #masc ) | (#f_ >PRED #p & #f_ >ARG1 #g_ >PRED ‘hun|ho|kvinne|jente|mor’ | #x_:PROP > #w_:[morph=(«Fem») & morph=( «FirstName»)] & #x_ >> #g_ & #f_ >PRED #p & #f_ >ARG1 #g_)) & #f_ >VFORM

Dette søkeuttrykket får ca. 2,3 millioner treff i trebanken, fordelt på ca. 8 800 ulike verb. Figur 7 viser et lite utsnitt av trefflisten. Første tallkolonne viser antall treff, annen tallkolonne hvor mange av disse som har MASK ARG1, og tredje tallkolonne hvor mange som har FEM ARG1.


Figur 7: Utsnitt av trefflisten med MASK og FEM ARG1 ved ulike verb

Den videre bearbeidelsen av disse dataene diskuteres i blogginlegget Far leser og mor syr?