Om denne bloggen og NorGramBank

Norsk skriftspråk er et kjært diskusjonstema, og mange antagelser florerer. I dag er det lettere å teste slike antagelser enn det har vært før, på grunn av  store datasamlinger, eller språkressurser, som er blitt utviklet i økende omfang for mange språk i de senere år. Trebanker er en slik ressurs. En trebank er et tekstkorpus – en tekstsamling – som er forsynt med syntaktisk analyse av hver enkelt setning, noen ganger også med semantisk og annen språklig analyse. Trebanker kan brukes i utviklingen av språkteknologi, og de gjør det mulig å søke etter og sortere eksempler på ulike språklige fenomener, for slik å skaffe seg oversikt over dominerende språklige trekk ved tekstene.

NorGramBank er en trebank for bokmål og nynorsk på ca. 160 millioner ord analysert tekst (gradvis øket fra ca. 70 millioner ved de tidligste  blogginnleggene), utviklet i prosjektet INESS (2010 – 2017). Trebanken omfatter avistekst, sakprosa, barnebøker, romaner og stortingsforhandlinger. INESS’ nettside gir mer utførlig informasjon om prosjektet, og artikkelen «NorGramBank: A ‘Deep’ Treebank for Norwegian» gir en mer detaljert beskrivelse av trebanken for den faglig interesserte.

Denne bloggen vil ta for seg omdiskuterte fenomener i bokmål og nynorsk og presentere data om dem fra NorGramBank. Hensikten er både å bidra til et bedre faktagrunnlag for diskusjoner og å stimulere interessen for å bruke NorGramBank og andre språkressurser.

Helge Dyvik

Tilbake til hovedsiden