Om denne bloggen og NorGramBank

Norsk skriftspråk er et kjært diskusjonstema, og mange antagelser florerer. I dag er det lettere å teste slike antagelser enn det har vært før, på grunn av  store datasamlinger, eller språkressurser, som er blitt utviklet i økende omfang for mange språk i de senere år. Trebanker er en slik ressurs. En trebank er et tekstkorpus – en tekstsamling – som er forsynt med syntaktisk analyse av hver enkelt setning, noen ganger også med semantisk og annen språklig analyse. Trebanker kan brukes i utviklingen av språkteknologi, og de gjør det mulig å søke etter og sortere eksempler på ulike språklige fenomener, for slik å skaffe seg oversikt over dominerende språklige trekk ved tekstene.

NorGramBank er en trebank for bokmål og nynorsk på ca. 70 millioner ord, utviklet i prosjektet INESS (2010 – 2017). Trebanken omfatter avistekst, sakprosa, barnebøker, romaner og stortingsforhandlinger. INESS’ nettside gir mer utførlig informasjon om prosjektet, og artikkelen «NorGramBank: A ‘Deep’ Treebank for Norwegian» gir en mer detaljert beskrivelse av trebanken for den faglig interesserte.

Denne bloggen vil ta for seg omdiskuterte fenomener i bokmål og nynorsk og presentere data om dem fra NorGramBank. Hensikten er både å bidra til et bedre faktagrunnlag for diskusjoner og å stimulere interessen for å bruke NorGramBank og andre språkressurser. Planen er å utbygge informasjonen i bloggen slik at lesere selv blir i stand til å gå inn og undersøke grunnlaget for det som blir presentert.

Helge Dyvik

Tilbake til hovedsiden