Om denne bloggen, NorGramBank og CAS

Norsk skriftspråk er et kjært diskusjonstema, og mange antagelser florerer. I dag er det lettere å teste slike antagelser enn det har vært før, på grunn av  store datasamlinger, eller språkressurser, som er blitt utviklet i økende omfang for mange språk i de senere år. Trebanker er en slik ressurs. En trebank er et tekstkorpus – en tekstsamling – som er forsynt med syntaktisk analyse av hver enkelt setning, noen ganger også med semantisk og annen språklig analyse. Trebanker kan brukes i utviklingen av språkteknologi, og de gjør det mulig å søke etter og sortere eksempler på ulike språklige fenomener, for slik å skaffe seg oversikt over dominerende språklige trekk ved tekstene.

NorGramBank er en trebank for bokmål og nynorsk på ca. 70 millioner ord, utviklet i prosjektet INESS (2010 – 2017). Trebanken omfatter avistekst, sakprosa, barnebøker, romaner og stortingsforhandlinger. INESS’ nettside gir mer utførlig informasjon om prosjektet, og artikkelen «NorGramBank: A ‘Deep’ Treebank for Norwegian» gir en mer detaljert beskrivelse av trebanken for den faglig interesserte.

Denne bloggen vil ta for seg omdiskuterte fenomener i bokmål og nynorsk og presentere data om dem fra NorGramBank. Hensikten er både å bidra til et bedre faktagrunnlag for diskusjoner og å stimulere interessen for å bruke NorGramBank og andre språkressurser. Planen er å utbygge informasjonen i bloggen slik at lesere selv blir i stand til å gå inn og undersøke grunnlaget for det som blir presentert.

CAS er Senter for grunnforskning ved Det Norske Videnskaps-Akademi, der jeg har et opphold i 2017 – 2018 som medlem av gruppen SynSem: from Form to Meaning – Integrating Linguistics and Computing, ledet av Dag T. Haug og Stephan Oepen.  Denne bloggen er utviklet i løpet av oppholdet ved CAS, der jeg har rik kontakt med internasjonalt ledende forskere på området komputasjonell grammatikkutvikling, syntaktisk og semantisk analyse, og trebanker.

Helge Dyvik

Tilbake til hovedsiden