Hagkvæm máltækni utan ensku - verkefnislok í Rannsóknasjóði

4.1.2013

Verkefninu Hagkvæm máltækni utan ensku - íslenska tilraunin (Viable Language Technology Beyond English - Icelandic as a Test Case) sem hlaut öndvegisstyrk Rannsóknasjóðs árin 2009-2011, er nú lokið. Meginmarkmið verkefnisins var að þróa vísindalegar máltækniaðferðir sem henta auðlindalitlum tungumálum, einkum beyg­ingamálum, og byggja upp málföng (hugbúnað og málleg gagnasöfn) fyrir íslenska máltækni.

 small_Rannsoknasjodur

Heiti verkefnis: Hagkvæm máltækni utan ensku
Verkefnisstjóri:  Eiríkur Rögnvaldsson, Háskóla Íslands
Tegund styrks: Öndvegisstyrkur
Styrkár: 2009-2011
Styrkfjárhæð: 43,485 millj. kr. alls

 

Verkefnið skiptist í þrjá meginþætti:

1. Merkingarnet og merkingarnám (A semantic network with semantic mining). Þátttakendur í þessum verkþætti voru einkum dr. Matthew Whelpton dósent, og Anna Björk Nikulásdóttir doktorsnemi. Í þessum verkþætti voru þróaðar sjálfvirkar aðferðir og skrifaður hugbúnaður sem beitt var til greiningar á merkingarvenslum og merk­ingartengslum orða í stórri málheild. Niðurstöðurnar voru vistaðar í gagnagrunni, MerkOr, sem er aðgengilegur í gegnum vefviðmót sem og í gegnum opið forritunar­viðmót. MerkOr gagnagrunnurinn inniheldur alls um 110.000 orð sem mynda alls 2,93 milljónir merkingarlega tengdra orðapara, auk 305 svokallaðra merkingarþyrp­inga - lista af orðum sem tengjast sama merkingarsviði. Ávinningurinn af þessum verkþætti er í fyrsta lagi nýjar sjálfvirkar aðferðir til merkingargreiningar, í öðru lagi ritrýndar greinar í tímaritum og ráðstefnuritum, og í þriðja lagi gagnagrunnurinn MerkOr. Að auki er doktorsritgerð Önnu Bjarkar Nikulásdóttur vel á veg komin.

2. Vélrænt grófþýðingarkerfi (A shallow-transfer translation system). Þátttakendur í þessum verkþætti voru einkum dr. Hrafn Loftsson dósent og Martha Dís Brandt meistaranemi. Í þessum verkþætti voru gerðar tilraunir með að laga Apertium-þýð­ingarkerfið að íslensku - skrifa íslenskar reglur fyrir það og nýta kerfishluta (Ice­Morphy, Lemmald, IceTagger og IceParser) í stað upphaflegra Apertium-kerfishluta. Niðurstöður úr þessari tilraun eru birtar í meistararitgerð Mörthu Dísar Brandt og í ráðstefnugrein Mörthu o.fl. Ávinningurinn af þessum verkþætti er í fyrsta lagi tenging íslensku við þekkt þýðingarkerfi sem notað er til þýðingar milli fjölda tungu­mála þ.m.t. íslenskt reglusafn og orðasafn, í öðru lagi meistararitgerð og grein í ritrýndu ráðstefnuriti, og í þriðja lagi reglusafn og orðasafn fyrir íslenskt Apertium-kerfi.

3. Þáttunaraðferðir og trjábanki (Development of parsing strategies and a tree­bank). Þátttakendur í þessum verkþætti voru einkum Eiríkur Rögnvaldsson prófessor, Joel Wallenberg nýdoktor, og meistaranemarnir Anton Karl Ingason og Einar Freyr Sigurðsson. Í þessum verkþætti voru þróaðar nýjar og fljótvirkar aðferðir við setn­ingafræðilega þáttun. Verkþátturinn var tengdur tveimur öðrum verkefnum, ný­doktorsverkefni Joels Wallenberg sem styrkt var af National Science Foundation og verkefni Eiríks Rögnvaldssonar, Sögulegur íslenskur trjábanki, sem styrkt var af Rannsóknasjóði Háskóla Íslands. Vegna þeirrar tengingar tókst að byggja upp mun stærri og viðameiri íslenskan trjábanka en ella. Ávinningurinn af þessum verkþætti er í fyrsta lagi nýjar og hraðvirkar aðferðir og hugbúnaður til vélrænnar og handvirkrar þáttunar, í öðru lagi ritrýndar greinar í tímaritum og ráðstefnuritum, og í þriðja lagi sögulegur íslenskur trjábanki með einni milljón orða.

Það er mat aðstandenda að verkefnið í heild hafi tekist mjög vel, öllum helstu mark­miðum hafi verið náð og vel það. Í öllum verkþáttunum voru þróaðar nýjar aðferðir og skrifaður nýr hugbúnaður til að aðlaga og endurbæta aðferðir við greiningu og úr­vinnslu á viðkomandi sviði. Allur sá hugbúnaður er í opnum og ókeypis aðgangi. Einnig urðu til í öllum verkþáttum viðamikil gagnasöfn sem munu nýtast í framtíðinni við margvísleg rannsóknar- og þróunarverkefni. Sögulegi íslenski trjábankinn hefur þegar verið talsvert nýttur til rannsókna.

Afurðir verkefnisins

1. Gagnagrunnar og hugbúnaður

1. Merkingarnet og merkingarnám 

  • Gagnagrunnur og opið forritunarviðmót merkingargreiningar: https://github.com/bnika/MerkOrCore
  • Mynsturgreining og tölfræðialgrím: https://github.com/bnika/MerkOrExtraction
  • Vefviðmót: http://merkor.skerpa.com

2. Vélrænt grófþýðingarkerfi

3. Þáttunaraðferðir og trjábanki 

  • Sögulegi íslenski trjábankinn (Icelandic Parsed Historical Corpus, IcePaHC): http://www.linguist.is/icelandic_treebank/Download
  • Annotald, greiningarhugbúnaður fyrir trjábanka: https://github.com/Annotald/annotald

2. Lokaritgerð

Martha Dís Brandt. 2011. Developing an Icelandic to English Shallow Transfer Machine Translation System. MSc-ritgerð, Háskólanum í Reykjavík.

3. Greinar

1. Greinar og kaflar í ritrýndum tímaritum og bókum 

Anna Björk Nikulásdóttir. 2012. Tölvutækur merkingarbrunnur fyrir íslenska máltækni. Grunnur lagður að því að tölvur skilji merkingu í íslenskum textum. Orð og tunga 14:19-38.

Anna Björk Nikulásdóttir og Matthew Whelpton. 2010. Lexicon Acquisition through Noun Clustering. LexicoNordica 17:141-161.

Eiríkur Rögnvaldsson. 2010. Sprogteknologiske ressourcer for islandsk leksikografi. LexicoNordica 17:181-195.

Eiríkur Rögnvaldsson, Anton Karl Ingason og Einar Freyr Sigurðsson. 2011. Coping with Variation in the Icelandic Parsed Historical Corpus (IcePaHC). Johannessen, Janne Bondi (ritstj.): Language Variation Infrastructure. Papers on selected projects, s. 97-111. Oslo Studies in Language 3.2. University of Oslo, Osló.

Eiríkur Rögnvaldsson, Anton Karl Ingason, Einar Freyr Sigurðsson og Joel Wallenberg. 2011. Creating a Dual-Purpose Treebank. Proceedings of the ACRH Workshop, Heidelberg, 5 Jan. 2012. Journal for Language Technology and Computational Linguistics 26,2:141-152.

Eiríkur Rögnvaldsson, Anton Karl Ingason, Einar Freyr Sigurðsson og Joel Wallenberg. 2012. The Icelandic Parsed Historical Corpus (IcePaHC). Proceedings of LREC 2012, s. 1978-1984. Istanbúl, Tyrklandi.

Eiríkur Rögnvaldsson, Anton Karl Ingason, Einar Freyr Sigurðsson og Joel Wallenberg. 2012. Sögulegi íslenski trjábankinn. Væntanlegt, Gripla 23.

Eiríkur Rögnvaldsson og Sigrún Helgadóttir. 2011. Morphosyntactic Tagging of Old Icelandic Texts and Its Use in Studying Syntactic Variation and Change. Sporleder, Caroline, Antal P.J. van den Bosch og Kalliopi A. Zervanou (ritstj:): Language Technology for Cultural Heritage: Selected Papers from the LaTeCH Workshop Series, s. 63-76. Springer, Berlín.

2. Greinar í ritrýndum ráðstefnuritum

Anna Björk Nikulásdóttir og Matthew Whelpton. 2009. Automatic Extraction of Semantic Relations for Less-­Resourced Languages. Pedersen, Bolette Sandford, Anna Braasch, Sanni Nimb og Ruth Vatvedt Fjeld (ritstj.): Proceedings of the NODALIDA 2009 workshop on WordNets and other Lexical Semantic Resources - between Lexical Semantics, Lexicography, Terminology and Formal Ontologies, s. 1-6.  NEALT Proceedings Series 7. Northern European Association for Language Technology (NEALT), Tartu University Library.

Anna Björk Nikulásdóttir og Matthew Whelpton. 2010. Extraction of Semantic Relations as a Basis for a Future Semantic Database for Icelandic. Sarasola, Kepa, Francis M. Tyers og Mikel L. Forcada (ritstj.): 7th SaLTMiL Workshop on Creation and Use of Basic Lexical Resources for Less-Resourced Languages, LREC 2010, s. 33-39. Valletta, Möltu.

Eiríkur Rögnvaldsson, Anton Karl Ingason, Einar Freyr Sigurðsson og Joel Wallenberg. 2012. The Icelandic Parsed Historical Corpus (IcePaHC). Proceedings of LREC 2012, s. 1978-1984. Istanbúl, Tyrklandi.

Martha Dís Brandt, Hrafn Loftsson, Hlynur Sigurþórsson og Francis M. Tyers. Apertium-IceNLP: A rule-based Icelandic to English machine translation system. Proceedings of the 15th Annual Conference of the European Association for Machine Translation (EAMT-2011). Leuven, Belgíu.

3. Óritrýndar greinar og skýrslur 

Anna Björk Nikulásdóttir. 2012. Merkingarbrunnur fyrir íslenska máltækni. Yfirlit yfir aðferðir og niðurstöður. Lokaskýrsla.

Hlynur Sigurþórsson. 2010. Daemonizing and Enhancing IceNLP for the Purpose of Machine Translation. Rannsóknarverkefni við HR.

Hrafn Loftsson. 2010. Nýtt íslenskt-enskt grófþýðingarkerfi frá Máltæknisetri. Tímarit Háskólans í Reykjavík, mars, s. 38-39.









Þetta vefsvæði byggir á Eplica