Hagkvæm máltækni utan ensku - verkefnislok í Rannsóknasjóði
Verkefninu Hagkvæm máltækni utan ensku - íslenska tilraunin (Viable Language Technology Beyond English - Icelandic as a Test Case) sem hlaut öndvegisstyrk Rannsóknasjóðs árin 2009-2011, er nú lokið. Meginmarkmið verkefnisins var að þróa vísindalegar máltækniaðferðir sem henta auðlindalitlum tungumálum, einkum beygingamálum, og byggja upp málföng (hugbúnað og málleg gagnasöfn) fyrir íslenska máltækni.
Heiti verkefnis: Hagkvæm máltækni utan ensku
Verkefnisstjóri: Eiríkur Rögnvaldsson, Háskóla Íslands
Tegund styrks: Öndvegisstyrkur
Styrkár: 2009-2011
Styrkfjárhæð: 43,485 millj. kr. alls
Verkefnið skiptist í þrjá meginþætti:
1. Merkingarnet og merkingarnám (A semantic network with semantic mining). Þátttakendur í þessum verkþætti voru einkum dr. Matthew Whelpton dósent, og Anna Björk Nikulásdóttir doktorsnemi. Í þessum verkþætti voru þróaðar sjálfvirkar aðferðir og skrifaður hugbúnaður sem beitt var til greiningar á merkingarvenslum og merkingartengslum orða í stórri málheild. Niðurstöðurnar voru vistaðar í gagnagrunni, MerkOr, sem er aðgengilegur í gegnum vefviðmót sem og í gegnum opið forritunarviðmót. MerkOr gagnagrunnurinn inniheldur alls um 110.000 orð sem mynda alls 2,93 milljónir merkingarlega tengdra orðapara, auk 305 svokallaðra merkingarþyrpinga - lista af orðum sem tengjast sama merkingarsviði. Ávinningurinn af þessum verkþætti er í fyrsta lagi nýjar sjálfvirkar aðferðir til merkingargreiningar, í öðru lagi ritrýndar greinar í tímaritum og ráðstefnuritum, og í þriðja lagi gagnagrunnurinn MerkOr. Að auki er doktorsritgerð Önnu Bjarkar Nikulásdóttur vel á veg komin.
2. Vélrænt grófþýðingarkerfi (A shallow-transfer translation system). Þátttakendur í þessum verkþætti voru einkum dr. Hrafn Loftsson dósent og Martha Dís Brandt meistaranemi. Í þessum verkþætti voru gerðar tilraunir með að laga Apertium-þýðingarkerfið að íslensku - skrifa íslenskar reglur fyrir það og nýta kerfishluta (IceMorphy, Lemmald, IceTagger og IceParser) í stað upphaflegra Apertium-kerfishluta. Niðurstöður úr þessari tilraun eru birtar í meistararitgerð Mörthu Dísar Brandt og í ráðstefnugrein Mörthu o.fl. Ávinningurinn af þessum verkþætti er í fyrsta lagi tenging íslensku við þekkt þýðingarkerfi sem notað er til þýðingar milli fjölda tungumála þ.m.t. íslenskt reglusafn og orðasafn, í öðru lagi meistararitgerð og grein í ritrýndu ráðstefnuriti, og í þriðja lagi reglusafn og orðasafn fyrir íslenskt Apertium-kerfi.
3. Þáttunaraðferðir og trjábanki (Development of parsing strategies and a treebank). Þátttakendur í þessum verkþætti voru einkum Eiríkur Rögnvaldsson prófessor, Joel Wallenberg nýdoktor, og meistaranemarnir Anton Karl Ingason og Einar Freyr Sigurðsson. Í þessum verkþætti voru þróaðar nýjar og fljótvirkar aðferðir við setningafræðilega þáttun. Verkþátturinn var tengdur tveimur öðrum verkefnum, nýdoktorsverkefni Joels Wallenberg sem styrkt var af National Science Foundation og verkefni Eiríks Rögnvaldssonar, Sögulegur íslenskur trjábanki, sem styrkt var af Rannsóknasjóði Háskóla Íslands. Vegna þeirrar tengingar tókst að byggja upp mun stærri og viðameiri íslenskan trjábanka en ella. Ávinningurinn af þessum verkþætti er í fyrsta lagi nýjar og hraðvirkar aðferðir og hugbúnaður til vélrænnar og handvirkrar þáttunar, í öðru lagi ritrýndar greinar í tímaritum og ráðstefnuritum, og í þriðja lagi sögulegur íslenskur trjábanki með einni milljón orða.
Það er mat aðstandenda að verkefnið í heild hafi tekist mjög vel, öllum helstu markmiðum hafi verið náð og vel það. Í öllum verkþáttunum voru þróaðar nýjar aðferðir og skrifaður nýr hugbúnaður til að aðlaga og endurbæta aðferðir við greiningu og úrvinnslu á viðkomandi sviði. Allur sá hugbúnaður er í opnum og ókeypis aðgangi. Einnig urðu til í öllum verkþáttum viðamikil gagnasöfn sem munu nýtast í framtíðinni við margvísleg rannsóknar- og þróunarverkefni. Sögulegi íslenski trjábankinn hefur þegar verið talsvert nýttur til rannsókna.
Afurðir verkefnisins
1. Gagnagrunnar og hugbúnaður
1. Merkingarnet og merkingarnám
- Gagnagrunnur og opið forritunarviðmót merkingargreiningar: https://github.com/bnika/MerkOrCore
- Mynsturgreining og tölfræðialgrím: https://github.com/bnika/MerkOrExtraction
- Vefviðmót: http://merkor.skerpa.com
2. Vélrænt grófþýðingarkerfi
- Apertium-þýðingarkerfið með íslensku: http://sourceforge.net/projects/apertium/
- Vefviðmót íslensk-enskra þýðinga með Apertium: http://nlp.cs.ru.is/ApertiumISENWeb/
3. Þáttunaraðferðir og trjábanki
- Sögulegi íslenski trjábankinn (Icelandic Parsed Historical Corpus, IcePaHC): http://www.linguist.is/icelandic_treebank/Download
- Annotald, greiningarhugbúnaður fyrir trjábanka: https://github.com/Annotald/annotald
2. Lokaritgerð
Martha Dís Brandt. 2011. Developing an Icelandic to English Shallow Transfer Machine Translation System. MSc-ritgerð, Háskólanum í Reykjavík.
3. Greinar
1. Greinar og kaflar í ritrýndum tímaritum og bókum
Anna Björk Nikulásdóttir. 2012. Tölvutækur merkingarbrunnur fyrir íslenska máltækni. Grunnur lagður að því að tölvur skilji merkingu í íslenskum textum. Orð og tunga 14:19-38.
Anna Björk Nikulásdóttir og Matthew Whelpton. 2010. Lexicon Acquisition through Noun Clustering. LexicoNordica 17:141-161.
Eiríkur Rögnvaldsson. 2010. Sprogteknologiske ressourcer for islandsk leksikografi. LexicoNordica 17:181-195.
Eiríkur Rögnvaldsson, Anton Karl Ingason og Einar Freyr Sigurðsson. 2011. Coping with Variation in the Icelandic Parsed Historical Corpus (IcePaHC). Johannessen, Janne Bondi (ritstj.): Language Variation Infrastructure. Papers on selected projects, s. 97-111. Oslo Studies in Language 3.2. University of Oslo, Osló.
Eiríkur Rögnvaldsson, Anton Karl Ingason, Einar Freyr Sigurðsson og Joel Wallenberg. 2011. Creating a Dual-Purpose Treebank. Proceedings of the ACRH Workshop, Heidelberg, 5 Jan. 2012. Journal for Language Technology and Computational Linguistics 26,2:141-152.
Eiríkur Rögnvaldsson, Anton Karl Ingason, Einar Freyr Sigurðsson og Joel Wallenberg. 2012. The Icelandic Parsed Historical Corpus (IcePaHC). Proceedings of LREC 2012, s. 1978-1984. Istanbúl, Tyrklandi.
Eiríkur Rögnvaldsson, Anton Karl Ingason, Einar Freyr Sigurðsson og Joel Wallenberg. 2012. Sögulegi íslenski trjábankinn. Væntanlegt, Gripla 23.
Eiríkur Rögnvaldsson og Sigrún Helgadóttir. 2011. Morphosyntactic Tagging of Old Icelandic Texts and Its Use in Studying Syntactic Variation and Change. Sporleder, Caroline, Antal P.J. van den Bosch og Kalliopi A. Zervanou (ritstj:): Language Technology for Cultural Heritage: Selected Papers from the LaTeCH Workshop Series, s. 63-76. Springer, Berlín.
2. Greinar í ritrýndum ráðstefnuritum
Anna Björk Nikulásdóttir og Matthew Whelpton. 2009. Automatic Extraction of Semantic Relations for Less-Resourced Languages. Pedersen, Bolette Sandford, Anna Braasch, Sanni Nimb og Ruth Vatvedt Fjeld (ritstj.): Proceedings of the NODALIDA 2009 workshop on WordNets and other Lexical Semantic Resources - between Lexical Semantics, Lexicography, Terminology and Formal Ontologies, s. 1-6. NEALT Proceedings Series 7. Northern European Association for Language Technology (NEALT), Tartu University Library.
Anna Björk Nikulásdóttir og Matthew Whelpton. 2010. Extraction of Semantic Relations as a Basis for a Future Semantic Database for Icelandic. Sarasola, Kepa, Francis M. Tyers og Mikel L. Forcada (ritstj.): 7th SaLTMiL Workshop on Creation and Use of Basic Lexical Resources for Less-Resourced Languages, LREC 2010, s. 33-39. Valletta, Möltu.
Eiríkur Rögnvaldsson, Anton Karl Ingason, Einar Freyr Sigurðsson og Joel Wallenberg. 2012. The Icelandic Parsed Historical Corpus (IcePaHC). Proceedings of LREC 2012, s. 1978-1984. Istanbúl, Tyrklandi.
Martha Dís Brandt, Hrafn Loftsson, Hlynur Sigurþórsson og Francis M. Tyers. Apertium-IceNLP: A rule-based Icelandic to English machine translation system. Proceedings of the 15th Annual Conference of the European Association for Machine Translation (EAMT-2011). Leuven, Belgíu.
3. Óritrýndar greinar og skýrslur
Anna Björk Nikulásdóttir. 2012. Merkingarbrunnur fyrir íslenska máltækni. Yfirlit yfir aðferðir og niðurstöður. Lokaskýrsla.
Hlynur Sigurþórsson. 2010. Daemonizing and Enhancing IceNLP for the Purpose of Machine Translation. Rannsóknarverkefni við HR.
Hrafn Loftsson. 2010. Nýtt íslenskt-enskt grófþýðingarkerfi frá Máltæknisetri. Tímarit Háskólans í Reykjavík, mars, s. 38-39.