Croeso i apertium-cy, y cyfieithydd awtomatig rhydd (GPL) cyntaf yn Gymraeg!

Cliciwch yma i brofi'r cyfieithydd Cymraeg-Saesneg!

Cyfieithu awtomatig a'r Google Summer of Code

Bydd cyfieithu peirianyddol o ansawdd da o Gymraeg i Saesneg yn dod yn agosach pan gychwynnir ar broject newydd y mis yma.

Mae'r tîm rhyngwladol Apertium, a ryddhaodd eu cyfieithydd Cymraeg-Saesneg (http://www.cymraeg.org.uk [1]) ym mis Awst 2008, wedi cael ei dderbyn i mewn i'r pumed Google Summer of CodeTM [2], a bydd gwelliannau i'r cyfieithydd hwn yn cael ei ariannu fel un o'r projectau.

Platfform cyfieithu peirianyddol yw Apertium (http://www.apertium.org), sy'n Feddalwedd Rhydd [3]. Datblygwyd yn y dechrau i gyfieithu rhwng ieithoedd sy'n perthyn i'w gilydd yn Sbaen, ond dros y blynyddoedd diweddar estynnwyd y rhagleni drin iaethoedd eraill.

Hyd yn hyn, mae cyfieithyddion ar gyfer 17 pâr o ieithoedd wedi eu rhyddhau, yn cynrychioli 1.1bn o bobl, o Saesneg (tua 500m o lefarwyr) i Araneg (tua 4,000 o lefarwyr). Mae nifer tebyg o barau eraill yn cael eu datblygu, sy'n cynnwys ieithoedd Indeg megis Hindi a Bengaleg, ac ieithoedd Scandinafaidd megis Norwyeg a Sami.

Mae Google Summer of Code yn cynnig lwfans i fyfyrwyr i ysgrifennu cod ar gyfer projectau cod-agored, gyda chyngor gan fentoriaid sy'n gweithio esoes ar y projectau, ac mae o wedi helpu i greu miliynau o linellau o god ar gyfer dwsinau o brojectau. Dyma'r flwyddyn cyntaf i Apertium wneud cais i'r rhaglen, ac ariannir 9 o brojectau Apertium.

Mae'r cyfieithydd Cymraeg-Saesneg Apertium yn gweithio gan weithredu rheolau gramadegol i frawddeg Gymraeg i'w throi hi'n frawddeg Saesneg. Ffordd arall o wneud hyn (a ddefnyddir gan feddalwedd megis Moses [4]) yw defnyddio corff mawr o destun i weithio allan beth yw'r cyfieithiad tebygol am unrhyw ymadrodd.

Bydd y myfyriwr, Gabriel Synnaeve o Grenoble, Ffrainc [5], yn ceisio cyfuno'r ddwy ffordd yma o weithio, gan ddefnyddio technegau a ddatblygwyd ym Mhrifysgol Carnegie-Mellon yn yr UDA [6]. Yr amcan yw gwella ansawdd y cyfieithiad - bydd y cyfieithiadau Apertium a Moses yn cael eu cymharu, a'r darnau gorau o bob un yn cael eu defnyddio yn y cyfeithiad terfynol.

Er enghraifft, gweler y frawddeg Gymraeg: "Mae Heddlu'r De yn ymchwilio i farwolaeth dyn 41 oed o Abertawe."

Mae Apertium ar hyn o bryd yn cynhyrchu: "South Wales Police is investigating death man 41 years old Swansea."

Mae Moses ar hyn o bryd yn cynhyrchu: "the south wales police investigation into the death of a man 41 years of age of abertawe."

Y bwriad yw cyfuno'r darnau gorau o bob rhaglen, i gynhyrchu rhywbeth fel: *[South Wales Police] *[is investigating] +[the death of a man] *[41 years old] +[of] *[Swansea] Yma, mae'r darnau a nodir gan * yn dod o Apertium, a'r rhai a nodir gan + o Moses, ac mae cyfuno'r ddau yn gwella ansawdd y cyfieithiad.

Dyma waith arloesol, heb ei wneud o'r blaen. Awgrymodd yr Athro Harold Somers, mewn adroddiad ym 2004 ar gyfer Bwrdd yr Iaith [7], y dylai amcan tymor-canol ar gyfer cyfieithu peirianyddol yn Gymraeg fod “to integrate ... different [machine translation] engines into a single system”. Nid oes unrhyw beth wedi ei wneud hyd yn hyn, a gwaith Gabriel fydd y cais cyntaf i ddod â'r syniad yma o "multi-engine machine translation" ar gyfer y Gymraeg yn agosach i fodolaeth.

Dywedodd Francis Tyers [8], fydd yn rhoi cyngor i Gabriel, "Dipyn o siom oedd hi nad oedden ni'n cael cais gan fyfyriwr Cymreig, ond mae hyn yn gyfle gwych i wella technoleg iaith yn Gymraeg. Rydym ni'n siŵr o weld cynnydd o safbwynt ansawdd y cyfieithu."

Mae Gabriel wedi cychwyn ar y gwaith eisoes. "Ar hyn o bryd dwi'n gwneud newidiadau mân i'r cyfieithydd Moses i'w wneud mor effeithlon â phosib. Mae'r gymuned Apertium yn gyfeillgar iawn, ac roeddwn i eisiau cyfrannu i broject mawr cod-agored, felly dwi'n falch nes i'r cais."

Dywedodd Kevin Donnelly [9], a weithiodd gyda Francis i greu'r cyfieithydd Cymraeg -Saesneg Apertium, fod hwn yn gam mawr i'r Gymraeg. “Mae'n ardderchog cael cymaint o bobl dalentog yn gweithio ar Apertium, a braf yw hi gweld eu bod nhw'n ystyried Cymraeg fel blaenoriaeth. Yr hyn sydd angen rŵan yw ymdrech gan y mudiadau sy'n hybu Cymraeg yma yng Nghymru i annog a rhoi cefnogaeth i'r gwaith yma.”

Nodiadau

[1] http://ufal.mff.cuni.cz/pbml-91-100.html. Francis Tyers and Kevin Donnelly (2009): "apertium-cy - a collaboratively-developed free RBMT system for Welsh to English", Prague Bulletin of Mathematical Linguistics, 91.

[2] http://code.google.com/soc

[3] http://www.fsf.org/about/what-is-free-software. Mae'r Free Software Foundation yn diffinio "Meddalwedd Rhydd" fel meddalwedd y gellir ei ddefnyddio, copïo, newid a dosbarthu gan y defnyddiwr.

[4] http://www.statmt.org/moses. System cyfieithu peirianyddol ystadegol yw Moses - mae'n god-agored.

[5] Gabriel Synnaeve yw myfyriwr yn yr École Nationale Supérieure d'Informatique et de Mathématiques (http://ensimag.grenoble-inp.fr), canolfan bwysig ar gyfer mathemateg ac thechnoleg gwybodaeth. Bydd o'n graddio ym mis Medi 2009, ac yn cychwyn gwaith wedyn ar ddoethuriaeth ar ddysgu peirianyddol Bayesaidd.

[6] Alon Lavie (http://www.cs.cmu.edu/~alavie) sy'n arwain y gwaith yma. Gweler hefyd: http://www.cs.cmu.edu/~alavie/papers/EAMT-2005-MEMT.pdf. S. Jayaraman and A. Lavie (2005): "Multi-Engine Machine Translation Guided by Explicit Word Matching", Proceedings of EAMT-2005.

[7] http://www.byig-wlb.org.uk/english/publications/publications/2302.doc. Harold Somers (2004): "Machine translation and Welsh: the way forward.", Adroddiad ar gyfer Bwrdd yr Iaith Gymraeg.

[8] Astudiodd Francis Tyers wyddoniaeth cyfrifiadurol yn Aberystwyth, ac ar hyn o bryd mae'n beiriannwr iaith gyda Prompsit Language Engineering, S.L. ac yn fyfyriwr PhD ym Mhrifysgol Alacant. Mae'n un o'r datblygwyr blaenorol Apertium, gyda diddordeb arbennig yn ei estyn i drin yr ieithoedd Celtaidd.

[9] Mae Kevin Donnelly wedi bod yn gweithio ar Feddalwedd Rhydd yn Gymraeg ers 2003, a datblygodd Eurfa, geiriadur arlein Cymraeg (http://www.eurfa.org.uk).

English


Cysylltwch â ni


Gwefannau eraill

Apertium

Cronfa frawddegau Llydaweg

Eurfa - geiriadur rhydd

Klebran - cywirydd gramadeg

Ffurfiau cryno berfau Cymraeg


Eurfa ar gyfer Stardict

Cymraeg-Saesneg

Saesneg-Cymraeg


Geriaoueg

Arf geirfa gwefan