Digido testunau a llyfrau sain Cymraeg

Rhifyn cyntaf Eco’r Wyddfa – Chwefror 1976

Tynnwyd fy sylw’n ddiweddar at archif arlein o Eco’r Wyddfa. Ffeiliau PDF – sganiau o hen gopïau print, gyda phob tudalen yn llun. Y peth sy’n anffodus gyda ffeiliau yn y fformat hwn yw’r anallu i chwilio drwyddynt. Nid oes modd agor y ffeil a gwasgu ‘Ctrl + F’, ac nid yw Google yn gallu ei ychwanegu i’w fynegai chwaith.

Cafodd gopïau gwreiddiol o Eco’r Wyddfa eu sganio. I’r rheiny wnaeth brynu sganiwr blynyddoedd yn ôl, bosib i chi gofio defnyddio cyfleuster ‘Scan to Text’. Sganio dogfen gyda thestun arni, ac yn lle bod y testun yn rhan annatod o’r ddelwedd, ei bod yn destun a all gael ei olygu mewn meddalwedd fel Word. Yr enw ar y gallu hwn yw Optical Character Recognition (OCR) / Adnabod Llythyren Optegol (ALlO). Doedd y dechnoleg ddim yn llwyddiannus iawn ar y pryd, ac yr oedd hi’n aml yn gyflymach teipio’r testun o’r newydd yn lle cywiro’r holl wallau!

Gyda sganwyr Hewlett Packard (HP), yr oedd eu meddalwedd ‘Scan to Text’ wedi ei adeiladu ar graidd Tesseract. Rhyddhaodd HP Tesseract o dan drwydded agored yn 2005, ac ers hynny mae Google a chyfranwyr eraill wedi ei ddatblygu ym mhellach gyda chynnydd mawr. Nid Tesseract yw’r unig feddalwedd sydd ar gael – mae eraill fel ABBYY – ond mae’n agored, am ddim, ac yn cefnogi’r Gymraeg. Gall Tesseract wneud dau beth: adnabod unrhyw destun mae’n synhwyro a’i roi mewn ffeil destun, neu greu ffeil PDF gyda llun o’r sgan fel cefndir a haen gyda thestun chwiladwy ar ei ben.

Mae Llyfrgell Genedlaethol Cymru wedi bod yn defnyddio meddalwedd ALlO ers blynyddoedd i greu adnoddau gwych fel Cylchgronau Cymru. Ond ni allem ddisgwyl i’r Llyfrgell Genedlaethol wneud popeth.

Wedi sôn am Eco’r Wyddfa, dyma brofi sut i adnabod y testun mewn sganiau o bapur bro’r Wyddgrug, Papur Fama, a chreu PDF. (Yr oedd copïau yn y garej.) Cam pwysig iawn i wneud yn siŵr bod y testun yn cael ei adnabod yn gywir, yw bod gan y sgan cydraniad uchel (300 dpi yn lle 72 dpi mwy cyffredin), a chyferbyniad amlwg rhwng y cefndir a’r testun; cefndir gwyn, a thestun du – lefelau tonyddol y golau. Bydd hyn yn arwain at ffeiliau gyda meintiau mawr.

Dyma fy nghamau:

  • Cafodd y lefelau tonyddol eu gosod gyda fy meddalwedd sganio, ond mae’n bosib ei wneud gyda phecyn fel Photoshop, GIMP, ImageMagick etc.
  • Fesul un sganio pob tudalen a chreu ffeil llun.
  • Creu ffeil efo cyfeiriad i bob ffeil fesul llinell newydd
  • Rhedeg Tesseract.
tesseract rhestr_lluniau.txt ffeil_1 -l cym+eng PDF

Rhedeg Tesseract, nodi pa ffeiliau i’w defnyddio, nodi enw’r ffeil allbwn, nodi geiriau pa ieithoedd i geisio’u hadnabod, nodi fy mod eisiau ffeil PDF. Ar ôl creu pob PDF, fe wnes i eu golygu i leihau maint y lluniau. Yr oedd eu hangen yn fawr i gychwyn, fel bod modd eu darllen gan y cyfrifiadur. Bellach, mae’r testun wedi ei hadnabod a maint y ffeil yn fawr iawn.

Dyma ddau rifyn o Papur Fama – Mai 1991 a Rhagfyr 1992.

Papur Fama Mai 1991

Papur Fama Rhagfyr 1992

Mewn darllenydd PDF, os bwyswch ‘Ctrl + A’ gallwch weld y testun sydd wedi ei adnabod o fewn y sgan, ac sydd bellach mewn haen ar wahân yn y ffeil; sylwch nad yw’r testunau mewn bocsiau llwyd wedi eu hadnabod. Gallwch chwilio trwy’r ddogfen rŵan hefyd gyda ‘Ctrl + F’. Llwyddiant!

Ffordd dda o geisio rhoi mwy o’r Gymraeg ar y we!

 

Cam dau

Un gwefan dwi’n mwynhau ei ddarllen yw un Lowri Haf Cooke. Yn aml mae hi’n cyfrannu i gyhoeddiadau print, gyda hi’n rhoi llun o’r cyhoeddiad ar ei gwefan. Fel uchod, nid yw hi’n bosib chwilio’r geiriau. Ni fydd y testun mewn llun o erthygl yn Y Dinesydd yn ymddangos mewn chwiliadau Google.

Felly dyma roi’r llun o erthygl Bwytai Merch y Ddinas – Hoffi Coffi trwy Tesseract. Yr unig wahaniaeth y tro hwn yw peidio nodi fy mod eisiau ffeil PDF. Bydd yn creu ffeil destun gyda’r ysgrifen a adnabyddir.

Erthygl Lowri Haf Cooke yn Y Dinesydd

 

Nid dyna, bob tro, oedd fy mhrofiad
rai blynyddoedd yn ôl, wrth ymchwilio ì
nghyfrol cyntaf, Canllaw Bach
Caerdydd. Mae ‘na un caffi amlwg ger
llyn y Rhath sy’n dal i ‘nghorddi pan
lonciaf heibio iddo. Lleoliad gorau’r
ddinas, ond gweledigaeth ddi-fflach,
syn crynhoi diffyg uchelgais y
ddinas (tan yn ddiweddar) i’r dim.
Cofiaf sgwrsio â pherchennog tŷ te
Gerddi Waterloo – oedd newydd
agor ar y pryd — oedd yn dyheu am

Dolen at y ffeil llawn.

Un o’r problemau a welwn yma yw, er mor dda yw Tesseract am adnabod colofnau a darnau o destun wedi eu gosod yma ac acw, mae’n adnabod y testun yn union. Hynny yw, mae’n hollti pob llinell fel y mae heb allu deall mai’r un frawddeg sy’n llifo. Ond petai’r testun a echdynnir yn cael ei roi ochr yn ochr â’r llun gwreiddiol, bydd dal modd canfod y dudalen gyda chwiliadau Google…

 

Cam tri

Gyda’r Eisteddfod Genedlaethol wythnos nesaf, un o’r digwyddiadau a drefnwyd gan Comisiynydd Cenedlaethau’r Dyfodol Cymru yw “A ddylai robotiaid siarad Cymraeg?” Be am drio?

Gwasanaethau yn y cwmwl yw’r cyfle i bobl a busnesau cyffredin fanteisio ar isadeiledd cyfrifiadurol enfawr cwmnïoedd fel Salesforce, Google, Amazon, Microsoft etc. Maent oll yn ceisio datblygu technolegau deallusrwydd artiffisial, gydag un ohonynt yn wasanaeth trosi testun i sain. Enw’r gwasanaeth mae Amazon (AWS) yn ei gynnig yw Polly. Mae’n cefnogi sawl iaith gyda lleisiau dyn neu wraig, gan gynnwys y Gymraeg.

Dyma fwydo rhan o’r testun a echdynnwyd o erthygl Y Dinesydd uchod, a chreu’r clip sain isod. Gwyneth AWS sy’n ei llefaru. Safon ddealladwy a digon derbyniol, ond mae’n amlwg na chyfrifiadur sydd wedi creu’r sain.

 

Mae’r uchod yn dangos sut gall y Gymraeg gael ei ddigido a’i ledaenu. Ysgrifen safonol a diddorol sy’n sownd mewn print, gyda’r gallu i ffeindio’i ffordd i’r we ac yn chwiliadwy i bawb. I’r rheiny sydd heb amser, cyfle i wrando ar gynnwys Cymraeg, neu adnoddau defnyddiol iawn i ddysgwyr.

I gloi, dyma tair brawddeg cyntaf y llyfr Ymarfer Ysgrifennu gan Gwyn Thomas:

Y mae cywirdeb iaith yn hollbwysig. Cwynir yn gyffredinol heddiw fod safon Cymraeg ysgrifenedig wedi dirywio’n enbyd. Ymddengys fod ein Cymraeg llyfr, yn ogystal â’n Cymraeg llafar, yn frith o idiomau Seisnig, diffyg treigladau, cystrawennau chwithig a chamgymeriadau sillafu.

 

 

(Gallwch gael cipolwg ar sut mae Tesseract yn gweithio yn y papur adolygiadol hwn.)

This entry was posted in Uncategorized. Bookmark the permalink. Post a comment or leave a trackback: Trackback URL.

Post a Comment

Your email is never published nor shared. Required fields are marked *

You may use these HTML tags and attributes <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*
*

This site uses Akismet to reduce spam. Learn how your comment data is processed.