Gwe-ymlusgwr yw beth mae peiriant chwilio yn ei ddefnyddio i ganfod gwefannau a’u rhestru. Pan fyddwch yn chwilio’r we gan ddefnyddio Google, Bing, Yahoo neu unrhyw wasanaeth arall, yr ydych yn chwilio cronfa-ddata’r gwefan. Nid yw Google na neb arall yn chwilio holl gynnwys y we mewn chwinciad, gan fod hi’n amhosib, a chynnwys yn gyson cael ei greu, diweddaru neu ddiflannu.
Excite: gwe-ymlusgwr o’r gorffennol.
Dyma yw natur y rhyngrwyd. I’r mwyafrif o bobl, mae’r rhyngrwyd a’r we’r un beth. Yn syml, y rhyngrwyd yw’r isadeiledd a’r we yw un gwasanaeth o nifer sydd yn ei defnyddio. Yr un fath â ffyrdd a phontydd yw’r isadeiledd, a bws rhif 12 yw’r gwasanaeth sy’n cyfateb â’r we. Gall gwasanaethau eraill redeg fel ceir, cerddwyr a beicwyr sy’n gyffelyb ag ebost, FTP a P2P. Caiff y rhyngrwyd ei greu pan fo cyfrifiadur yn cysylltu â nifer eraill o gyfrifiaduron. Rhywbeth a ddaw i fodolaeth oherwydd y lluosog mwy neu lai. Ni all y rhyngrwyd cael ei ddileu neu newid fel mae’r cyfryngau yn ei ohebu pan fo cynnwys anwaraidd yn ymddangos; y dewis yw cymryd rhan neu beidio.
Pan fo cynnwys Cymraeg yn dod yn rhan o’r we ac o reidrwydd y rhyngrwyd sut ydym ni’n ei ganfod? Gallwn ddibynnu ar y BBC i ddefnyddio teledi, radio a’r wasg i’n hysbysebu am eu gwefannau, neu ffrind i ddweud wrthym am wefan fel Facebook. Fel yng nghymdeithas y cigfyd, mae ‘cylchoedd’ o bobl yn bodoli ar y we hefyd, wedi eu grwpio yn ôl diddordeb, iaith, neu eu cylch o’r cigfyd. Ond sut i ddod â’r cylchoedd yma ynghyd, a gallu chwilio’r wybodaeth gyhoeddus wedi ei drefnu yn ôl iaith yn gyntaf, ac yn ail yn ôl diddordeb?
Meddyliais am sut i greu gwe-ymlusgwr i gasglu gwybodaeth am fodolaeth gwefannau Cymraeg. Ar hyn o bryd mae Google yn ceisio casglu gwybodaeth am leoliad pob gwefan sydd bron iawn ar gael. I.e. cofnodi’r lleoliad ble mae cyfrifiadur wedi dod yn rhan o’r rhyngrwyd – hwn yw’r hyper-ddolen.
Y ffordd mae’r gwe-ymlusgwr yn gweithio yw cychwyn gydag un gwefan, ei gyrchu ac os yw’n canfod hyper-ddolenni eraill ar y gwefan, mae’n mynd ati i gyrchu nhw wedyn. Felly os mae gwefan Cymraeg gyda dolenni i wefannau Cymraeg eraill, bydd y gwe-ymlusgwr yn cofnodi’r rhain hefyd. Y broblem yw bod y gwefannau eraill yma’n debygol o gynnwys dolenni yn ôl at y gwefan gwreiddiol gan roi cylch caeëdig. Dyma un cylch, ond nid yw’n cysylltu â’r cylchoedd eraill.
Dull arall o gofnodi lleoliad gwefannau Cymraeg yw i’r gwe-ymlusgwr edrych am rywbeth penodol. Gyda llawer o waith gall raglen cael ei greu i geisio darllen ac adnabod testun fel Cymraeg, ond nid yw Google wedi llwyddo i wneud hyn eto gyda’u holl adnoddau. Dull haws yw defnyddio tagiau i ddynodi os yw gwefan cyfan neu ran ohoni’n cynnwys testun Cymraeg. Yn ôl canllawiau W3C, sef y corff sy’n arolygu’r cod sy’n rheoli ymddangosiad y we, i ddynodi iaith tudalen gwe gyfan dyma sydd ei angen:
<html lang=”cy”>
neu
<html xmlns=”http://www.w3.org/1999/xhtml” lang=”cy” xml:lang=”cy”>
Mae un tag i iaith HTML a’r llall i XHTML. I’r mwyafrif o wefannau HTML yw’r cod. Ond sut i’w hadnabod? Wel mae’n ddigon hawdd gwneud yn ôl ymddangosiad. Edrychwch ar yr uchod ac ychwanegwch lang=”cy”. Trwy wneud hyn mae’n diffinio’r tudalen gwe gydag iaith ‘Cymraeg’. Gwefan sy’n ymhelaethu mwy am y tagiau yw Computing with Accents, Symbols & Foreign Scripts.
Os yw gwefan heb iaith gyson, mae canllawiau W3C yn nodi sut i ddethol pa destun sy’n perthyn i ba iaith. Tag sy’n cael ei ddefnyddio’n aml i ddynodi cychwyn paragraff yw <p></p>, o amgylch y testun. Canllawiau W3C yw:
<p lang=”cy”></p>
Sydd yn labelu unrhyw iaith o fewn y tagiau fel Cymraeg. Gall ieithoedd y paragraffau amrywio nifer o ieithoedd ar yr un tudalen. Prif fantais hyn yw galluogi porwyr gwe i’r rhai sydd â diffyg golwg gael meddalwedd sy’n darllen y testun. Yn dibynnu ar yr iaith, mae’r porwr yn darllen yr iaith yn wahanol. O safbwynt gwe-ymlusgwr, mae’r tag yn cyhoeddi fod testun Cymraeg yn bresennol a dylai ei leoliad gael ei gofnodi!
Ar wahân i greu meddalwedd gwe-ymlusgo fy hun, mae pecynnau cod agored eisoes ar gael. Dau benodol dwi wedi bod yn chware efo yw ASPseek a Grub. Mae’r statws cod agored yn rhoi cyfle i olygu’r pecynnau i ddim ond chwilio am dagiau lang=”cy”, a’u cofnodi mewn un lle canolog. Os ydwyf yn llwyddo gall fod yn ddefnyddiol iawn, ond mae angen cydweithrediad gan eraill. Boed gwe-ymlusgwyr yn benodol i’r Gymraeg yn bodoli neu beidio mae dal yn syniad da cychwyn defnyddio lang=”cy” petai rywun fel Google yn dewis gwneud yn y dyfodol.

3 Sylw
Mae bob amser yn ymarfer da i nodi iaith unrhyw destun ar y we wrth gwrs, ond mae Google yn dueddol o ddefnyddio dulliau arall i adnabod yr iaith.
Mae Google yn gwneud hynny drwy ddadansoddiad ystadegol (fel popeth arall mae nhw’n wneud). Dyna mae nhw’n gwneud ar gyfer eu teclyn cyfieithu. Gan fod hwnna yn ‘deall’ Cymraeg, dwi’n synnu nad yw’r iaith hefyd yn rhan o’i chwiliad (ddim yn synnu mewn gwirionedd.. mae Google yn araf iawn yn gwneud unrhyw newidiadau sydd ddim yn bwysig i’w busnes craidd).
Ydi Grub, er enghraifft, yn gallu defnyddio adnabod ieithoedd neu ddefnyddio ategyn allanol i wneud? Dwi wedi defnyddio modiwl Perl Lingua::Identify i adnabod testun Cymraeg ar raddfa fychan, ond yn defnyddio deunydd wedi ei gasglu’n barod nid drwy ymlusgwr.
Cofio hwn gyda llaw? Chwilotydd – roedd hwnna’n gweithio mewn ffordd simplistig iawn.
Mae lot o systemau cynnwys yn ychwanegu’r lang=”cy” (e.e. mae WordPress yn wneud e yn awtomatic).
Casgliad yw fy “thema y flwyddyn”. Mae’r we Gymraeg yn wasgaredig.
Tasai’n grêt baset ti’n gallu creu teclynnau chwilio uniaith Cymraeg. Efallai does dim rhaid i ti poeni am ymlusgo achos mae’r Google wedi gwneud y gwaith yn barod? Mae’r casgliad yn bodoli. Efallai mae rhywun yn gallu datblygu rhywbeth gyda Google Search API i gasglu’r pethau Cymraeg.
Google Serch!
Mae gwe-ymlusgwr dal yn ddiddorol fel problem gwyddoniaeth cyfrifiaduron wrth gwrs.
Sori heb ymateb ynghynt, wedi bod yn brysur.
Dim ond gwneud dipyn o chware o gwmpas ac ymholi ynghylch rhedeg gwe-ymlusgiwr.
Dwi eto i edrych ar API Google, ond byswn i’n disgwyl/gobeithio bod hwn wedi cofnodi ym mha iaith mae dogfennau. Er enghraifft, mae’r newyddion Cymraeg y BBC yn gwneud defnydd o labelu