Gwe-ymlusgwr yw beth mae peiriant chwilio yn ei ddefnyddio i ganfod gwefannau a’u rhestru. Pan fyddwch yn chwilio’r we gan ddefnyddio Google, Bing, Yahoo neu unrhyw wasanaeth arall, yr ydych yn chwilio cronfa-ddata’r gwefan. Nid yw Google na neb arall yn chwilio holl gynnwys y we mewn chwinciad, gan fod hi’n amhosib, a chynnwys yn gyson cael ei greu, diweddaru neu ddiflannu.

Excite: gwe-ymlusgwr o’r gorffennol.
Dyma yw natur y rhyngrwyd. I’r mwyafrif o bobl, mae’r rhyngrwyd a’r we’r un beth. Yn syml, y rhyngrwyd yw’r isadeiledd a’r we yw un gwasanaeth o nifer sydd yn ei defnyddio. Yr un fath â ffyrdd a phontydd yw’r isadeiledd, a bws rhif 12 yw’r gwasanaeth sy’n cyfateb â’r we. Gall gwasanaethau eraill redeg fel ceir, cerddwyr a beicwyr sy’n gyffelyb ag ebost, FTP a P2P. Caiff y rhyngrwyd ei greu pan fo cyfrifiadur yn cysylltu â nifer eraill o gyfrifiaduron. Rhywbeth a ddaw i fodolaeth oherwydd y lluosog mwy neu lai. Ni all y rhyngrwyd cael ei ddileu neu newid fel mae’r cyfryngau yn ei ohebu pan fo cynnwys anwaraidd yn ymddangos; y dewis yw cymryd rhan neu beidio.
Pan fo cynnwys Cymraeg yn dod yn rhan o’r we ac o reidrwydd y rhyngrwyd sut ydym ni’n ei ganfod? Gallwn ddibynnu ar y BBC i ddefnyddio teledi, radio a’r wasg i’n hysbysebu am eu gwefannau, neu ffrind i ddweud wrthym am wefan fel Facebook. Fel yng nghymdeithas y cigfyd, mae ‘cylchoedd’ o bobl yn bodoli ar y we hefyd, wedi eu grwpio yn ôl diddordeb, iaith, neu eu cylch o’r cigfyd. Ond sut i ddod â’r cylchoedd yma ynghyd, a gallu chwilio’r wybodaeth gyhoeddus wedi ei drefnu yn ôl iaith yn gyntaf, ac yn ail yn ôl diddordeb?
Meddyliais am sut i greu gwe-ymlusgwr i gasglu gwybodaeth am fodolaeth gwefannau Cymraeg. Ar hyn o bryd mae Google yn ceisio casglu gwybodaeth am leoliad pob gwefan sydd bron iawn ar gael. I.e. cofnodi’r lleoliad ble mae cyfrifiadur wedi dod yn rhan o’r rhyngrwyd – hwn yw’r hyper-ddolen.
Y ffordd mae’r gwe-ymlusgwr yn gweithio yw cychwyn gydag un gwefan, ei gyrchu ac os yw’n canfod hyper-ddolenni eraill ar y gwefan, mae’n mynd ati i gyrchu nhw wedyn. Felly os mae gwefan Cymraeg gyda dolenni i wefannau Cymraeg eraill, bydd y gwe-ymlusgwr yn cofnodi’r rhain hefyd. Y broblem yw bod y gwefannau eraill yma’n debygol o gynnwys dolenni yn ôl at y gwefan gwreiddiol gan roi cylch caeëdig. Dyma un cylch, ond nid yw’n cysylltu â’r cylchoedd eraill.
Dull arall o gofnodi lleoliad gwefannau Cymraeg yw i’r gwe-ymlusgwr edrych am rywbeth penodol. Gyda llawer o waith gall raglen cael ei greu i geisio darllen ac adnabod testun fel Cymraeg, ond nid yw Google wedi llwyddo i wneud hyn eto gyda’u holl adnoddau. Dull haws yw defnyddio tagiau i ddynodi os yw gwefan cyfan neu ran ohoni’n cynnwys testun Cymraeg. Yn ôl canllawiau W3C, sef y corff sy’n arolygu’r cod sy’n rheoli ymddangosiad y we, i ddynodi iaith tudalen gwe gyfan dyma sydd ei angen:
<html lang=”cy”>
neu
<html xmlns=”http://www.w3.org/1999/xhtml” lang=”cy” xml:lang=”cy”>
Mae un tag i iaith HTML a’r llall i XHTML. I’r mwyafrif o wefannau HTML yw’r cod. Ond sut i’w hadnabod? Wel mae’n ddigon hawdd gwneud yn ôl ymddangosiad. Edrychwch ar yr uchod ac ychwanegwch lang=”cy”. Trwy wneud hyn mae’n diffinio’r tudalen gwe gydag iaith ‘Cymraeg’. Gwefan sy’n ymhelaethu mwy am y tagiau yw Computing with Accents, Symbols & Foreign Scripts.
Os yw gwefan heb iaith gyson, mae canllawiau W3C yn nodi sut i ddethol pa destun sy’n perthyn i ba iaith. Tag sy’n cael ei ddefnyddio’n aml i ddynodi cychwyn paragraff yw <p></p>, o amgylch y testun. Canllawiau W3C yw:
<p lang=”cy”></p>
Sydd yn labelu unrhyw iaith o fewn y tagiau fel Cymraeg. Gall ieithoedd y paragraffau amrywio nifer o ieithoedd ar yr un tudalen. Prif fantais hyn yw galluogi porwyr gwe i’r rhai sydd â diffyg golwg gael meddalwedd sy’n darllen y testun. Yn dibynnu ar yr iaith, mae’r porwr yn darllen yr iaith yn wahanol. O safbwynt gwe-ymlusgwr, mae’r tag yn cyhoeddi fod testun Cymraeg yn bresennol a dylai ei leoliad gael ei gofnodi!
Ar wahân i greu meddalwedd gwe-ymlusgo fy hun, mae pecynnau cod agored eisoes ar gael. Dau benodol dwi wedi bod yn chware efo yw ASPseek a Grub. Mae’r statws cod agored yn rhoi cyfle i olygu’r pecynnau i ddim ond chwilio am dagiau lang=”cy”, a’u cofnodi mewn un lle canolog. Os ydwyf yn llwyddo gall fod yn ddefnyddiol iawn, ond mae angen cydweithrediad gan eraill. Boed gwe-ymlusgwyr yn benodol i’r Gymraeg yn bodoli neu beidio mae dal yn syniad da cychwyn defnyddio lang=”cy” petai rywun fel Google yn dewis gwneud yn y dyfodol.