Data mawr Cambridge Analytica

Yn ôl ymchwiliadau Newyddion Channel 4The Guardian, mae cwmni Cambridge Analytica wedi casglu data personol heb ganiatâd, proffilio pobl yn seicolegol, ac wedyn eu targedu gyda hysbysebion manwl. Crëwyd ffeithiau a newyddion ffug – celwydd – i ategu honiadau yn yr hysbysebion. Un o’u hymgyrchoedd oedd cymell pobl i bleidleisio o blaid gadael yr Undeb Ewropeaidd (UE).

Casglu gwybodaeth heb ganiatâd

Platfform data yw Facebook – nid yw’n creu cynnwys – mae’n casglu ein data personol a’i werthu. Trwy ei ddefnyddio yr ydym yn cytuno i hyn – ar y lleiaf trwy dderbyn hysbysebion; ar y mwyaf (hyd y gwyddwn) i rannu ein data gyda busnesau eraill.

Trwy ddefnyddio ‘ap’ neu raglen a grëwyd gan Cambridge Analytica ar blatfform Facebook, mae pobl wedi cytuno i rannu eu gwybodaeth bersonol. Mae rheoliad llac Facebook, wedi galluogi Cambridge Analytica i gasglu gwybodaeth gan gyfeillion y bobl sydd yn defnyddio’i rhaglen – heb iddynt wybod. Petai 100 o bobl wedi defnyddio’r rhaglen, a phob un o’r 100 efo 1,000 o gyfeillion, mae Cambridge Analytica wedi casglu data ar (100 x 1000) 100,000 o bobl, er na dim ond 100 o bobl sydd wedi caniatáu hyn. Y ffigwr a adroddwyd yn y newyddion yw hyd at 57 miliwn (57,000,000) o bobl.

Hysbysebu wedi ei dargedu

Caiff ein data ei ddefnyddio i dargedu’r hysbysebion yr ydym yn ei weld. Petaech yn nodi eich bod wedi dyweddïo, byddwch yn gweld hysbysebion priodas; petai Facebook yn synhwyro eich bod yn Nolgellau – unai trwy ddarllen eich mewnbwn am dref gartref neu ganfod cyfesurynnau GPS – fe welwch hysbyseb am fwyty newydd yn Nolgellau. Bydd busnes yn gosod hysbyseb ar Facebook gan nodi ei chynulleidfa, a Facebook yn unig sy’n penderfynu pwy sydd yn ei weld heb ddangos y data i’r busnes. Mae hyn yn creu incwm sylweddol, gyda’r disgwyl y bydd Facebook yn ennill dros $20 biliwn ($20,000,000,000) eleni. Ond mae cwmnïoedd yn barod i dalu mwy i gael y data i’w hunain.

Yn wybodus i bobl neu beidio, mae eich gweithgareddau digidol yn creu pob math o ddata. Gall y data fod yn gyfoethog iawn, sef negesuon a ysgrifennir neu luniau a rennir. Be bynnag fo cyfoeth y data, mae meta-data ar gael, sef data am y data. Er enghraifft, gall meta-data gynnwys y wybodaeth hyn am berson sy’n ymweld a gwefan: math o gyfrifiadur (Android, iPhone, Windows); beth yw iaith y dyfais (Cymraeg, Saesneg); yr amser a’r dyddiad; cyfeiriad IP sydd yn rhoi ryw syniad o leoliad y dyfais. Yn aml caiff meta-data ei ddefnyddio i gael argraff o’r gynulleidfa sydd yn ymweld a gwefan, a hyn ar ben unrhyw ysgrif/llun a rannwyd.

Gyda meta-data syml a rhestr o’r tudalennau mae person yn ei ddilyn, techneg digon syml yw cyfrifo faint o bobl yn nalgylch Caerdydd sydd yn dilyn tudalen Gadael neu Aros. Gall hysbysebion gael eu targedu at drigolion sydd, unai wedi nodi eu bod yn byw yng Nghaerdydd neu’n ymweld gwefan gyda chyfeiriad IP ardal Caerdydd.

Proffilio seicolegol a newyddion ffug

I broffilio person mae angen casglu cymaint o ddata a phosib, i gael darlun llawn o’u hoffterau a theimladau. Fel rheol mae pynciau’n gysylltiedig. Dyma broffiliau o bobl Aros a Gadael, sy’n ail-adroddiad o gynnwys gwefannau megis The Financial Times.

Aros Gadael
Poeni dim am fewnfudo Poeni llawer am fewnfudo
Dosbarth canol Dosbarth gweithiol
Byw mewn stadau o dai sengl preifat Byw mewn tai cyngor
Byw mewn ardaloedd dinas fewnol Byw mewn ardaloedd ôl-ddiwydiant

Yn lle holi a yw person o blaid gadael yr UE, gall ymholiad fynd ar drywydd diddordebau cysylltiedig. Gan ddefnyddio’r tabl blaenorol fel map, gallaf hybu cefnogaeth dros yr ymgyrch Gadael drwy ddangos hysbysebion “bydd gadael yr UE yn sicrhau mwy o bres i adnewyddu tai cyngor” neu “bydd gadael yr UE yn ein galluogi i adnewyddu hen weithfeydd mewn ardaloedd diwydiannol”.

I fynd ymhellach gallaf greu ffeithiau neu newyddion ffug i ategu’r neges mewn hysbyseb. Yn ogystal â dangos hysbyseb “bydd gadael yr UE yn sicrhau mwy o bres i adnewyddu tai cyngor”, bydd dolen at erthygl wneud ar sut mae’r UE yn cwtogi ar alluoedd awdurdodau lleol i adnewyddu eu tai cyngor oherwydd biwrocratiaeth. Bydd hyn yn targedu pobl sydd eisoes ar y trywydd o daro pleidlais dros adael yr UE. I’r rheiny sydd eto i wneud penderfyniad, gall newyddion ffug cael ei greu i bardduo rhai o nodweddion proffil Aros. Gyda hysbyseb “nid yw’r UE yn trin mewnfudwyr gyda thegwch” bydd dolen i erthygl ar sut mae’r llywodraeth gyfredol yn ceisio rhoi mwy o hawliau i fewnfudwyr, ond methu gan nad yw’n cyfateb a pholisi Brwsel.

Nid yw’r uchod yn wahanol i hen dactegau gwleidyddol o faeddu enw rhywun gyda smear campaign, ond mae llawer mwy effeithiol pan fo hysbysebu yn cael ei dargedu at unigolyn.

Technegau proffilio

Gall berson ysgrifennu “Brexit yw’r peth orau i ddigwydd i’r wlad ma!” neu “Brexit yw’r peth gwaethau i ddigwydd i’w wlad ma!”, a chymryd yn ganiataol bod y person o blaid Brexit oherwydd presenoldeb y gair.

Gyda thechnegau dysgu peiriant (machine learning), mae’n bosib hyfforddi cyfrifiadur i geisio adnabod teimladau sy’n wraidd i neges (sentiment analysis). Un o rhain yw dosbarthwr diniwed Bayes (naive Bayes classifier), sydd yn ddosbarthwr tebygoliaethol (probabilistic classifier). Mae dosbarthwr diniwed Bayes yn un dan oruchwyliaeth, gan ein bod yn bwydo data sydd wedi ei labelu un ai Aros neu Gadael. Yr ydym wedi penderfynu eisoes i ba grŵp mae’r neges yn perthyn, ac yr ydym am hyfforddi’r cyfrifiadur i geisio dysgu’r patrymau hyn.

Petai deg darn o destun, ac yn wybodus i ni mae pum neges o blaid Aros a phump o blaid Gadael, y tebygolrwydd o ddewis neges Aros ar hap yw 0.5 – y tebygolrwydd o ddewis Gadael yw 0.5. Mewn achos o gael deg neges a saith wedi ei labelu’n Aros, y tebygolrwydd o ddewis neges Aros ar hap yw 0.7 etc. Y cam nesaf yw cyfrifo amlder allweddeiriau o fewn negeseuon Aros a Gadael.

Yr yr enghraifft ddilynol, wedi dadansoddiad testun sydd yn cynnwys y gair “mewnfudwyr” y tebygolrwydd mai neges o blaid Aros yw 0.05 (0.5 x 0.01), tra fo’r tebygolrwydd mai neges o blaid Gadael yw 0.3 (0.5 x 0.6). Gall y broses hon gael ei ail-adrodd drosodd a throsodd gydag ystod eang o allweddeiriau.

 

Techneg wahanol yw word2vec, sydd yn ddosbarthwr heb oruchwyliaeth. Mae’n dibynnu ar dechnolegau rhwydwaith niwral (yr un math sydd yn gefn i geir hunan-yrru) ac yn rhifo geiriau o fewn darn o destun. Caiff y rhifau hyn eu gosod mewn gofod gyda sawl dimensiwn, a thrwy broses o brofi a gwella, mae’r dosbarthwr yn cyfrifo pa eiriau sydd fwyaf tebygol o amgylchynu un o dan sylw o fewn brawddeg, fel yn yr enghraifft ddilynol. Trwy weld pa eiriau sydd yn agos i’w gilydd gall Camrbidge Analytica gynnwys rhai newydd yn ran o broffil.

Hyd yn hyn mae’r ystyriaeth wedi bod yn chwilota negeseuon am allweddeiriau. Nid yw pawb yn rhannu negeseuon. Ond petaent yn hoffi neges cyfaill neu glicio ar ddolen, mae’n bosib ychwanegu’r testun at eu proffiliau nhw. Petai person A yn ysgrifennu neges, a phobl B a C yn hoffi’r neges, er nad yw B a C wedi ysgfriennu unrhyw beth bydd neges person A yn cael ei ychwanegu at broffiliau B a C. Mae medrau cyfrifiaduron heddiw yn ein galluogi i adeiladu proffiliau enfawr am bobl, a miliynau ohonynt.

 

Cyfoethogiad data a phroffilio manwl

Yr ydym wedi dechrau gydag egin o ddatwm, sef rhif adnabod cyfrif Facebook, ac wedi mynd ati i broffilio person drwy gasglu data a’i gysylltu yn ôl i’r egin. Mae’n bosib un ai astudio cysylltiadau uniongyrchol o fewn set o ddata e.e. negeseuon a ysgrifennwyd ar Facebook, negeseuon a hoffwyd ar Facebook, dolennau sydd wedi ei glicio, tudalennau sy’n cael eu dilyn, rhestr cyfeillion, manylion proffil fel dyddiad geni, neu edrych am ddata o darddau eraill.

Pan fydd data o sawl tardd yn cael ei roi yn yr un lle, mae’n bosib defnyddio algorithmau i’w cydweddu. Petai Cambridge Analytica wedi cael gafael ar lwyth o ddata o Facebook a Twitter, mae’n bosib bod yr un person yn bodoli yn y ddau set.

Gall algorithm fel pellter Levenshtein gymharu pa mor agos yw un darn o destun i ddarn o destun arall – petaech gyda dau gofnod sydd yn cynnwys maes enw, gellir rhoi sgôr ar y tebygrwydd mai’r un enw ydyw. Os oes sawl maes i’w gymharu fel enw, dyddiad geni, a chyfeiriad, mae wedyn yn bosib creu sgôr hyder i ddangos mesur o sicrwydd. Ar raddfa enfawr, mae meddalwedd menter gan gyflenwyr fel IBM yn ceisio cydweddu data o ffynonellau gwahanol – miliynau o bwyntiau data – mwy o wybodaeth yma.

O wybod hyn, does dim i beidio amau bod Cambridge Analytica wedi casglu data o Facebook, Twitter, Pinterest, Instagram ac unrhyw gyfrwng cymdeithasol arall, ei gydweddu a chreu proffiliau, gyda chysylltiadau mewnol wedi eu seilio ar hoffterau, aildrydariadau, nifer o weithiau a ddarllenwyd. Rhywbeth sydd yn sicr o roi braw i bobl pan fyddent yn sylweddoli cymaint o wybodaeth maent yn ei rannu.

Yn aml mae data o un tardd yn gallu bod yn ddiddorol, ond mae’r gwir werth yn dod o gyfuno sawl tardd efo’i gilydd. Dim ond wedyn mae’n bosib creu cysylltiadau rhwng pwyntiau data gwahanol a chyflwyno mewnwelediadau na fuodd yn amlwg ynghynt.

I gloi, ystyriwch beth sydd yn bosib gyda setiau o ddata sydd yn agored ac am ddim. Petaech yn cydweddu proffil Facebook neu Twitter gyda manylion sydd ar y Gofrestr Etholiadol neu’r Llyfr Ffôn, mae modd cysylltu cyfeiriad tŷ a rhif ffôn. Wedi gwneud hyn beth am gydweddu’r cyfeiriad o’r Gofrestr Etholiadol efo’i hun eto, a chysylltu enwau pobl eraill sydd yn rhannu’r un cyfeiriad – creu rhwydwaith o sut mae pobl yn gysylltiedig i’w gilydd. Mae llawer yn bosib eisoes, ac nid Cambridge Analytica yw’r unig rai sydd yn manteisio ar y data.

 

This entry was posted in Uncategorized. Bookmark the permalink. Post a comment or leave a trackback: Trackback URL.

Post a Comment

Your email is never published nor shared. Required fields are marked *

You may use these HTML tags and attributes <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*
*