Megadatagradu
Graduprojektissani tutkin argentiinanmuurahaisia, jotka ovat levinneet alkuperäisestä elinympäristöstään Etelä-Amerikasta Paraná-joen laaksosta kaikkialle maailmaan. Valloittamillaan alueilla nämä pienet muurahaiset aiheuttavat monia ongelmia. Ne muuttavat paikallisen luonnon monimuotoisuutta pysyvästi ja pahimmassa tapauksessa aiheuttavat jopa paikallisten lajien sukupuuttoja. Tutkimusmateriaali koostui neljän eri populaation koko genomin laajuisista sekvenssidatoista. Selvitin kuinka uusille alueille levinneiden populaatioiden genomit eroavat alkuperäisellä alueella elävästä populaatiosta.
Genomissa on tieto yksilön koko perimästä eli kaikista DNA-ketjuista. DNA:ssa on neljänlaisia emäksiä: adeniinia (A), tymiiniä (T), sytosiinia (C) ja guaniinia (G). Sekvensoinnissa selvitetään näiden emästen tarkka järjestys DNA-ketjussa. Sekvensoituja DNA-ketjuja sisältävä tiedosto näyttää tältä:
Tiedosto sisältää jokaiselle sekvensoidulle DNA-ketjulle eli sekvenssille tunnisteen ja tarkan emäsjärjestyksen sekä lisäksi laatuarvot yksittäisille emäksille. Laatuarvojen perusteella voidaan arvioida, kuinka hyvin sekvensointi on onnistunut ja kuinka luotettavina yksittäisiä emäksiä voidaan pitää. Näiden kirjainyhdistelmien perusteella tehdään monia päätelmiä tutkimuspopulaatioista, joten on tärkeää, että sekvenssien emäsjärjestykset eivät sisällä runsaasti sekvensointivirheitä.
Suurenmoinen CSC Argentiinanmuurahaisten genomisia sekvenssejä sisältävien tiedostot olivat niin suuria, etten millään olisi voinut tallentaa niitä omalle koneelleni puhumattakaan siitä, että olisin käsitellyt niitä omalla koneellani. Ongelmaan oli onneksi olemassa ratkaisu. Suomessa on maailmanlaajuisesti lähes ainutlaatuinen palvelu, Tieteen tietotekniikan keskus CSC, joka tarjoaa ilmaiseksi datan tallennustilaa ja laskentapalvelimia suomalaisille tutkijoille. Tein tutkijan käyttöliittymän CSC:lle ja tallensin sekvenssidatan sisältävät tiedostot palvelimelle. Täällä pystyin myös työskentelemään datan kanssa tehokkaasti. Otin omalta koneeltani etäyhteyden palvelimelle ja työskentelin datan kanssa aivan kuten se olisi ollut tallennettuna omalle koneelleni. Monet tarvitsemistani ohjelmista olivat valmiiksi asennettuina CSC:llä ja kaikki loput pystyin asentamaan siellä olevaan omaan hakemistooni. Tätä varten jouduin opettelemaan ohjelmointikieliä – onneksi pärjäsin pääasiassa alkeilla ja silloin kuin oma ymmärrys loppui kesken, sain apua CSC:n arvokkailta asiakaspalvelijoilta.
Suodatus ja linjaus Ensitöikseni suodatin dataa. Poistin muun muassa huonolaatuisia emäksiä sisältävät, epäluotettavat sekvenssit. Suodatuksen jälkeen linjasin jäljelle jääneet sekvenssit viitegenomiin eli valmiiksi koostettuun argentiinanmuurahaisen genomiin. Viitegenomin latasin NCBI:n (National Center for Biotechnology Information) julkisesta tietokannasta. Linjaamisella tarkoitetaan sitä, että sekvensseille etsitään oikeat paikat genomista tähän tarkoitetun algoritmin avulla, ja näin sekvenssit saadaan myös oikeaan järjestykseen suhteessa toisiinsa.
Monimuotoisten kohtien kartoitus Linjattuja sekvenssejä käsiteltiin vielä monella tapaa ennen varsinaisia populaatiogeneettisiä analyysejä. Lopulta linjattujen sekvenssien tiedostoista etsittiin monimuotoiset kohdat viitegenomista. Populaatiogeneettisessä mielessä erityisen mielenkiintoisia ovat näet juuri ne genomin kohdat, joissa esiintyy enemmän kuin yhtä emästyyppiä. Nämä monimuotoiset eli polymorfiset kohdat kertovat tutkijalle paljon tutkimuspopulaatioiden nykytilasta ja historiasta. Linjattujen sekvenssien tiedosto näyttää tältä:
Tutkimuksissani sain selville, että vastoin odotuksia uusille alueille levinneet valloittajapopulaatiot olivat geneettisesti yhtä monimuotoisia kuin alkuperäisellä alueella elävä populaatio. Erittäin mielenkiintoinen tulos oli, että yksi valloittajapopulaatioista – Chilen populaatio – oli geneettisesti paljon monimuotoisempi kuin muut tutkimuspopulaatiot. Havaittujen ilmiöiden taustalla olevien syiden selvittely vaatii lisätutkimuksia.
Ida Holmberg, LuK, Oulun yliopisto
Videolla Ida kertoo lyhyesti tutkimuksestaan. Kesto noin 5 min.