GENOS - Suomen Sukututkimusseuran aikakauskirja

[ Artikkelin loppu ]

TIETOKONEAVUSTEINEN SUKUTUTKIMUS

Professori SEPPO SIPPU, Helsinki

Jo parin vuosikymmenen ajan on markkinoilla ollut mikrotietokoneessa toimivia, sukututkimusta avustavia ohjelmistoja, joita käyttäen sukututkija on voinut tallentaa tutkimustuloksiaan yksityiseen tietokantaansa ja tuottaa tiedoista raportteja tutkimustarpeisiin tai julkaistavaksi. Ulkomaisista ohjelmistoista suomalaisiin oloihin sovitettuja laitoksia sekä kokonaan kotimaisin voimin kehitettyjä ohjelmistoja on ollut jo pitkään saatavilla useampiakin.[1] Nykyisin yhä useampi sukukirja on tuotettu paino-originaalia myöten valmiiksi sukututkimusohjelmiston avulla.

Myös sukututkimuksen lähdeaineistoa on siirretty sähköiseen muotoon, mikä voi nopeuttaa tiedon keruuta ja siis tutkimusprosessia ratkaisevasti. Suomen Sukututkimusseuran hallinnoiman ja pitkälti vapaaehtoisvoimin toimivan HisKi-projektin tuloksena on jo saatu tallennetuksi yli kolmensadan Suomen seurakunnan muinaisten jäsenten syntymä-, vihkimä- ja kuolintietoja, jotka ovat tutkijoiden saatavilla Seuran tietokannasta maailmanlaajuisen tietoverkon välityksellä.[2] Tutkimustuloksiaan sukututkija voi julkaista sähköisesti omilla verkkosivustoillaan tai lähettämällä tietonsa jonkin sukututkimusyhteisön tai -yrityksen ylläpitämään yleiseen sukututkimustietokantaan.

 

Yksilöiden ja perheiden mallinnus

Sukututkimus on mallinnettava tietokoneessa siten, että tieto välittyy käyttäjälleen mahdollisimman täydellisenä ja vääristymättömänä. Tyypillisen sukututkimusohjelmiston tietokanta on suunniteltu ensi sijassa johtopäätösten, so. sukututkimuksen tulosten esittämiseen. Keskeisimpiä johtopäätöksiä ovat lähdemaininnoista sukutieteellisen päättelyn kautta kootut yksilöt ja perheet ja niihin liitetyt ominaisuudet. Käsitteellisellä tasolla tiedot voidaan mallintaa kahdentyyppisinä tietueina, jotka koostuvat ominaisuuksille varatuista kentistä. Yksilötietue mallintaa yksittäistä mies- tai naispuolista tai sukupuoleltaan tuntematonta henkilöä, jonka tutkija arvelee olleen olemassa. Yksilötietueen kentissä esitetään lähteistä selville saatuja yksilön ominaisuuksia, kuten nimi, sukupuoli, syntymä, kuolema ynnä muita yksilön elämänvaiheisiin liittyviä tapahtumia paikka- ja aikamääreineen, ammatit sekä vapaamuotoista elämäkerrallista tekstiä. Perhetietue mallintaa ydinperhettä eli isää, äitiä ja heidän yhteisten lastensa katrasta. Perhetietueen kentissä esitetään isälle ja äidille yhteiset ominaisuudet kuten vihkiminen. Perheen jäsenroolit esitetään kolmentyyppisinä kytköksinä perhetietueen ja yksilötietueiden välillä: yksilön kytkös perheeseen isän, äidin tai lapsen roolissa.

Miestä esittävä yksilötietue voi kytkeytyä isän roolissa nollaan tai useampaan perhetietueeseen ja lapsen roolissa nollaan tai yhteen perhetietueeseen. Naista esittävä yksilötietue voi kytkeytyä äidin roolissa nollaan tai useampaan perhetietueeseen ja lapsen roolissa nollaan tai yhteen perhetietueeseen. Jos perhetietueeseen P on kytketty isän roolissa yksilötietue M ja äidin roolissa yksilötietue N ja lapsen roolissa yksilötietueet L1,...,Ln, tarkoittaa tämä, että tietueiden L1,...,Ln esittämät yksilöt ovat tutkijan mielestä tietueiden M ja N esittämien yksilöiden yhteisiä lapsia. Jos yksilötietueen H esittämä mies (tai nainen) on ollut m kertaa aviossa ja hänellä on mahdollisten aviolasten lisäksi lapsia n:n muun partnerin kanssa, tarvitaan tietojen täydelliseen esittämiseen m+n perhetietuetta, joihin kaikkiin H kytkeytyy isän (tai äidin) roolissa. Kytköksen puuttuminen voi tarkoittaa eri asioita. Esimerkiksi yksilötietue, jota ei ole kytketty lapsen roolissa mihinkään perhetietueeseen, voi esittää yksilöä, jonka vanhemmat eivät ole tiedossa tai eivät kuulu tutkimuksen piiriin tai odottavat vielä tietojensa sijoittamista tietokantaan tai kytkentää perheeseen.

Uranuurtajiin sukutiedon mallintamisen ja automaattisen käsittelyn alalla kuuluu Myöhempien Aikojen Pyhien Jeesuksen Kristuksen kirkko eli mormonikirkko, jonka sukututkimusosasto on kehittänyt GEDCOM-tietomallin alunperin sukutietokantojensa tiedonsiirron tarpeisiin (GEnealogical Data COMmunication).[3] Yleisen GEDCOM- syntaksin sukujohteismallissa esitetään yksilötietueen (INDIvidual) ja perhetietueen (FAMily) ominaisuudet kentissä, jotka voivat olla hierarkkisia ja sisältää alikenttiä. Mallin tekstimuodossa tietueen aloittava tekstirivi varustetaan tasonumerolla 0 ja tietueen kentät tasonumerolla 1. Tietueelle tai hierarkkiselle kentälle välittömästi alisteinen kenttä varustetaan yhtä suuremmalla tasonumerolla. Yksilötietueeseen voidaan liittää kenttinä koko joukko erilaisia attribuutteja, kuten sukupuoli (SEX), nimiä (NAME) ja ammatteja (OCCUpation), sekä yksilöön liittyviä tapahtumia, kuten syntymä (BIRTh), kuolema (DEATh) ja vapaasti määriteltäviä tapahtumia (EVENt). Perhetietueen tapahtumakenttiin kuuluu mm. vihkiminen (MARRiage). Attribuutin tai tapahtuman tyyppiä (TYPE) voidaan tarkentaa ja siihen voidaan liittää paikka- ja aikamääre (PLACe ja DATE). Vapaamuotoista elämäkertatekstiä voidaan sijoittaa NOTE-kenttiin. Pitkät tekstikentät jaetaan riveihin jatkokenttää (CONTinuation) käyttäen. Jokainen tietokantaan luotava tietue saa yksikäsitteisen tunnisteen (@-merkein ympäröity merkkijono).

GEDCOM-tietomallissa INDI- ja FAM-tietueiden väliset kytkökset esitetään kaksisuuntaisesti kytkinkenttien avulla. Kytkinkenttä sisältää kytkettävän tietueen tunnisteen. INDI-tietueen FAMS-kytkinkentät ilmaisevat perheet, joissa yksilö on aviopuolison (spouse), so. isän tai äidin roolissa, ja FAMC-kytkinkenttä ilmaisee perheen, jossa yksilö on lapsen roolissa. FAM-tietueen HUSB-kytkinkenttä ilmaisee perheen isän ja WIFE-kytkinkenttä äidin, ja CHIL-kytkinkentät ilmaisevat lapset. Kytkösten kaksisuuntaisuus on tarkoituksellista ylimäärää, redundanssia; täydellinen ja yksikäsitteinen esitys saavutettaisiin jo yksisuuntaisella kytkennällä.

Perhetietueita käyttävää mallinnustapaa on kritisoitu. Sen sanotaan johtavan luonnottomiin rakenteisiin tai edesauttavan tietokannan välittämän tiedon ylitulkintaa erityisesti varhaisempia aikoja koskevissa tutkimuksissa, joissa miehen lapsia tunnetaan mutta heidän äitinsä ovat tuntemattomia. Jos näet n lasta tunnetaan, muttei tiedetä, ketkä heistä ovat täys- ja ketkä puolisisaruksia, olisi ylitulkinnan välttämiseksi perustettava n eri perhetietuetta, joihin kuhunkin kytketään miehen yksilötietue isän roolissa ja yhden lapsen yksilötietue lapsen roolissa. Jos sitten myöhempi tutkimus tuo lisätiedon, että kaksi lapsista on samasta äidistä, voidaan asianomaiset perhetietueet yhdistää. Perhetietueiden erillisyys ei kuitenkaan silloin saa välittää sitä johtopäätöstä, että mies olisi ollut isänä niin monessa eri ydinperheessä tai että lapset, joiden äiti on tuntematon, olisivat kaikki keskenään vain puolisisaruksia.

Ongelmasta päästään tietysti eroon luopumalla perhetietueista ja kytkemällä kunkin lapsen yksilötietue suoraan vanhempiensa tietueisiin ja vanhempien yksilötietueet suoraan toisiinsa. Suoria kytköksiä käytettäessä tarvitaan n-lapsisen perheen mallinnuksessa kaikkiaan 2n+1 kaksisuuntaista kytköstä (lasten kytkökset erikseen isään ja äitiin sekä isän kytkös äitiin). Perhetietuetta käyttävä mallinnustapa on tietokantasuunnittelun periaatteiden kannalta oikeampioppinen ja johtaa esitykseen, joka sisältää vähemmän redundanssia: siinä riittää n+2 kaksisuuntaista kytköstä (lasten ja vanhempien kytkökset perheeseen). Perhetietue on myös sopivin paikka avioparin yhteisten tapahtumien kuten vihkimisen esittämiseen, kun taas suoria kytköksiä käyttävässä mallissa joudutaan päättämään, kumman puolison yksilötietueessa tapahtuma milloinkin esitetään, ja ratkaisu on joka tapauksessa epäsymmetrinen.

koodia
Osa GEDCOM-tiedostosta, joka esittää (kuvitteellista) Mörskovius-suvun sukututkimusta. Kuvasta puuttuvat mm. Johan Mörskoviuksen ja hänen vaimonsa Katariina Eskontyttären viiden lapsen yksilötietueet (l 7-11) sekä Johanin vanhempien perhetietue (F2) ja yksilötietueet.

Rafal Prinke on esittänyt näiden kahden mallinnustavan välimuotoa, jossa perhetietue säilytettäisiin isän ja äidin yhteisten tapahtumien tallennuspaikkana sekä puolisoiden kytkemiseen toisiinsa, mutta lapset kytkettäisiin suoraan vanhempiinsa.[4] Itse olen sillä kannalla, että perhetietue on syytä säilyttää syntaktisesti eli muodoltaan entisenlaisena rakenteena. Sitä ei kuitenkaan pitäisi tulkita ydinperheeksi vaan tietueen semantiikka eli merkitys tulisi määritellä seuraavasti. Jos perhetietue P sisältää kytköksen yksilötietueeseen H isän roolissa (vast. äidin roolissa), tietue välittää tiedon, että H:n esittämä yksilö on P:hen lasten roolissa kytkettyjen yksilöiden isä (vast. äiti). Perhetietue saa siis ydinperheen merkityksen ainoastaan silloin, kun siihen on sekä isän että äidin roolin kytkökset. Jomman kumman kytköksen puuttuessa perhetietue ei välitä mitään tietoa siitä, ovatko lapset täyssisaruksia vai puolisisaruksia. Näin ollen on yhdentekevää, kytketäänkö saman isän lapset, joiden äiti on tuntematon, kukin eri perhetietueeseen vai kaikki samaan. Jälkimmäinen tapa on tietysti esityksen tiiviyttä ajatellen suositeltavampi. Jos jonkun sisaruksen äiti sitten saadaan selville, on tätä varten perustettava uusi perhetietue. Loput sisaruksista jäävät kytketyiksi entiseen perheeseen, mutta esitys ei edelleenkään sisällä mitään viitettä siitä, onko isällä ollut ydinperheitä kaikkiaan yksi vai useampia.[5]

 

Lähteiden ja päättelyn mallinnus

Sukutietokantamallissa tulee aina olla mahdollisuus johtopäätösten perusteluiden esittämiseen, so. lähdeviittauksiin sekä lähteistä poimittujen tietojen kommentointiin. GEDCOM-tietomallissa jokaiseen attribuuttiin ja tapahtumaan voidaan liittää yksi tai useampi lähdeviittaus (SOURce citation), joka on yleensä 2-tason alikenttä. Viittaus voi olla kenttään kokonaan sulautettu alikenttä, jolloin se sisältää myös lähteen täydelliset arkisto- tai bibliografiset tiedot, tai kytkinkenttä, joka sisältää erillisen, 0-tason lähdetietueen (SOURce record) tunnisteen ja mahdollisesti viitattavan kohdan tarkemmin yksilöivän tiedon kuten sivunumeron. Edellinen tapa soveltuu hyvin siihen ytimekkääseen mutta kuitenkin tarkkaan viittausmenettelyyn, jota on perinteisesti käytetty Suomen historian tutkimuksessa alkuperäisiin arkistolähteisiin viitattaessa.

Erillisiä lähdetietueita käyttävä tapa on taas luontevampi silloin, kun tutkimuksessa viitataan useammin kuin kerran samaan painettuun lähteeseen. Lähdesidoksen bibliografiset tiedot esitetään silloin vain kerran, SOUR-tietueessa, ja kun tietokannasta tulostetaan julkaistavaksi tarkoitettu raportti, liitetään täydelliset bibliografiset tiedot ensimmäiseksi sattuvan viittauksen yhteyteen, ja seuraaviin viittauksiin laitetaan sivunumeron lisäksi vain tekijän sukunimi ja julkaisuvuosi. Kummassakin tavassa on mahdollista sisällyttää viittaukseen sekä lähteestä poimittua alkuperäisasuista tekstiä (TEXT) että tutkijan itsensä tekemiä, lähdetietoa analysoivia kommentteja (NOTE). GEDCOMin kehittäjät näyttävät suosivan erillisten SOUR-tietueiden käyttöä, ja onkin mahdollista, että mallin myöhemmistä laitoksista sulautetut lähdeviittaukset poistuvat.[6]

GEDCOMin SOUR-viitteillä ja -tietueilla on mahdollista esittää valmiin sukututkimuksen sisältämien johtopäätösten perustelut täydellisesti. Itse sukututkimusprosessin kuvaukseen malli on kuitenkin riittämätön. Sukututkijalle kertyy tutkimustyön edetessä joukko lähdepoimintoja, jotka harvoin sellaisenaan sisältyvät valmiiseen tutkimukseen. Tyypillinen lähdepoiminto noudattaa ainakin henkilö- ja paikannimien osalta alkuperäislähteen kieliasua ja referoi lähdettä laajemmin kuin lopullinen julkaistu tutkimus. Tutkija saattaa kirjata tärkeältä vaikuttavan 1600- tai 1700-luvun käräjäjutun kokonaisuudessaan ja alkuperäistekstiä tarkasti noudattaen. Juttupoiminnot tutkija arkistoi tuomiokunnittain, vuosittain ja käräjittäin, ja laatimallaan käräjäkohtaisella juttuluettelolla tai muulla tavoin tutkija kirjaa vastaisen varalle muistiin, missä määrin ja missä tarkoituksessa hän on käynyt läpi kyseisen lähdesarjan. Lähdepoiminnot tulisi mallintaa rakenteisesti siten, että niitä voidaan automaattisesti käsitellä sekä johtopäätöksiin kytkettyinä että johtopäätöksistä riippumattomasti.

Elokuussa 1998 sukututkimuksen tietotekniikkaa kehittävä GenTech-järjestö julkaisi oman tietomallinsa sukututkimustietokannoille.[7] Kehitystyön lähtökohtana oli järjestön Lexicon-työryhmän yritys määritellä tarkasti sukututkimuksen käsitteistö ja terminologia sukututkimustiedon siirrettävyyttä ja ohjelmistokehityksen tarpeita silmällä pitäen. Työn tuloksena syntyi kokonaan uudelta pohjalta rakennettu ja varsin täsmällisesti määritelty käsitetason tietomalli. Tiedon siirtoon tarkoitettua, GEDCOMin kaltaista tekstuaalista esitysmuotoa tietomallilla ei (vielä) ole eikä sellaisen kehittäminen ollut Lexicon-työryhmän alkuperäinen tarkoituskaan.

GenTechin mallissa on erityistä huomiota kiinnitetty päättelyprosessin mallinnukseen. Mallin keskeinen käsite on väittämä (assertion), joka esittää yksittäistä, joko yhteen lähteeseen tai yhteen tai useampaan alemman tason väittämään perustuvaa päätelmää. Väittämään liittyy kaksi subjektia ja arvo. Subjektina voi olla yksilö (persona), tapahtuma (event), ominaisuus (characteristic) tai ryhmä (group). Väittämiä käytetään päättelyn kaikissa vaiheissa, niin lähdepoiminnon sisältämän raakatiedon tulkinnassa kuin ylemmillä johtopäätöstasoillakin. GEDCOMin perhetietue voidaan esittää ryhmänä, johon eri väittämillä liitetään yksitellen perheen isä, äiti ja lapset. Yksilöön liitetään attribuutteja ja tapahtumia niin ikään väittämillä. Malli sisältää myös negatiivisen tiedon eksplisiittisen esitysmahdollisuuden: mikä tahansa väittämä voidaan merkitä "vääräksi todistetuksi" (disproved) ja jättää tietokantaan vastaisen varalle.

Tarkastellaan esimerkkinä käräjäjuttua, jossa kantaja mainitaan muodossa "... för Gräntze Upsyningsmannen Joh: Morschovio ...". Kantajan rooli käräjäjutussa voidaan esittää väittämänä, jonka arvona on "kantaja" ja subjekteina juttua esittävä tapahtuma ja kantajaa esittävä yksilö. Yksilön nimeksi kirjataan "Joh[an] Morschovi[us]" (siis ristimänimi lavennettuna ja sukunimi alkuperäislähteen datiivista nominatiiviin muunnettuna) ja ammatiksi "Gräntze Upsyningsman". Nimi ja ammatti ovat ominaisuuksia, jotka kytketään yksilöön kumpikin omalla väittämällään. Lähdettä tulkittaessa rakennetaan siis lähdepoiminnon sisäisiä lähdeyksilöitä, joihin liitetään lähteen kirjoitusasua noudattaen ne ominaisuudet, jotka saadaan kyseisestä poiminnosta.

Ihannetapauksessa tutkija voisi kannettavan tietokoneen ja sukututkimusohjelmiston avulla poimia arkistolähteiden tietoja suoraan tapahtuma- ja lähdeyksilötietueiksi tietokantaansa. Ohjelmiston avustuksella tutkija voisi edelleen rakentaa johtopäätösyksilöitä eri poimintojen lähdeyksilöistä, jotka tutkijan mielestä esittävät samaa yksilöä. Tämä tapahtuu kokoamalla lähdeyksilöt väittämillä ryhmäksi ja kytkemällä ryhmä väittämällä johtopäätösyksilöön, jonka ominaisuudet saadaan ryhmän jäsenten ominaisuuksista yhdistämällä, normaalistamalla ja tutkimuksen julkaisukielelle kääntämällä. Esimerkiksi Johan Mörskoviusta esittävän johtopäätösyksilön nimi ja ammatti esitettäisiin muodossa "Johan Mörskovius" ja "rajaratsastuksen valvoja". Lähdepoimintojen esitykset lähdeyksilöineen sekä näiden ja johtopäätösyksilön väliset kytkökset osoittavat sekä tutkijalle itselleen että tutkimukseen perehtyvälle lukijalle eksplisiittisesti, miten tutkija on lähteitään tulkinnut ja johtopäätöksensä rakentanut.

GenTechin malli rakentuu varsin primitiivisistä osasista, mutta on kuitenkin yleispätevä. Tunnettua on, että väittämän kaltaisilla kahden subjektin välisillä yhteyksillä on mahdollista esittää kuinka monimutkainen tieto hyvänsä. Nähtäväksi jää, missä määrin ohjelmistokehittäjät sitoutuvat malliin ja kuinka joustavaa mallin käyttö reaalitilanteessa on. Vierastan sitä, ettei sukututkimukseen erikoisesti suunniteltu tietomalli sisällä eksplisiittisinä kohdealueen keskeisiä mallinnuskäsitteitä, perheen ja sen jäsenten välisiä kytköksiä. Lähdepoimintojen rakenteinen mallinnustapa lähdeyksilöineen voitaisiin liittää myös nykyiseen GEDCOM-malliin tätä sopivasti laajentamalla.

 

Tietokantarakenne ja käsittelytoiminnot

Käsitetason sukutietomallin yksilö-, perhe- ja lähdetietueet toteutetaan sukututkimusohjelmiston sisäisen tietokantarakenteen mukaisina tietoalkiokokoelmina. Tyypillisen ohjelmiston tietokanta perustuu kehittäjän omaperäiseen, tarkoitukseensa erikoisesti sovitettuun tiedostopohjaiseen ratkaisuun. Muutamissa ohjelmistoissa tietokanta toimii valmiin tietokannanhallintajärjestelmän alaisuudessa, jolloin ohjelmistokehittäjä on vapautunut monista hankalista, tietokantarakenteen ylläpitoon, tiedon eheyteen ja varmistukseen liittyvien toimenpiteiden toteuttamisesta.

Vikasietoinen ohjelmisto sisältää elvytysmekanismin, jolla tietokanta palautetaan eheään tilaan järjestelmähäiriön satuttua kesken tietokantaan kohdistuvaa päivitystoimenpidettä.

Relaatiomallin mukaisessa tietokannassa yksilö-, perhe- tai lähdetietue toteutetaan joukkona rivejä, jotka sijoitetaan tietokannan eri tauluihin. Tietueen tietokantaesitys käsittää yleensä useita kymmeniä rivejä, ja koko tietueen esille saanti vaatii usean taulun yhteen liittämisen. Tästä aiheutuu monta levyhakua, mikäli toisiinsa liittyviä rivejä ei onnistuta ryvästämään fyysisesti lähekkäin samoille tai vierekkäisille levysivuille. Oliotietokantamalli on lähempänä käsitemallia ja mahdollistaa esim. yksilötietueen tallennuksen muodossa, joka suoraan vastaa tietueen GEDCOM-esitystä ja jossa tietueen ominaisuuskentät sijoittuvat automaattisesti lähekkäin.

Ohjelmiston eri käyttötavat asettavat tietoalkioiden esitysmuodolle keskenään ristiriitaisia vaatimuksia. Tiedon esille saanti on yleensä tehokkaampaa ja automaattinen käsittely helpompaa, jos tiedon esitys noudattaa tarkoin määrättyä yksinkertaista syntaksia. Esimerkiksi koodattaessa päiväys 24.5.1777 muodossa 17770524 tai SQL-tietokantakielen date-tietotyypin arvona on ohjelman helppoa vertailla päiväyksiä ja järjestää tapahtumia päiväyksen mukaiseen aikajärjestykseen.

Historialliselle tiedolle on kuitenkin ominaista epämääräisyys ja ristiriitaisuus. Ohjelmisto ei saa pakottaa tutkijaa yksinkertaistuksiin tai vakioituihin esitystapoihin, joissa tietoa häviää tai lukijalle syntyy väärä kuva tiedon tarkkuudesta tai paikkansapitävyyden asteesta. GEDCOM-tietomallin tapahtumasyntaksi sallii epätäsmällisten paikka- ja aikamääreiden sekä ristiriitaisten lähdetietojen esittämisen niin, että esimerkiksi henkilön syntymäpaikka ja -aika voidaan saada tulosteeseen muodossa "s. todennäk. Vehkalahden Sivatissa n. 1775 (ei 10.12.1779), ehtoollisella jo 4.5.1790". GEDCOMin aikamääresyntaksi sisältää myös määrämuotoiset esitykset likimääräiselle ajankohdalle (esim. "about 1775", "between 1770 and 1780", "before 1780", "after 1770") ja jatkuvalle tapahtumalle ("from 1770 to 1780", "from 1770", "to 1780").

Sukututkimusohjelmiston tiedonkäsittelytoiminnot voidaan jakaa karkeasti selailutoimintoihin, päivitystoimintoihin ja raportointitoimintoihin. Selailutoimintoihin kuuluu assosiatiivinen haku, jossa yksilö tai yksilöjoukko haetaan esille jonkin ominaisuuden kuten nimen tai asuinpaikan perusteella, sekä sukulaissuhteen perusteella eteneminen, jolloin esillä olevan yksilön isä, äiti, aviopuolisot tai lapset haetaan esille. Joissakin ohjelmistoissa haun tuloksena saatua yksilö- tai perhetietuejoukkoa voidaan edelleen karsia, tulosjoukko voidaan väliaikaisesti nimetä myöhempää käsittelyä varten ja joukosta voidaan poimia yksittäisiä tietueita tarkempaan tarkasteluun tai päivitettäväksi. Lähdetietue voidaan hakea esille joko assosiatiivisesti lähteen ominaisuuden perusteella tai seuraamalla kytköstä yksilö- tai perhetietueesta.

Päivitystoimintoja ovat uuden yksilö-, perhe- tai lähdetietueen luonti, tietueen ominaisuuden lisäys, muutos tai poisto, yksilön kytkeminen perheeseen isän, äidin tai lapsen rooliin, yksilön irrottaminen perheestä, lähteen kytkeminen yksilön tai perheen ominaisuuteen, lähdekytköksen irrottaminen sekä yksilö-, perhe- tai lähdetietueen poisto. Toimintojen tarkempi muoto ja käynnistystapa riippuvat ohjelmistossa sovelletusta tietomallista ja käyttöliittymästä. Useissa ohjelmistoissa tietueen ominaisuuskenttien sisältöä muokataan lomakepohjaisen käyttöliittymän välityksellä ja ohjelmiston omia toimitinkomentoja käyttäen. Tom Wetmoren kehittämässä ja monella tapaa uraa uurtavassa LifeLines-ohjelmistossa yksilö-, perhe- tai lähdetietuetta voi muokata yhtenä kokonaisuutena tutkijan valitsemaa tekstintoimitinta käyttäen. Ohjelmisto tarjoaa muokattavan tietueen toimittimelle suoraan GEDCOM-muodossa, jolloin tutkija voi itse lähes täydellisesti määrätä tietueen esitystavan ja muokata tietueen sisältöä joustavasti.[8]

Välttämättömiä päivitystoimintoja ovat kahden yksilötietueen yhdistäminen yhdeksi yksilötietueeksi ja kahden perhetietueen yhdistäminen yhdeksi perhetietueeksi. Näitä toimintoja tarvitaan tietokantoja yhdistettäessä tai kun tutkija havaitsee johtuneensa samaan yksilöön eri teitä, ja aiemmin tallennetut tiedot ovat eronneet siinä määrin myöhemmin tallennetuista, ettei yksilöiden identtisyys ole paljastunut tietoja uudestaan syötettäessä. Yhdistämistoiminnon toteutus ei ole aivan yksinkertainen, sillä yhdistettävät tietueet on todennäköisesti kytketty eri tavoin. Yhdistäminen voi siten edellyttää myös muiden tietueiden yhdistämistä, ja yhdistämisten tulee tapahtua oikeassa järjestyksessä. Yhdistämisen käänteistoimintoa, tietueen halkaisua, taas tarvitaan silloin, kun tutkija havaitsee sekoittaneensa samaan tietueeseen kahden tai useamman eri yksilön tai perheen tietoja. Tämä toiminto ei ole edes siinä määrin automatisoitavissa kuin tietueiden yhdistäminen, vaan halkaisu on toteutettava luomalla uusia tietueita, siirtämällä tietoa entisistä tietueista sekä irrottamalla entisiä kytköksiä ja luomalla uusia kytköksiä.

Lähes kaikki markkinoilla olevat sukututkimusohjelmistot mainostavat nykyisin "GEDCOM-yhteensopivuuttaan", mikä tarkoittaa, että tietokantaan voidaan ladata tietoa GEDCOM-tiedostosta ja että tietokannan sisältöä voidaan tulostaa GEDCOM-tiedostoon. Näistä toiminnoista GEDCOM-tiedoston lataus eli tuonti (import) on päivitystoimenpide, joka kerralla sijoittaa tietokantaan joukon uusia tietueita. Ohjelmisto luo kullekin tietokantaan tuotavalle GEDCOM-tietueelle uuden tunnisteen, joka ei ennestään ole tietokannassa käytössä. Tuonti synnyttää yleensä tarpeen yhdistää tietokannan entisiä tietueita sinne tuotujen uusien kanssa.

Jokaiseen sukututkimusohjelmistoon ilman muuta kuuluvia raportointitoimintoja on kokonaisten jälki- ja esipolvitaulustojen tulostus. Julkaistavaksi tarkoitettujen raporttien tuottaminen vaatii ohjelmiston yhteentoimivuutta jonkin tekstinmuotoiluohjelman kanssa. Tietokannasta tuotetaan silloin muotoiluohjelman komentoja ja sukutaulujen tekstiä sisältävä tiedosto, joka muotoiluohjelman läpi ajettuna muuntuu tulostuskelpoiseksi (esim. PostScript-tiedostoksi). Pelkästään sukututkimusprosessin avustamiseen tarkoitetut raportit on sitä vastoin syytä tuottaa puhtaaseen tekstimuotoon, jota on vaivatonta selailla myös tietokoneella minkä tahansa ohjelman alaisuudessa. Täytettävän lomakkeen tapainen, yhden ydinperheen tietoja sisältävä tuloste on tarpeen, kun vieraillaan arkistossa ilman kannettavaa tietokonetta. Toisinaan on tarpeen saada paperitulostus useampia yksilöitä käsittäneen haun tuloksesta, esimerkiksi lista kaikista niistä henkilöistä, joiden tietoja on tarpeen täydentää tietystä lähteestä.

Raportointitoimintona voidaan toteuttaa myös tietokannan semanttisen eheyden tarkistus. Tarkistettaviin seikkoihin kuuluu mm. yksilöihin ja perheisiin liittyvien päivämäärien mielekkyys, kuten lapsikatraan lasten syntymien väli, äidin ikä lapsen syntyessä, sulhasen ja morsiamen ikä vihittäessä, nuorimman lapsen syntymäpäivän ja isän tai äidin kuolinpäivien väli, syntymän ja ensimmäisen ehtoollisella käynnin väli, leskeksi jäämisen ja uuden avioliiton solmimisen väli, jne. Tarkistusajon tuloksena saatava raportti sisältää luettelon kohdista, joissa tarkistuskriteerit eivät ole täyttyneet. Nimimuotojen johdonmukaisuuden valvomiseksi on saatava koko tietokannan kattavat luettelot ristimänimistä, patronyymeistä, sukunimistä ja paikannimi-ilmauksista esiintymisfrekvensseineen.

Jälkipolvitauluston tulisi olla muodoltaan sellainen, että se kelpaa enemmittä korjailuitta julkaistavaksi sukutieteellisessä aikakauskirjassa tai monografiassa. Tauluston tarkempi muoto yleensä riippuu vahvasti siitä maasta tai kulttuurista, jonka sukututkimukseen ohjelmisto ensi sijassa on tarkoitettu. Amerikkalaiset ohjelmistot tulostavat jälkipolvitauluston mukaillen ns. register-tyyliä, joka on peräisin The New England Historical and Genealogical Register -aikakauskirjasta. Suomalaiseen sukututkimukseen tarkoitetun ohjelmiston tulee noudattaa Suomen Sukututkimusseuran julkaisusarjojen tyyliä. Toistoa vältetään tulostamalla lapsikatraan yhteinen syntymäpaikka vanhempien tauluun vain kerran ja jättämällä vanhempien taulusta pois lasten patronyymit ja sukunimi, kun ne voidaan johtaa isän tiedoista. Laaja jälkipolvitaulusto on tapana varustaa suvun sukuhaarat osoittavalla sukupuukaaviolla, joka sisältää niiden suvun jäsenten nimet, joilla on oma sukutaulunsa, sekä viitteet kyseisiin tauluihin. Lyhyttä artikkelia laajempaan sukututkimukseen kuuluu välttämättömänä osana henkilöhakemisto, johon sijoitetaan tutkijan määräämät, sukutauluissa ja niiden ulkopuolisissa tekstiosuuksissa esiintyvät henkilönimet. Hakemisto syntyy vasta tekstin muotoiluvaiheessa, kun sivunumerot ovat selvillä.

Raportointitoimintoihin kuuluu myös tietojen vedostus eli vienti (export) GEDCOM-tiedostoon tutkijan määräämästä tietokannan osasta. Tutkija voi esimerkiksi valita GEDCOM-tiedostoon vietäviksi kaikki Johan Mörskoviuksen jälkipolvitaulustoon mukaan tulevat yksilöt. Muodostettavan GEDCOM-tiedoston tulee luonnollisesti aina olla "suljettu", ts. sen kaikkien tietueiden kytkinkenttien tulee viitata tiedoston sisään. Ohjelmiston tulee siis poistaa yksilö- ja perhetietueiden vedoksista kaikki kytkökset tietueisiin, joita ei vedosteta.

Tyypillisen ohjelmiston tarjoama raporttivalikoima on kiinteä, joskin tutkija voi jossain määrin säädellä raporttiin otettavia tietoja ja muotoilun yksityiskohtia. LifeLines- ohjelmisto ei lainkaan sisällä valmiita raporttityyppejä, vaan tarjoaa niiden sijaan erityisen raportointikielen, jolla tutkija voi määritellä haluamansa raportit itse täysin vapaasti: GEDCOM-muotoisen tietokannan sisältöä voi analysoida, yhdistellä ja järjestää, ja tuloksista voi kirjoittaa raportin halutussa muodossa.

Kielen selailutoiminnoilla voi tietueiden ja kenttien verkkorakenteessa edetä kentistä alikenttiin ja kytkinkentistä toisiin tietueisiin halutussa järjestyksessä. Kielessä on myös joukko korkeatasoisia toimintoja, joilla yhdellä kertaa saa haetuksi esim. annetun yksilön kaikki esivanhemmat. Yksilöistä voi koota joukkoja, ja joukkoja voi edelleen muokata yleisin joukko-operaatioin. Ohjelmiston käyttäjäkunnan työn tuloksena on vuosien varrella syntynyt laajahko valikoima sukututkimuksen eri tarkoituksiin kehitettyjä raporttiohjelmia.[9]

 

Tiedon siirrettävyys

Tiedon siirto järjestelmästä toiseen on ongelma, joka on tunnistettu automaattisen tietojenkäsittelyn alkuajoista asti. Kun ohjelmisto vaihdetaan toiseen, ei entisen ohjelmiston alaisuudessa luotua tiedostoa välttämättä voida sellaisenaan käsitellä uudella ohjelmistolla, vaan tiedosto joudutaan konvertoimaan uuden ohjelmiston vaatimaan muotoon. Tietokannoissakin siirrettävyys on yhä edelleen ongelma, vaikka tiedon määrittelyssä ja käsittelyssä käytetään standardoitua kieltä (SQL). Tekstintoimitinohjelmien käyttäjille on tuttua, etteivät ohjelman vanhalla versiolla laaditut tekstit välttämättä siirry häviöttömästi edes saman ohjelman uuteen laitokseen. Kaupallisten ohjelmien toimittajat suosivat tiedon konekielistä ja ohjelmistoversiosta toiseen muuttuvaa esitysmuotoa, jonka rakennetta ei paljasteta käyttäjälle, ja näin käyttäjä sidotaan tiukasti saman toimittajan ohjelmiin.[10]

Ratkaisuna rakenteisen tekstitiedon sisäisestä esitysmuodosta johtuviin tiedonsiirron ongelmiin on ohjelmistosta riippumaton merkattu teksti, joka koostuu standardoidun merkkikoodin (esim. ISO Latin-1) mukaisista kirjoittuvista merkeistä ja rivinvaihtomerkeistä ja jossa tekstin rakenne osoitetaan niin ikään standardoidulla ja kaikista tekijänoikeuksista ynnä muista käyttörajoitteista vapaalla merkkaussyntaksilla. Tällaisia ovat mm. eräiden tunnettujen tekstinmuotoiluohjelmien käyttämät merkkausmuodot (troff, TeX, LaTeX), tieteellisten tekstien merkkaussyntaksit (TEI), tietoverkon sivunkuvauskielet (HTML) ja verkkosovellusten tiedonvälitysstandardit (XML) sekä sukututkimustiedon siirtoon tarkoitettu GEDCOM-tietomallin tekstimuoto, jota edellä on jo selvitetty.

Puhdas tekstitiedosto on minkä tahansa toimitinohjelman luettavissa, ja standardinmukaisesti merkattuna sisältö on myös käyttäjän tulkittavissa ilman minkäänlaista käsittelyä. Ohjelmistoriippumaton tiedon esitysmuoto mahdollistaa myös erilaisten yleishyödyllisten apuneuvojen rakentamisen vähällä vaivalla ja toisistaan riippumattomien kehittäjien toimesta; esimerkkeinä mainittakoon GEDCOM-tiedostoon perustuvat raportointiohjelmat, joita siis voi ainakin periaatteessa käyttää kaikkien GEDCOM-yhteensopivien ohjelmistojen kanssa.[11]

GEDCOM-mallin tekstimuodossa voidaan esittää yksikäsitteisesti mallin mukaisen tietokannan sisältö. Tietokannan varmuusvedostuksessa tietokannan sisältö viedään GEDCOM-tiedostoon tiedon säilymisen varmistamiseksi. Varmuusvedos on syytä ottaa säännöllisesti ja aina sen jälkeen, kun tietokantaa on paljon päivitetty. Tietokannan jouduttua epäkuntoon ohjelmistovirheen tai järjestelmähäiriön vuoksi tai tutkijan halutessa perua ajattelemattomasti tekemänsä muutokset tietokanta voidaan palauttaa luomalla uusi tyhjä tietokanta ja tuomalla siihen tiedot GEDCOM-vedoksesta. Tietokannan vikoja voi yleensä myös helpommin korjata tekstimuotoiseen vedokseen kuin tietokannan sisäiseen esitykseen, mikäli viallisesta tietokannasta nyt onnistutaan tulostamaan kattava vedos.

Kun sukututkija siirtyy käyttämään toista ohjelmistoa tai saman ohjelmiston uudempaa laitosta, jossa tietokannan sisäinen esitys on erilainen, tiedot siirretään vanhasta tietokannasta uuteen vedostamalla vanha tietokanta GEDCOM-tiedostoon ja tuomalla tämä uuden ohjelmiston alaisuudessa perustettuun tyhjään tietokantaan. Siirron jälkeen tutkijan on ainakin pistokokein tietueita selailemalla ja analyysiraportteja ajamalla tarkistettava, millaisina vanhan tietokannan erilaiset rakenteet ovat siirtyneet uuteen tietokantaan. Uudesta tietokannasta pitää ottaa heti tuonnin jälkeen GEDCOM-vedos. Tätä ja vanhan tietokannan vedosta voi sitten vertailla esim. yleisesti saatavilla GEDCOM-analyysiohjelmilla, joilla voidaan mm. laskea tiedoston erityyppisten tietueiden, kenttien, alikenttien ja kytkösten määrät ja saada selville tiedostossa esiintyvät erilaiset kenttien ja alikenttien yhdistelmät.

Tiedon häviötön siirtyminen ohjelmistosta A ohjelmistoon B GEDCOMin välityksellä edellyttää, että A:n tietokantamalli on ekvivalentti GEDCOM-mallin jonkin alimallin MA kanssa ja että B:n tietokantamalli on ekvivalentti GEDCOMin jonkin alimallin MB kanssa, missä MA on MB:n alimalli. Tietomallin M alimallin M’ mukainen esitys on aina myös M:n mukainen, mutta kaikki M:n mukaiset esitykset eivät välttämättä ole M’:n mukaisia. Kaksi eri tietomallia M1 ja M2 ovat keskenään ekvivalentteja, jos jokainen M1:n mukainen esitys voidaan tietoa hävittämättä ja lisäämättä muuntaa yksikäsitteiseksi M2:n mukaiseksi esitykseksi, ja päinvastoin jokainen M2:n mukainen esitys voidaan tietoa hävittämättä ja lisäämättä muuntaa yksikäsitteiseksi M1:n mukaiseksi esitykseksi. Ohjelmiston A tietokannasta viety GEDCOM-tiedosto TA on silloin häviöttömästi tuotavissa ohjelmiston B tietokantaan, koska kerran TA on ohjelmiston B tunteman mallin MB alimallin MA mukainen. Jotta ohjelmisto toimisi yhteen mahdollisimman monen muun GEDCOM-yhteensopivan ohjelmiston kanssa, tulisi sen tietokantamallin olla ekvivalentti koko GEDCOM-mallin kanssa, so. kaikille voimassa olevan GEDCOM-standardin piirteille pitäisi olla varattuna esitys tietokantamallissa.

Käytännössä siirrettävyys on heikkoa. Monen ohjelmiston tietokantamalli on ensinnäkin suppeampi kuin GEDCOM-malli, so. ekvivalentti GEDCOMin jonkin aidon alimallin kanssa, jolloin tietokantaan ei voi siirtää tietoa ainakaan sen rakennetta hävittämättä laajempaa mallia käyttävän ohjelmiston tietokannasta. Joissakin ohjelmistoissa taas käytetään GEDCOMin epästandardeja laajennoksia, joiden mukaisia tiedostoja ainoastaan kyseinen ohjelmisto pystyy häviöttömästi tuomaan tietokantaan. Tietoverkon sukututkimustietokantoja selailemalla havaitsee helposti, kuinka eräät tunnetut (amerikkalaiset) ohjelmistot eivät edes sovella valitsemaansa GEDCOMin alimallia oikein, vaan sijoittavat tietoa ilmeisen systemaattisesti vääriin kenttiin. LifeLines on niitä harvoja ohjelmistoja, joiden tietokantaan voi tuoda häviöttömästi lähes millaisen tiedoston hyvänsä: tiedosto voi sisältää epästandardeja tietueita ja kenttiä sekä kenttien ja alikenttien epästandardeja kombinaatioita, kunhan vain GEDCOMin yleistä syntaksia, siis tasonumeroin varustettujen tietueitten, kenttien ja alikenttien rakennetta noudatetaan.

Tiedon siirron ongelmia on pohdittu mm. GenTech-järjestössä, jonka teknologiakomitean TestBook-projektissa testattiin tiedon siirrettävyyttä seitsemän tunnetun amerikkalaisen ohjelmiston välillä. Testiä varten keksittiin todelliselta vaikuttava tarina 1600-luvulla Englannista Amerikkaan emigroituneesta perheestä, jonka kolme sukupolvea ja neljä sukutaulua käsittävä sukututkimus annettiin ohjelmistotoimittajille register-tyylisenä. Kukin ohjelmistotoimittaja syötti sukututkimuksen tiedot ohjelmistonsa tietokantaan käyttäen hyväksi ohjelmiston parhaita piirteitä. Sen jälkeen tietokannasta otettiin täydellinen GEDCOM-vedos, joka lähetettiin kaikille muille testiin osallistuneille ohjelmistotoimittajille. Kukin ohjelmistotoimittaja muodosti nyt oman ohjelmistonsa GEDCOM-tuontitoimintoa käyttäen seitsemän eri tietokantaa, yhden kutakin tiedostoa kohti. Kustakin tietokannasta tulostettiin sitten kolme määrämuotoista raporttia (esivanhempain taulu, perhetaulu ja jälkipolvitaulu), jotka toimitettiin projektin johtajalle arvioitaviksi.[12]

Testin tulos paljasti puutteita jokaisessa ohjelmistossa. Lähes kaikki ohjelmistot kykenivät sentään tuomaan omasta tietokannastaan vedostetun tiedoston moitteitta uuteen tietokantaan. Vieraiden tietokantojen vedoksien tuonnissa hävisi tietoa tai syntyi asiaankuulumatonta tietoa lähes kaikilla kuviteltavilla tavoilla: monia standardinmukaisia GEDCOM-piirteitä ei tunnistettu, yksilöiden nimiä katosi, tunnetut aviopuolisot muuttuivat tuntemattomiksi, tapahtumien päiväyksiä tai paikkoja katosi, eräät yleiset tapahtumatyypit (syntymä, kaste, kuolema) katosivat kokonaan, kaikki paitsi nimet ja tietueiden väliset kytkökset katosivat, lähdeviitteitä tai lähteitä katosi, aviopuolisoiden välisiä kytköksiä katosi, lasten ja vanhempien välisiä kytköksiä katosi, perheen lasten järjestys muuttui, tapahtumatyyppi muuttui toiseksi, naimattomille yksilöille ilmaantui avioliitto, kuolintieto ilmaantui yksilölle, jolla sitä ei alkujaan ollut, jne.

Osasyynä vallitsevaan asiaintilaan ovat myös GEDCOM-standardiin liittyvät epämääräisyydet sekä suuret muutokset standardilaitoksesta toiseen. Sen vuoksi eräät ohjelmistotoimittajat, kuten The Master Genealogist -ohjelmiston kehittäjä Bob Velke, ovat rakentaneet suoria yhdyskäytäviä (bridge, gateway) oman ohjelmistonsa ja muiden toimittajien ohjelmistojen välille, jolloin tieto siirtyy suoraan ohjelmiston A sisäisestä esitysmuodosta ohjelmiston B sisäiseen esitysmuotoon. Yhdyskäytävästä on mahdollista rakentaa tiedot tarkasti säilyttävä, edellyttäen, että ohjelmistojen tietokantamallit ovat kutakuinkin ekvivalentteja ja kummankin ohjelmiston tietokantarakenne on yksityiskohtineen yhdyskäytävän rakentajan tiedossa. Huonona puolena on, että yhdyskäytävä on rakennettava erikseen jokaiselle ohjelmistoparille (A,B) ja molempiin suuntiin, ts. n:n ohjelmiston välisiä yhdyskäytäviä tarvitaan 2n(n-1) kpl. Yhdyskäytäviä on sitä paitsi korjattava heti, kun ohjelmistosta julkaistaan uusi laitos, jossa tietokantarakenne on muuttunut.

 

Arkisto- ja lähdetietokannat

Sukututkijan välttämättömiä apuneuvoja on arkistoluettelo, jossa selostetaan arkiston sisältö yksittäisen lähdesidoksen otsikon tarkkuudella ja josta tutkija saa sidoksen esille saamisessa tarvittavan tunnuksen (signumin) tai mikrofilmin numeron. Eri maiden arkistot ovat siirtämässä luetteloitaan sähköiseen muotoon, arkistotietokannaksi. Osaan Yhdysvaltain arkistolaitoksen luetteloita on jo järjestetty kokeiluluontoisesti pääsy tietoverkon välityksellä.[13] Mormonikirkon sukututkimusarkiston luettelo (Family History Library Catalog, FHLC) on ollut jo pitkään sähköisessä muodossa, ja toukokuusta 1999 lähtien sitä on voinut käyttää myös verkon välityksellä FamilySearch-järjestelmän alaisuudessa.[14]

Suomen arkistolaitoksen ylläpitämä arkistotietokanta on niin ikään ollut jo jonkin aikaa verkkokäytössä. Siihen voi kohdistaa hakuja avainsanoilla, ja haun tuloksena saadaan lista yksittäistä arkistoista, joiden nimi liittyy avainsanaan.[15] Kansallisarkiston ehkä käytetyimmät arkistoluettelot, seurakuntien mikrofilmihakemistot ovat selailtavissa Sukututkimusseuran verkkosivustoilla.[16] Mikkelin maakunta-arkiston sivustoilla on luettelot mikrokorteille kuvatuista seurakuntien 1800-luvun jälkipuoliskon arkistoista sekä rullamikrofilmeiltä mikrokorteille konvertoiduista aineistoista.[17]

Myös lähteiden varsinaista sisältöä siirretään jatkuvasti sähköiseen muotoon lähdetietokannoiksi. Useimmille sukututkijoille on tuttu mormonikirkon valtava International Genealogical Index eli IGI-hakemisto, josta yksityinen sukututkijakin saattoi hankkia itselleen mikrokorttivedoksia nimelliseen hintaan.[18] Suomen seurakuntien kastettujen ja vihittyjen tiedot sisältyvät siihen sangen kattavasti, kiitos Suomen Sukututkimusseuran johdolla ja seurakuntien kustannuksella aikoinaan teetettyjen "mustien kirjojen", joista tiedot on ollut helpompi syöttää kuin alkuperäisistä historiakirjoista. IGI-hakemisto on nykyisin käytettävissä FamilySearch-järjestelmän alaisuudessa. Haun tuloksen voi saada haluttaessa myös GEDCOM-muodossa.

Sukututkimuslähteistön automaattisen käsittelyn pohjoismaisista uranuurtajista on mainittava Uumajan yliopisto, jonka johdolla jo 1970-luvun alkupuolella ruvettiin kokoamaan väestötieteellistä tietokantaa (demografisk databas). Tietyiltä tutkimusintressien mukaan valituilta Ruotsin alueilta on tietokantaan tallennettu kirkonkirjatiedot ynnä muuta väestötieteellisesti mielenkiintoista alkuperäisaineistoa. Tietokannan pääosa koostuu lähdesidoskohtaisista tietokannoista, joihin alkuperäislähteen (esim. kinkerikuulustelukirjan) sisältö on siirretty lähdeuskollisesti ja mahdollisimman täydellisenä. Sidoskohtaiset lähdetietokannat yhdistävä varsinainen väestötietokanta sisältää myös johtopäätöstietoa. Samaan yksilöön liittyviä tietoja eri lähdetietokannoista on näet pyritty yhdistämään, mikä on vaatinut (tietokoneavusteista) sukututkimusta.[19] Uumajan väestötietokannan rakentamisen periaatteet ovat olleet ohjenuorana 1987 perustetulle kotimaiselle Karjala-tietokannalle, johon on tarkoitus tallentaa luovutetun Karjalan väestöhistorialliset tietolähteet.[20]

 

lomake
HisKi-tietokannan kastettujen tietojen hakulomake, http://www.genealogia.fi/hiski/. Tutkija on rajannut haun Vehkalahden kastekirjaan, josta tietokannassa on kastemerkintöjä vuosilta 1737-1851. Näistä hän haluaa poimittavan kaikki sellaiset kastemerkinnät vuosilta 1737-60, joissa isän etunimi alkaa kirjaimin "Joh" ja isän sukunimi kirjaimin "Mörs".

 

tulos
Haun tuloksena saadaan Johan Mörskoviuksen viiden lapsen kastemerkinnät.

 

Merkittävin tapaus kotimaisen sukututkimusaineiston automaattisen käsittelyn alalla on Sukutietotekniikka ry:n aktivistien johdolla ja monipäisen tallentajajoukon voimin toteutettu HisKi-projekti, jossa Sukututkimusseuran historiakirjajäljennösten, "mustien kirjojen" tietoja on tallennettu tietokoneelle. V:n 1999 loppuun mennessä HisKi-tietokantaan oli tallennettu tietoja 308 seurakunnasta. Tietokannassa oli tuolloin tapahtumakirjauksia kaikkiaan 4,32 miljoonaa kpl, joista 2,54 milj. lapsen kastekirjausta, 0,47 milj. avioparin vihkimäkirjausta, 1,24 milj. vainajan hautauskirjausta ja 0,07 milj. seurakunnasta toiseen muuttaneen henkilön lähtö- tai tulokirjausta. V:sta 1996 lähtien tietokanta on ollut vapaassa suorakäytössä Sukututkimusseuran sivustoilta. Tietokantaan kohdistettiin v. 1999 neljättä miljoonaa hakua eri puolilta maailmaa.[21] HisKi-tietokannan monipuolisen hakuohjelmiston on suunnitellut ja ohjelmoinut Jouni Malinen.[22]

Tyypilliseen lähdetietokantaan tieto on tallennettu manuaalisesti tekstimuodossa, tallentajan oman tulkinnan mukaisesti ja tallennuslaitteen tarjoamaa kirjaimistoa käyttäen. Tallennuksessa tieto aina välttämättä jossain määrin vääristyy tai yksinkertaistuu, ja kuten kaikessa inhimillisessä toiminnassa, virheitä sattuu ammattitaitoisellekin tallentajalle. Vapaaehtoisin harrastajavoimin ja työllisyystöinä tallennettu aineisto on laadultaan epätasaista. Niin arvokas ja tiedon hakua suuresti jouduttava apuneuvo kuin HisKi-tietokanta onkin, on muistettava, että siihen, jäljennöksen jäljennöksenä, sisältyy kahden tason virheitä: osa on alkuperäisiä historiakirjoja käsin jäljentäneiden virhetulkintoja ja osa myöhempien tallentajien virhetulkintoja ja lyöntivirheitä. Tunnollinen sukututkija tarkistaa jäljennöksestä poimimansa tiedot aina myös alkuperäislähteestä.

Lähdetietokannan menestyksellinen hyödyntäminen edellyttää, että tutkijalla on käsitys lähteen muodosta, alkuperäisestä tarkoituksesta ja kielestä niin, että voi tunnistaa nimien ja historiallisten käsitteiden varioivat kirjoitusasut ja ymmärtää niiden merkityksen. Jo tietojen haussa tutkijan on osattava arvata nimen mahdolliset eri muodot ja lyhenteet, jotta pystyisi muotoilemaan hakuavaimen jokerimerkkeineen sellaiseksi, että halutut tiedot tulevat haun piiriin ja että niiden lisäksi haun tulokseen tulee mahdollisimman vähän mielenkiinnotonta tietoa. Sitä paitsi vasta pieni osa kaikesta sukututkimuksessa tarvittavasta lähteistöstä on sähköisessä tekstimuodossa, joten sukututkija joutuu joka tapauksessa perehtymään myös alkuperäislähteisiin. Perinteisen sukututkimuksen metodit on hallittava.

 

Sähköinen julkaiseminen

Kirjallisten teosten julkaisemista sähköisessä muodossa on tarkasteltu mm. hypermediaa koskevassa tutkimuksessa. Jo pitkään on markkinoilla ollut sähköisiä laitoksia eri kielten sanakirjoista, yleisistä tietosanakirjoista ja erikoisalojen tietoteoksista. Kuka kukin on -teos on ostettavissa optisena levynä, ja valmisteilla olevan Kansallisbiografian artikkeleita on luettavissa tietoverkosta. Tietoverkon käytön nopea yleistyminen lisää entisestään houkutusta sähköiseen julkaisemiseen.[23]

Oivallinen tapa esittää valmis jälki- tai esipolvitutkimus sähköisessä muodossa on yksinkertainen hyperteksti, jota lukija voi selailla haluamassaan järjestyksessä sukutaulusta toiseen tauluviitteitä seuraten. Useisiin sukututkimusohjelmistoihin sisältyykin raportointitoiminto, jolla tietokannasta voidaan tuottaa HTML-kielinen hyperteksti. Esimerkiksi jälkipolvitaulusto voitaisiin esittää hypertekstinä siten, että jokaisesta sukutaulusta muodostetaan oma HTML-tiedosto, ja nämä tiedostot kytketään hyperlinkein toisiinsa kaksisuuntaisesti Sukututkimusseuran standardin mukaisen jälkipolvitauluston kytkentöjä vastaavasti. Siten taulussa 1 vanhimman pojan tauluun viittaavan hyperlinkin näytöllä näkyvänä tunnisteena on "Taulu 2", ja taulun 2 otsikossa (nimen jälkeen suluissa) takaisin isän tauluun viittaavan hyperlinkin tunnisteena "taulusta 1". Tällainen esitys säilyttää järkevyytensä myös paperille osina tai kokonaan tulostettuna.

Tutkimukseen liittyvät lähdeviittaukset (nootit) voidaan sijoittaa joko jakaen ne luku- ja taulukohtaisesti tai sijoittamalla ne kootusti erilliseen tiedostoon. Jälkimmäisessä menettelyssä on nootit syytä kytkeä hyperlinkein kaksisuuntaisesti, jolloin noottiluettelosta päästään suoraan niihin tekstikohtiin, joihin nootit liittyvät. HTML-muotoisen, näytöllä vierivän hypertekstin ominaisuuksiin ei kuulu perinteisen painetun tekstin kiinteä sivujako, joten henkilöhakemiston indeksitermeihin pitää liittää suoraan termin esiintymiskohtaan osoittava hyperlinkki. Tutkimuksen "kansilehti", so. sivuston etusivu varustetaan tutkimuksen otsikolla, tekijän nimellä ja osoitteella, julkaisupäiväyksellä, tiivistelmällä sekä sisällysluettelolla, joka sisältää hyperlinkit tutkimuksen lukuihin, sukuhaarojen kantatauluihin sekä henkilöhakemistoon. Vihjeeksi hakukoneille etusivun avainsanasto kootaan tutkimuksen keskeisistä suku- ja paikannimistä sekä tutkimusta kuvaavista yleistermeistä.

Eri tutkijoiden omille sivustoilleen tallentamat hypertekstimuotoiset sukututkimukset voidaan koota yhdeksi loogiseksi hajautetuksi sukututkimustietokannaksi seuraavasti. Tutkijoiden eli tiedon tuottajien tietopisteistä jokin valitaan koordinaatiopisteeksi, johon kaikki tietokannan haut suunnataan. Koordinaatiopisteessä on hakemisto koko tietokantaan ja tieto siitä, missä pisteessä mihinkin yksilöön tai paikkaan liittyvää tietoa on. Kunkin pisteen on aika ajoin toimitettava määrämuotoinen sisällysluettelo omista tiedoistaan koordinaatiopisteeseen tai pidettävä sellaista koordinaatiopisteen hakukoneen ulottuvilla. Koordinaatiopisteen hakemistoon suunnatun haun tuloksena käyttäjälle toimitetaan sivu, jossa on tiedon tuottajan sivustoille osoittavat hyperlinkit. Tällä periaatteella toimii Gene Starkin Gendex-tietokantahakemisto.[24] Hajautetun tietokantaratkaisun luonnollisiin ominaisuuksiin kuuluu, että yksityinen tiedon tuottaja voi koska tahansa yksipuolisella päätöksellään muuttaa oman pisteensä tarjoamia tietoja tai poistaa ne kokonaan muiden käyttäjien ulottuvilta.

Sukututkija voi julkaista tutkimuksensa sähköisesti myös lähettämällä sen jonkin sukututkimusyhteisön tai -yrityksen ylläpitämään keskitettyyn sukututkimustietokantaan. Tätä varten tutkijan on ensin valittava tietokannastaan julkaistavaksi tarkoitettu osa, vedostettava se GEDCOM-tiedostoksi, vietävä tiedosto tyhjään tietokantaan, muokattava tiedot keskitetyn tietokannan edellyttämään muotoon ja otettava lopuksi muokatusta tietokannasta GEDCOM-vedos toimitettavaksi keskitettyyn tietokantaan. Kansainväliseen keskitettyyn tietokantaan tarkoitetun aineiston henkilö- ja paikannimet on muokkausvaiheessa muutettava anglosaksisen käytännön mukaisiksi. Yksilöhaku näet perustuu sukunimeen, ja paikannimen mukaisessa haussa yleensä oletetaan nimien olevan perusmuodossa ja osana pilkuin erotettua hierarkiaa, jossa viimeisenä nimikomponenttina on maan nimi. Sukunimettömälle henkilölle on siis syytä laittaa sukunimiksi niiden talojen tai torppien nimiä, joissa henkilö on elinaikanaan asunut, ja esim. PLAC-kentän ilmaus "Vehkalahdella Sivatin Perissä" on muutettava muotoon "Peri, Sivatti, Vehkalahti, Finland".

Vanhimpia keskitettyjä sukututkimustietokantoja on mormonikirkon Ancestral File, johon voi kohdistaa hakuja FamilySearch-järjestelmän alaisuudessa. Tietokanta on saanut alkunsa kirkon v:sta 1978 lähtien jäsenistöltään keräämistä neljän sukupolven esivanhempaintauluista, kirkon toimesta tallennetuista kuninkaallisten, aatelisten ja keskiaikaisten sukujen genealogioista sekä eräiden sukuseurojen toimittamista laajemmista sukututkimuksista.[25] Eri tiedon tuottajilta peräisin olevia GEDCOM-tiedostoja ei ole ainoastaan viety yhteen ja samaan tietokantaan, vaan eri tiedostoista peräisin olevia yksilö- ja perhetietueita on ollut lupa yhdistää, mikäli ne tietyin kriteerein arvioiden esittävät samaa yksilöä tai perhettä. Menettelystä on aiheutunut hankaluuksia, kun eri tutkijoilla on ollut eri käsitykset sukujohdoista eräisiin varhain eläneisiin henkilöihin. Tietokantahallinto on joutunut lukitsemaan muutoksilta eräitä tietueita, joihin yhä uudestaan esitetään jo kertaalleen kumottuja muutoksia. Kirkon uudessa Pedigree Resource File -tietokannassa eri tiedon tuottajien tietoja ei yhdistetä.

Ancestry World Tree -tietokannassa GEDCOM-tiedostot pidetään niin ikään erillään, ja tiedon hakija voi ilmaiseksi ottaa sähköisen vedoksen alkuperäisestä GEDCOM-tiedostosta. Cliff Manisin GenServ-tietokannasta ei GEDCOM-tiedostoja saa sellaisenaan, vaan tiedon hakijalle tarjotaan (käyttömaksua vastaan) tiedoista tarpeen mukaan erityyppisiä raportteja. GenServin palvelinohjelmistona on LifeLines, ja raportit on ohjelmoitu sen raportointikielellä. RootsWeb-järjestön WorldConnect-tietokannan käyttöliittymä näyttää yksilöiden ominaisuustiedot ja lähdeviittaukset varsin täydellisinä, ja haun tuloksia voi rajoitetusti saada myös GEDCOM-muodossa, mikäli tiedon tuottaja on antanut tähän suostumuksensa.[26]

Valmiista tai tekeillä olevista tutkimuksistaan sukututkija on voinut tiedottaa julkaisemalla luettelon tutkimistaan suvuista aika- ja paikkamääreineen jossakin kansallisessa tai kansainvälisessä sukututkimushakemistossa. Suomen Sukututkimusseuran tähän mennessä julkaisemista neljästä sukututkijaluettelosta viimeisimmän (1996) teksti tuotettiin automaattisesti Seuran yleisen tietojärjestelmän relaatiotietokannasta.[27] Painettua kirjaa huomattavasti halvempi ja ajantasaisempi tiedotusmenettely on lähettää viesti jonkin sukututkimusyhteisön tai -yrityksen ylläpitämälle sähköiselle postituslistalle, uutisryhmään tai viestiarkistoon. Listojen aihepiirit voivat rajoittua tiettyyn sukuun tai sukunimeen tai tietyn maan, alueen, paikkakunnan, työyhteisön, säädyn tai etnisen ryhmän tutkimukseen.[28]

Suomen Sukututkimusseura ylläpitää palvelimessaan mm. sukututkijaluetteloa, sukututkimuskysymysten arkistoa sekä muutamia postituslistoja. Sukututkimushakemistoihin lähetetyt tiedotteet ja kyselyt tulisi otsikoida ytimekkäästi ja standardimuodossa, jotta tiedon hakija voisi vaivatta otsikkoluetteloa silmäilemällä tai hakukoneen avustuksella löytää hakemansa. Esimerkiksi Johan Mörskoviuksen perhettä koskeva, Sukututkimusseuran suku- tai finngen-listalle lähetetty tiedote otsikoitaisiin "Mörskovius; 1743-1757; Hamina".[29]

Sähköisen julkaisemisen yleistyessä syntyy tarvetta käyttää sähköistä julkaisua, arkistoitua viestiä tai jopa tietokantahakua lähteenä ja siis myös viitata sellaiseen toisessa (painetussa tai sähköisessä) julkaisussa. Tähän liittyy merkittäviä ongelmia. Perinteisestä hyvälle paperille painetusta kirjasta säilyy vuosisatoja muuttumattomana ainakin yksi kappale jossakin kirjastossa, ja kirjan otsikko ja tekijän nimi säilyvät sen alati voimassa olevana hakuavaimena, kun taas tietoverkon pisteeseen sijoitettu teksti voidaan koska tahansa siirtää toiseen paikkaan, estää sen lukeminen pääsyoikeuksia muuttamalla, hävittää teksti kokonaan tai muuttaa tekstin sisältöä siitä esipuheessa mainitsematta. Verkkojulkaisu pitäisi aina varustaa selvällä otsikolla, tekijän nimellä, alkuperäisellä julkaisupäiväyksellä sekä versionumerolla ja -päiväyksellä, jotka yhdessä yksilöivät julkaisun sitä hakukoneella noudettaessa. Samat bibliografiset tiedot laitetaan lähdeviittaukseen, ja verkko-osoitteen ohella ilmoitetaan myös päivä, jolloin tutkija on referoimansa verkkojulkaisun lukenut tai tietokantahaun tehnyt.[30]

Lähdeviittausten epävakautta vielä suurempi epäkohta on se, ettei julkaisutoiminnan yleisiä periaatteita ja etiikkaa aina kunnioiteta. Perinteisessä tieteellisessä julkaisemisessa sovelletusta ennakkoarvioinnista ei ole puhettakaan, vaan yleisiin sukututkimustietokantoihin otetaan vastaan GEDCOM-tiedostoja, joista puuttuvat lähdeviittaukset ja henkilöiden ammatit. Toisaalta eräät sukututkimustietokannat karsivat tiedon tuottajien tiedostoista lähdeviitteet ja elämäkerrat pois tai eivät näytä niitä haun tuloksessa. Näitä puutteellisia tietoja käytetään sitten toisten tutkimusten lähteinä, minkä seurauksena verkkoon tulee jatkuvasti alkuperältään tuntematonta tietoa ja samalla alkuperäisten tutkimusten tekijöiden oikeudet vaarantuvat.[31]

Tutkimuksia kannattaa toimittaa verkossa julkaistavaksi pieninä, huolellisesti valmisteltuina ja dokumentoituina erinä, joilla on korkea alkuperäisyysaste ja joita ei heti tarvitse korjailla. Tietoverkko on ihanteellinen foorumi tietyn paikkakunnan tai tutkimusaiheen tietopisteelle, jossa alueeseen tai aihepiiriin perehtynyt tutkija julkaisee tutkimusintressiinsä liittyviä esitteitä, opasteita, asiasanastoja, suku- ja taloluetteloita, karttoja, kirjallisuusluetteloita, tutkimustiedotteita, arkistoviitteitä, lähdelöytöjä sekä hakemistoja lähteisiin. Harkitulla otsikoinnilla ja avainsanojen valinnalla tutkija saattaa tietopisteensä Suomen historiaan tai sukututkimukseen erikoistuneen hakukoneen käyttäjien ulottuville.[32]

 

Liitteet

[1] Manu Herna, Amerikkalaiset sukututkimusohjelmat. Sukutieto 1993:3, s. 4-6. Erkki Voutilainen, Sukuohjelmisto ja Genus: suomalaisia sukututkimusohjelmia. Sukuviesti 1993:1, s. 12-13. Leif Mether, Sukuohjelmisto uudistuu. Sukutieto 1994:4, s. 18-21. Seppo Palander, Vertailussa sukututkimusohjelmat: esipolvitaulujen tulostaminen. Sukuviesti 1998:3, s. 4-6. Seppo Palander, Sukupuun tulostus tietokoneella. Sukuviesti 1999:2, s. 10-12. - Amerikkalaisten sukututkimusohjelmistojen kuvauksia ja arviointeja on ilmestynyt vuosien varrella runsaasti mm. Paul Andereckin 1981 perustamassa Genealogical Computing -aikakauskirjassa, jota nykyisin julkaisee sukutieteellisenä kustantajana ja tietokantojen tarjoana tunnettu Ancestry.com. Ks. esim. 1999 Software Directory. Genealogical Computing 19:2 (1999), s. 32-40. Betty Clay, What genealogy software should I buy? Genealogical Computing 19:2 (1999), s. 27-31.

[2] Suomen Sukututkimusseura, <http://www.genealogia.fi/>.

[3] The GEDCOM standard, Release 5.5. Prepared by the Family History Department, The Church of Jesus Christ of Latter-day Saints, 1996. <http://www.gendex.com/gedcom55/55gctoc. htm>. Kent Riggins, Details of a GEDCOM file. Genealogical Computing 8:2 (1988), s. 1, 4-6. Bill Harten, Exploring GEDCOM’s past, present, and future. Genealogical Computing 9:3 (1990), s. 1, 4-5, 9. Aarno Pelli, GEDCOM - silta sukututkimusohjelmien välillä. Sukutieto 1992:4, s. 4.

[4] Rafal T. Prinke, Quo vadis, GEDCOM? The Computer Genealogist 5:6 (1996), s. 1, 3-8.

[5] Seppo Sippu, On the meaning of FAMilies in GEDCOM. The Computer Genealogist 6:2 (1997), s. 9-15.

[6] Huhtikuussa 1998 mormonikirkon sukututkimusosasto julkisti luonnoksen GEDCOM-standardin "tulevaisuuden suuntaukseksi": The GEDCOM standard, Future direction, based on an underlying data model; draft. Prepared by the Family History Department, The Church of Jesus Christ of Latter-day Saints, 1998. Stephen Kyner, GEDCOM (Future direction). The Computer Genealogist 7:3 (1998), s. 8-15. - Voimassa olevan standardin (5.5) syntaksi on tässä uudessa luonnoksessa pitkälti hylätty ja koko rakenne määritelty uudestaan. Kaikki lähdeviittaukset ja jopa paikkamääreet on nyt esitettävä erillisten tietueiden avulla. Uusina piirteinä luonnoksen tietomalli sisältää mm. rakenteet, joilla voidaan esittää laajojen sukututkimusprojektien hallintatietoa, kuten tutkijoita, tutkimuskohteita, tutkimustehtäviä sekä kirjanpitoa tietokantaan tuoduista ja tietokannasta viedyistä tiedoista (work coordination data), tutkimusta tukevaa paikkaan tai kulttuuriin sidottua historiallista tietoa (support data) sekä järjestelmän ja tietokantojen hallintaan liittyvää tietoa (system data). Lisätyt piirteet ovat ymmärrettäviä, kun ajattelee mormonikirkon roolia laajojen sukututkimustietokantojen ylläpitäjänä.

[7] GENTECH, Genealogical data model, Phase 1. A comprehensive data model for genealogical research and analysis, 1998. <http://www.gentech.org/>. John V. Wylie, What I learned serving on the GENTECH data model working group. The Computer Genealogist 7:5 (1998), s. 1-3. Rafal T. Prinke, What is your data model? The Computer Genealogist 7:5 (1998), s. 3-12. Paul A. Barkley, Creating the GENTECH data model. The Computer Genealogist 7:5 (1998), s. 12-21. Robert C. Anderson, LEXICON2: What comes after the genealogical data model? The Computer Genealogist 7:5 (1998), s. 22-23.

[8] LifeLines second-generation genealogy software, <http://lifelines.sourceforge.net/>. - Unix-käyttöjärjestelmän ja sen jäljitelmien (mm. Linuxin) alaisuudessa toimiva LifeLines-ohjelmisto on lähdekoodeineen ilmaisohjelma (freeware) ja kenen tahansa kopioitavissa tietoverkosta. Hannu Väisänen on sovittanut ohjelmiston Suomen oloihin kirjaimiston käsittelyn osalta. Hannu Väisäsen sukututkimussivu, <http://joyds1.joensuu.fi/suku/>.

[9] Tom Wetmore, LifeLines programmer’s reference, version 3.0.2, 1996. - LifeLinesissa uuden raportin määrittely edellyttää sukututkijalta GEDCOM-syntaksin, raportointikielen sekä ohjelmoinnin perusteiden tuntemusta. Uuden raportin kehittäjä tai entisen parantaja on yleensä lähettänyt työnsä tuloksen LINES-L-postituslistalle muiden käyttäjien testattavaksi ja kritisoitavaksi. Raporttiohjelmat on myös arkistoitu tietoverkkoon, josta ne ovat kenen tahansa vapaasti kopioitavissa ja edelleen muokattavissa. LifeLines raporttiohjelmineen onkin pienessä mittakaavassa esimerkki onnistuneesta avoimen ohjelmistonkehittämisen periaatteesta, jossa ohjelmiston alkuperäinen kehittäjä ylläpitää ydinosaa ja asianharrastajat ohjelmoivat lisukkeita.

[10] Panu Nykänen, Tietotekniikka ja historiantutkimus. Sukuviesti 1999:2, s. 12-13. - Tiedon sähköisessä arkistoinnissa törmätään myös tallennuslaitteen vanhenemisesta johtuviin tiedonsiirron ongelmiin.

[11] Mark Howells, Transforming your GEDCOM files into web pages. The Computer Genealogist 6:3 (1997), s. 7-11. Alan E. Mann, From GEDCOM to a web page. Genealogical Computing 18:1 (1998), s. 1, 27-29.

[12] Beau Sharbrough, The GENTECH data exchange project. Genealogical Computing 15:2 (1995), s. 1, 20-21 (part 1); 15:3 (1996), s. 30-33 (part 2). John V. Wylie, Where we’ve been and where we’re headed. The Computer Genealogist 6:5 (1997), s. 5-6. Bob Velke ja Robert C. Anderson, When "birth order" isn’t: an example from the lexicon working group. The Computer Genealogist 6:5 (1997), s. 7-11. Beau Sharbrough, GEDCOM Test Book project. The Computer Genealogist 6:5 (1997), s. 11-12. Beau Sharbrough, Looks like things are picking up: an update on the GENTECH GEDCOM TestBook project. The Computer Genealogist 8:2 (1999), s. 11-14.

[13] George G. Morgan, Using NAIL: the National Archival Information Locator. Genealogical Computing 17:3 (1998), s. 1, 25-29. George G. Morgan, The Library of Congress’ experimental search system. Genealogical Computing 17:4 (1998), s. 1, 27-30. George G. Morgan, Digitization of genealogical resources: promise and problems. Genealogical Computing 19:4 (1999), s. 1, 23-27.

[14] FamilySearch Internet Genealogy Service. The Church of Jesus Christ of Latter-day Saints, <http://www.familysearch.org/>. David M. Mayfield ja A. Gregory Brown, FamilySearch. Genealogical Computing 10:1 (1990), s. 1, 8-12. Alan E. Mann: FamilySearch: what it is and how to use it. Genealogical Computing 19:1 (1999), s. 8-11. Jake Gehring, FamilySearch online: the new LDS web site. Ancestry 17:5 (1999), s. 30-34.

[15] Arkistolaitos, <http://www.narc.fi/>. Pentti Henttonen, Arkistotietokanta on internetissä. Sukutieto 1997:3, s. 15-17.

[16] Tietoja Suomen seurakunnista. Suomen Sukututkimusseura, <http://www.genealogia.fi:10000/ miniproject/>.

[17] Mikrokorttien kopiointi. Mikkelin maakunta-arkisto, <http://www.narc.fi/ma/mma/mikrokor.htm>.

[18] Mayfield ja Brown 1990. Anni Pakarinen, IGI - international genealogical index 1992. Sukuviesti 1994:2, s. 17-19.

[19] Demografiska databasen, en nationell och internationell forskningsresurs. Umeå Universitet, <http://www.ddb.umu.se/>. - Tietokannan ulkoiseen rakenteeseen ja tallennettujen lähdetyyppien valikoimaan voi tutustua selailemalla tietoverkkoon sijoitettuja esimerkkiseurakunnan (Tuna) tietoja.

[20] Pentti Hiltunen, Karjalaiset tietokoneeseen. Luovutetun Karjalan kirkonkirjat Karjala-tietokannaksi. Sukutieto 1990:3, s. 11-13. Pentti Hiltunen, Karjala-tietokanta: tutkimusrekisteri luovutetun Karjalan väestöstä. Sukuviesti 1993:4, s. 26-27. Päivi Repo-Lehikoinen ja Jari Ropponen, Lisäapua sukututkijoille: Karjala-tietokanta tallentaa ja julkaisee. Sukuviesti 1999:2, s. 29-30. Karjala-tietokanta, <http://personal.inet.fi/palvelu/karjala-tk/>.

[21] Historiakirjat. Suomen Sukututkimusseura, <http://www.genealogia.fi/historia/>. Heikki Kortesoja, HisKi etenee. Sukutieto 1996:2, s. 16-17. Leif Mether, HisKi-projekti - historiakirjat tietokoneelle. Sukutieto 1996:3, s. 4-6. Pertti Vuorinen ja Leif Mether, Tallennettua historiaa - HisKi-projektin kymmenen vuotta. Sukutieto 1999:2, s. 4-7.

[22] Jouni Malinen, Sukututkimus ja internet. <http://www.genealogia.fi/jm/>.

[23] Matti Mäkelä, Hypermedia ja sukututkimus. Sukutieto 1994:4, s. 11-13. Kaarina Aro, Kansallisbiografia Internetissä. Sukuviesti 1998:1, s. 6-8.

[24] Gene Stark, GENDEX - WWW genealogical index. <http://www.gendex.com/gendex/>. Gary Hoffman, Weaving the GenWeb. Genealogical Computing 16:1 (1996), s. 1, 26-27.

[25] Mayfield ja Brown 1990. Gehring 1999.

[26] George Archer, Finding worth on the web. Genealogical Computing 16:3 (1997), s. 20-24. Alan Mann, Searchable lineage linked databases. Genealogical Computing 17:3 (1998), s. 11-13. Search@Ancestry.com, <http://www.ancestry.com/search/>. GenServ Genealogical GEDCOM Server System, <http://www.genserv.com/>. RootsWeb’s WorldConnect Project, <http://worldconnect.genealogy.rootsweb.com/>.

[27] Leif Mether (toim.), Kuka tutkii mitä? Sukututkijaluettelo 1996. Helsinki 1996. Manu Herna, Sukututkimuksen yleinen tietojärjestelmä. Sukutieto 1991:2, s. 3-5. Manu Herna, Sukututkimuksen yleinen tietojärjestelmä - toteutus. Sukutieto 1992:2, s. 6-7. Manu Herna, Suomen Sukututkimusseuran tietokannan etäkäyttö. Sukutieto 1995:1, s. 4-6.

[28] John Fuller ja Christine Gaunt, Genealogy resources on the internet. <http://www.rootsweb.com/~jfuller/internet.html>. Tom Sundius, Vilken nytta kan en släktforskare ha av datornäten? Sukutieto 1993:2, s. 6-8, 13. Leif Mether, Sukututkimus ja Internet. Sukutieto 1996:4, s. 19-21. Leif Mether ja Pertti Vuorinen, Sukututkimus ja tietoverkot. Sukutieto 1999:1, s. 4-7. Drew Smith, Electronic message in a bottle. Genealogical Computing 19:1 (1999), s. 15-18.

[29] Postituslistat. Suomen Sukututkimusseura, <http://www.genealogia.fi/postlist/>. Vrt. RSL:n (RootsWeb Surname List) viestitysohjeet, <http://www.rootsweb.com/roots-l/family.readme.html>.

[30] Melvin E. Page, A brief citation guide for Internet sources in history and the humanities (version 2.1). The Computer Genealogist 6:4 (1997), s. 8-14. Maurice Crouse, Citing electronic information in history papers. The Computer Genealogist 8:3-4 (1999), s. 5-25. Jaakko Suominen (toim.), Historioitsijan internet-opas. <http://www.utu.fi/hum/ historia/kh/iopas>. - Tämän kirjoituksen lähdeviitteissä antamani verkko-osoitteet olen todennut voimassa oleviksi huhtikuussa 2000.

[31] John V. Wylie ja Barbara B. Wylie, Principles, publishing, pretenders, and pirates. Genealogical Computing 15:3 (1996), s. 1, 22-23. George W. Archer, Publish and perish: using genealogy software without sources. Genealogical Computing 18:2 (1998), s. 44-45. Patricia Law Hatcher, What are we going to do about bad data on the internet? Genealogical Computing 19:1 (1999), s. 41-43.

[32] Vrt. USGenWeb-projektin piirikuntakohtaiset tietopisteet. The USGenWeb project, <http:// www.usgenweb.org/>. Archer 1997. Matthew L. Helm, The day of the search engine - goodbye, link sites? Ancestry 17:4 (1999), s. 57-59.

 

Referat

Seppo Sippu: Datorstödd släktforskning

Med hjälp av ett släktforskningsprogram kan en släktforskare lagra sina forskningsresultat i en personlig databas och med stöd av de uppgifter han samlat in framställa rapporter för forskningsändamål eller för publicering. Insamlandet av data går snabbare då källmaterialet för släktforskningen överförts i elektronisk form.

Som ett resultat av projektet HisKi, som långt fungerar med hjälp av frivilliga krafter och administreras av Genealogiska Samfundet i Finland, har uppgifter om födda, vigda och döda i mer än trehundra av Finlands församlingar matats in i Genealogiska Samfundets databas, och är tillgängliga för forskare via det världsomspännande datanätet. Sina forskningsresultat kan en släktforskare publicera elektroniskt t.ex. genom att sända sin information till en allmän släktforskningsdatabas som upprätthålls av ett släktforskningssamfund eller -företag.

För att forskare skall kunna utnyttja släktforskningsprogram och databaser på ett framgångsrikt sätt krävs det att släktdata modelleras så att den information som når användaren är fullständig och oförvanskad. Databasen för ett typiskt program har planerats i första hand med tanke på presentation av slutsatser, dvs. resultatet av släktforskningen. Däremot är modelleringen för den slutledningsprocess som lett fram till resultaten bristfällig. Datamodellen GEDCOM med sina individ-, familje- och källposter, som Mormonkyrkans släktforskningsavdelning ursprungligen utvecklade för överföring av data, har utgjort en förebild när släktforskningsdatabaser utformats och program utvecklats. I den modell för släktdata som organisationen GenTech nyligen publicerat intar beskrivningen av slutledningsprocessen en central roll.

Ett släktforskningsprogram borde ge möjlighet till ett mångsidigt utnyttjande av databasen genom funktioner som bistår forskaren vid insamlingen av material, vid slutledningsprocessen samt vid lagringen och rapporteringen av forskningsresultaten. Ett väl planerat program tvingar inte forskaren att överge eller avvika från normer som visat sig fungera väl i traditionell släktforskning. Programmet uppmuntrar i stället forskaren att visa noggrannhet, att dokumentera källorna och slutledningsprocessen omsorgsfullt och att presentera sina resultat i ändamålsenlig form.

För att säkerställa att forskningsresultaten bevaras och är möjliga att överföra är det nödvändigt att programmet kan konvertera informationen från databasens interna format till ett standardiserat textformat utan att någon information går förlorad och omvänt från ett dylikt textformat till ett internt format utan att data försvinner på vägen. Nästan alla program på marknaden ger möjlighet till utdrag ur databasen i GEDCOM-format och omvänt kan data föras in i databasen från ett dylikt utdrag. Möjligheterna att överföra data mellan de olika programmen är trots det små.

Till följd av att det är så enkelt att publicera elektroniskt och att en praxis för bedömning av resultaten nästan helt saknas har en stor mängd okontrollerad, felaktig och till sitt ursprung okänd släktforskning spridits via datanätet. Också för en elektronisk publikation skall samma krav som för en traditionell publikation gälla beträffande innehåll och form, källhänvisningar m.m. Källmaterial som lagrats av experter och erbjuds forskare i elektroniskt textformat befrämjar släktforskningsprocessen. För att kunna tolka informationen på rätt sätt och bedöma dess betydelse bör forskaren behärska den traditionella släktforskningens metodologi och besitta kunskap om originalkällornas form, språk, syfte och tillkomst.

 
Genos 71(2000), s. 127-144, 164

© Tekijät ja Suomen Sukututkimusseura - Författarna och Genealogiska Samfundet i Finland

[ Artikkelin alku ]

Aiheenmukainen hakemisto | Vuoden 2000 hakemisto | Vuosikertahakemisto