Olemme puhuneet tästä instituutissa, jossa suoritan tohtorintutkintoni, ja paras ratkaisu näytti olevan seuraava:
Luo ensin kaikelle raakatiedolle keskitetty tietokanta, johon pääsee per pyyntö. Lähetä / kopioi siihen tietoja heti, kun ne on kerätty, mukaan lukien meluisa data, joka ei välttämättä pääse lopulliseen analyysiin. Tämä varmistaa, että kaikki poissuljetut tiedot on perusteltava asianmukaisesti.
Toiseksi, ilmoita kaikille, että niin usein satunnainen tietojoukko vedetään ulos ja siihen tehdään joitain perustarkistuksia.
Suorita kolmanneksi nämä perustarkistukset. Tätä varten tarvitset jonkun, jolla on tietoa tilastoista, joka voi kertoa sinulle, mikä sopii tietotyyppiin. Paljon normaalin datan perustekijöitä on vaikea simuloida ilman paljon tietoa tilastoista. Esimerkiksi, jos otat dataa, jolla on normaali jakauma, jaat sen kvintiileihin ja piirrät keskiarvon kunkin kvintiilin varianssiin nähden, niiden pitäisi pudota karkeasti käänteiselle U-muotoiselle käyrälle. Tiedän tapauksen, jossa tämä suhde oli täysin lineaarinen, mikä nosti hälytyskelloja. Joka tapauksessa näiden tarkastusten tulee olla yksinkertaisia ja helppoja suorittaa.
Neljänneksi, päättää kuka tekee nämä tarkistukset, koska se vie aikaa ja vaivaa.
Viidenneksi, varmista, että sinulla on jonkinlainen käsitys siitä, minkä tyyppiset virheet ovat rehellisiä virheitä ja mikä on todellinen petos. Varmista, että keskustelet mekanismeista näiden virheiden (ja petosten) käsittelemiseksi etukäteen, ts. Älä jätä tätä päätöstä esimiehen käsiin sillä hetkellä, kun se tapahtuu.
Muokkaa: Luulen, että pääkysymys oli mikä on PI: n vastuu. Vastaukseni heijastaa mielipidettäni siitä, että vastuu olisi institutionaalisempaa, eikä sitä pitäisi jättää vain PI: n vastuulle. Toisaalta PI voi suorittaa joitain näistä vaiheista sisäisesti tarvittaessa / jos muuta apua ei ole saatavilla. Mutta sitten se voi olla liian monimutkainen, joten ehkä saat parempia vastauksia muilta ihmisiltä.