Célok
Az adatminőség (Data Quality DQ) elsősorban szubjektív fogalmat takar: a megfelelő például "elég jó" az egyik embernek, míg más kevésnek érzi. A "megfelelő" itt azt jelenti, hogy bizonyos követelményeknek valóban megfelel az adat egy eljárás során. Azonban az adatminőség szubjektív megítélésén túl van egy objektív megítélése is, amely mérhető és segíti az adatminőség bizonyítható és átfogó metrikáinak kialakítását. A szabványok követése, melyek betartását olyan beágyazott eszközök biztosítják melyeket így az eljárások maguk is használnak, segíti az adatminőség javítását. Annak érdekében, hogy az adatminőség javítása fenntartható legyen, szabályozni kell az adat teljes útját, nem csupán az adatot biztosító front end-et. Az adatminőség javítását folyamatnak és nem egyszeri intézkedésnek kell tekintenünk.
Hivatkozások a felülvizsgált PSI direktívára
Kihívás
A nyílt adatok terjedése, mint a továbbfejlesztett vagy új termékek és szolgáltatások felé mutató nyílt innováció segítésének, az átláthatóság növelésének vagy a szabályozások hatékonyságának saját hatáskörben való mérésének eszköze szintén kérdéseket vet fel a közzétett források minőségével kapcsolatban. Az a korábbi feltevés, miszerint a több adat, még bizonytalan eredet és minőség esetén is, feltétlenül jobb döntést eredményez amennyiben a helyes algoritmust használjuk, ismét helyet adott a "szemétből szemét" (garbage-in, garbage-out) elmélet igazának, vagyis hogy hibás bemenő adatból a kimenő adat is hibás lesz. Ez kiegészülve az adatplatform használhatóságára, adatismeretekre és megbízhatóságra irányuló kérdésekkel, az adat minőségi aspektusaira irányította a figyelmet. Ironikus, hogy a kormányzati adatminőség az utóbbi időben elsődlegesen azért vált fontossá, mert a kormányzat nyílt adatként kezdett adathalmazokat megjelentetni, ezzel lehetővé téve az érintetteknek hogy állampolgári kontroll jogokat gyakoroljanak / állampolgári kontroll gyakorlását. A különböző forrásokból származó adatok összekapcsolása első alkalommal olyan problémákat tesz nyilvánvalóvá, mint a hiányzó adatok, vagy a hiányos vagy hiányzó mesteradat-kezelésből (Master Data Management) felmerülő hiányosságok.
Megoldás
A hagyományos metrikák az adatminőség mérésére mint a pontosság, alkalmazhatóság és értelmezhetőség továbbra is relevánsak maradnak, de a nyílt adatok terén kiegészülnek olyan további szempontokkal mint a nyíltság, időszerűség és elsőbbség. Az Európai Bizottságban folyó Open Data Support (Támogassuk a Nyílt Adatokat) projekt az alábbi hét szempontot teszi megfontolás tárgyává:
- Pontosság: Az adat helyesen/pontosan írja le a valós világot és annak történéseit?
- Konzisztencia: Nem tartalmaz az adat ellentmondást?
- Elérhetőség: Elérhető az adat most és a későbbiekben?
- Teljesség: Tartalmazza az adat az általa leírt dologra jellemző minden adatrészletet?
- Megfelelőség (konformancia): Megfelel az adat az elfogadott szabványoknak?
- Hitelesség: Megbízható forrásból származik az adat?
- Feldolgozhatóság: Olvasható gép által az adat?
- Relevancia: Megfelelő mennyiségű adatot tartalmaz az adat?
- Időszerűség: Az aktuális helyzetet írja le az adat és elég hamar tesszük közzé?
Az adatminőséget javító intézkedések a teljes (nyílt) adat életciklus során jelen kell legyenek, máskülönben a minőségi intézkedések csak további tehernek tűnnek, extra munkát és pénzt igényelve. Emellett megjegyzendő, hogy a Nyílt Adat Életciklus (Open Data Life Cycle) egy ciklus - amely értelmében az adatminőség javítását célzó eszközök bevezetése inkább folyamat, mint egyszeri intézkedés.
Miért ez a jó gyakorlat?
Az adatminőség hiánya csökkenteni fogja az adatfelhasználók bizalmát és megakadályozza a nyílt adat piac kiterjedését. Az adatminőségbe történő beruházás azonban kifizetődik, szervezeten belül az ügyvitel számára, mivel az interoperábilis adatszolgáltatások lehetősége növekszik, akárcsak szervezeten kívül, mivel az adathasználók számára egyre könnyebbé válik a különböző forrásokból származó adatkészletek összeillesztése egy hozzáadott értékkel bíró szolgáltatás létrehozásához.
Hogyan valósítsuk meg ezt a jó gyakorlatot?
E jó gyakorlat megvalósításához szükséges a probléma mind technikai, mind szervezeti oldalról való megközelítése.
Technikailag, az adatminőség kérdése felvetődhet a szabályokhoz, normákhoz vagy szabványokhoz kapcsolódva. Azonban a szabályok, normák és szabványok alkalmazása különböző szintű irányítást/vezetést igényel. Az irányítási struktúra létrehozása jellemzően az Informatikai Igazgató (CIO) vagy hasonló jogkörrel és feladatokkal bíró személy felelőssége.
- Az Informatikai Igazgató felelős az általános és jóváhagyott szabályokat, normákat és szabványokat használó információ-technológiai (IKT)-rendszer strukturálásának és implementálásának irányításáért.
- Az Informatikai Igazgató felel a szemantikailag egyező adatentitások azonosításáért, leírja mely szabványok alapján kell az adatentitásokat modellezni, valamint ellenőrzi az adott szabványoknak való megfelelést.
Az általános adatentitásokat, ahol lehetséges, az alap szókészletek alapján kell formálni.
A CSV állományok a W3C CSV on the Web Ajánlását használva annotálhatók, amely szintén magában foglal egy formális modellt a CSV állományok oszlopainak leírására.
Az adatleírásokat a DCAT-AP szókészlet alapján kell létrehozni.
Az adatközzététel során használhatjuk a W3C Adatminőség Szókészletét (Data Quality Vocabulary, DQV), ami egy keretet biztosít, melyben az adatkészlet minősége leírható a közzétevő vagy a szélesebb közönség által.
Az eszközök automatikusan ellenőrizhetnek bizonyos adatminőség domain-eket, mint az elvárt kódolás betartása (például utf8) vagy a CSV állományok szerkezeti szabályossága.
Az adatkészlet minőségének közzététel előtti értékelésére, például statisztikai adatok RDF formátumban való megjelentetésére, használhatjuk az RDF Adatkocka validátort (PDF).
Az adatok minőségértékelési és eredetkövetési információival való gazdagítására azok RDF integrálása során például a UnifiedViews eszközt használhatjuk.
Szervezeti szint
- Az Informatikai Igazgató feladata az adatkezelési keretrendszer implementálása, amely adat-architektúra kezelésből, metaadat kezelésből és mesteradat kezelésből (MDM) áll.
- Az adatnak, mint döntő fontosságú "tőkének" a szerepe hangsúlyozható az Adatkezelési Igazgató (Chief Data Officer, CDO) pozíció létrehozásával.
- AZ ISO 8000 alapelveinek, mint szókészlet használat, szemantikus kódolás, eredet, pontosság és teljesség figyelembevétele.
A legelterjedtebb technikai szabványok, mint az utf8 minimálisan kötelező használata kieszközölhető jogi intézkedések vagy az állami informatikai szakhatóság rendelkezése révén.
A közzétételi eljárás értékelésekor vegyük figyelembe az ODI Tanúsítványban (ODI Certificates) vagy más hasonló dokumentumban leírt lépéseket.
Felhasznált irodalom
- Adatminőség Szókészlet
- Bevezetés az ISO 8000 szabványhoz
- Adatkezelés Útmutató
- e-beszerzés szabványok
- e-számlázás szabványok
- Nyílt Adat Tanúsítványok
Hol valósult már meg ez a jó gyakorlat?
Ország | Megvalósítás | Kapcsolat |
---|---|---|
Ausztria | Mission Statement of the Sub-working Group Quality Assurance of Open Data Portals of the Cooperation Open Government Data Austria | Cooperation OGD Austria |
UK | Cross platform character encoding profile | |
UK | ODI Certificate for the Westminster City Council | Westminster City Council |
Szerbia | Validating RDF Data Cube Models | Valentina Janev, Mihailo Pupin Institute, University of Belgrade, Belgrade, Serbia |
Finnország | Valmistele ja avaa - Prepare and open Section 3.6. Tiedon viimeistely ja laatu - Finishing the data and data quality | Ministry of Finance, Finland |
Referenciák
- David Corsar, Peter Edwards, Enhancing Open Data with Provenance, dot.rural Digital Economy Hub
- ProvenanceWeek 2014
- Giorgos Flouris, Yannis Roussakis, Marrıa Poveda-Villalon, Pablo N. Mendes, Irini Fundulaki, Using Provenance for Quality Assessment and Repair in Linked Open Data, 2nd Joint Workshop on Knowledge Evolution and Ontology Dynamics (EvoDyn-12) at the ISWC2012
- Makx Dekkers, AMI Consult, How good is good enough?
- Amanda Smith & Sumika Sakanishi, ODI, Publishing and improving the quality of open data with Open Data Certificates, United Kingdom
- Samos presentation: Examples from the Norwegian public sector
- Lisbon workshop session: Roadblocks in Commercial Open Data Usage
- Timisoara workshop session: How good is good enough? A common language for quality?
- Comparing the 5-star scheme with Open Data Certificates
- Lisbon workshop session: Roadblocks in Commercial Open Data Usage
- Samos Workshop Session: The Potential within the Government for Innovation and Efficiency from Open Data – Examples from the Norwegian public Sector
Nemzeti iránymutatások
Erre a jó gyakorlatra hivatkoznak, vagy ezzel megegyező tanácsot adnak a következő iránymutatások:
- (Austria) Framework for Open Government Data Platforms
- (Belgium) Open Data Handleiding Open Data Handbook
- (Croatia) Preporuke o prilagodbi skupova podataka za javnu objavu i ponovno korištenje Open Data Guide, Croatia
- (Estonia) Avaandmete loomise ja avaldamise juhend Open Data Guidelines
- (Finland) Avoimen Datan Opas Open Data Guide
- (Greece) Εφαρμογή των διατάξεων του Κεφαλαίου Α’ του ν. 4305/2014 (ΦΕΚ 237/Α΄ ) Guidelines on the implementation of open data policy and l. 4305/2014
- (International) Open Data Handbook, Solutions Bank
- (Italy) Linee Guida Nazionali per la Valorizzazione del Patrimonio Informativo Pubblico National Development Guidelines for Public Sector Information
- (Lithuania) Viešojo Sektoriaus Informacijos platinimo gerosios praktikos Best Practices for Sharing Public Sector Information
- (Luxembourg) Recommandations pour l'ouverture des données publiques Recommendations for opening data
- (Malta) PSI Directive Implementation & Internal Data Sharing Platform (draft)
- (Serbia) Open Data Handbook
- (Slovenia) Priročnik za odpiranje podatkov javnega sektorja Manual for the opening of public sector information
- (Spain) Government Data Openness and Re-use
- (UK) Open Data Resource Pack
- (UK) Birmingham and West Midlands Localised Guide for Open Data
Kapcsolat
Eredeti szerzők: Johann Höchtl, Valentina Janev
Közreműködők: Muriel Foulonneau, Lorenzo Canova
Szerkesztők: Valentina Janev, Johann Höchtl
Feladatkezelő
Bármilyen, a fenti jó gyakorlathoz kapcsolódó észrevétel, mint például a megvalósítás, az ahhoz kapcsolódó tapasztalat, levont tanulságok, vagy iránymutatások melyek erre a jó gyakorlatra hivatkoznak, felvihetők és megvitathatók a projekt GitHub-on.