Share-PSI 2.0 logo

Jó gyakorlat: Tegyük lehetővé a nyílt adatok minőségi értékelését

Ez a verzió
http://www.w3.org/2013/share-psi/bp/eqa-20160725/
Legfrissebb verzió
http://www.w3.org/2013/share-psi/bp/eqa/
Előző verzió
http://www.w3.org/2013/share-psi/bp/eqa-20160721/

Ez a dokumentum a (felülvizsgált) PSI Direktíva megvalósítására a által készített jó gyakorlatok gyűjtemény része.

Creative Commons Licence Share-PSI Jó gyakorlat: Tegyük lehetővé a nyílt adatok minőségi értékelését by Share-PSI 2.0 licensz: Creative Commons Attribution 4.0 Nemzetközi.


Célok

Az adatminőség (Data Quality DQ) elsősorban szubjektív fogalmat takar: a megfelelő például "elég jó" az egyik embernek, míg más kevésnek érzi. A "megfelelő" itt azt jelenti, hogy bizonyos követelményeknek valóban megfelel az adat egy eljárás során. Azonban az adatminőség szubjektív megítélésén túl van egy objektív megítélése is, amely mérhető és segíti az adatminőség bizonyítható és átfogó metrikáinak kialakítását. A szabványok követése, melyek betartását olyan beágyazott eszközök biztosítják melyeket így az eljárások maguk is használnak, segíti az adatminőség javítását. Annak érdekében, hogy az adatminőség javítása fenntartható legyen, szabályozni kell az adat teljes útját, nem csupán az adatot biztosító front end-et. Az adatminőség javítását folyamatnak és nem egyszeri intézkedésnek kell tekintenünk.

Kihívás

A nyílt adatok terjedése, mint a továbbfejlesztett vagy új termékek és szolgáltatások felé mutató nyílt innováció segítésének, az átláthatóság növelésének vagy a szabályozások hatékonyságának saját hatáskörben való mérésének eszköze szintén kérdéseket vet fel a közzétett források minőségével kapcsolatban. Az a korábbi feltevés, miszerint a több adat, még bizonytalan eredet és minőség esetén is, feltétlenül jobb döntést eredményez amennyiben a helyes algoritmust használjuk, ismét helyet adott a "szemétből szemét" (garbage-in, garbage-out) elmélet igazának, vagyis hogy hibás bemenő adatból a kimenő adat is hibás lesz. Ez kiegészülve az adatplatform használhatóságára, adatismeretekre és megbízhatóságra irányuló kérdésekkel, az adat minőségi aspektusaira irányította a figyelmet. Ironikus, hogy a kormányzati adatminőség az utóbbi időben elsődlegesen azért vált fontossá, mert a kormányzat nyílt adatként kezdett adathalmazokat megjelentetni, ezzel lehetővé téve az érintetteknek hogy állampolgári kontroll jogokat gyakoroljanak / állampolgári kontroll gyakorlását. A különböző forrásokból származó adatok összekapcsolása első alkalommal olyan problémákat tesz nyilvánvalóvá, mint a hiányzó adatok, vagy a hiányos vagy hiányzó mesteradat-kezelésből (Master Data Management) felmerülő hiányosságok.

Megoldás

A hagyományos metrikák az adatminőség mérésére mint a pontosság, alkalmazhatóság és értelmezhetőség továbbra is relevánsak maradnak, de a nyílt adatok terén kiegészülnek olyan további szempontokkal mint a nyíltság, időszerűség és elsőbbség. Az Európai Bizottságban folyó Open Data Support (Támogassuk a Nyílt Adatokat) projekt az alábbi hét szempontot teszi megfontolás tárgyává:

  • Pontosság: Az adat helyesen/pontosan írja le a valós világot és annak történéseit?
  • Konzisztencia: Nem tartalmaz az adat ellentmondást?
  • Elérhetőség: Elérhető az adat most és a későbbiekben?
  • Teljesség: Tartalmazza az adat az általa leírt dologra jellemző minden adatrészletet?
  • Megfelelőség (konformancia): Megfelel az adat az elfogadott szabványoknak?
  • Hitelesség: Megbízható forrásból származik az adat?
  • Feldolgozhatóság: Olvasható gép által az adat?
  • Relevancia: Megfelelő mennyiségű adatot tartalmaz az adat?
  • Időszerűség: Az aktuális helyzetet írja le az adat és elég hamar tesszük közzé?

Az adatminőséget javító intézkedések a teljes (nyílt) adat életciklus során jelen kell legyenek, máskülönben a minőségi intézkedések csak további tehernek tűnnek, extra munkát és pénzt igényelve. Emellett megjegyzendő, hogy a Nyílt Adat Életciklus (Open Data Life Cycle) egy ciklus - amely értelmében az adatminőség javítását célzó eszközök bevezetése inkább folyamat, mint egyszeri intézkedés.

Miért ez a jó gyakorlat?

Az adatminőség hiánya csökkenteni fogja az adatfelhasználók bizalmát és megakadályozza a nyílt adat piac kiterjedését. Az adatminőségbe történő beruházás azonban kifizetődik, szervezeten belül az ügyvitel számára, mivel az interoperábilis adatszolgáltatások lehetősége növekszik, akárcsak szervezeten kívül, mivel az adathasználók számára egyre könnyebbé válik a különböző forrásokból származó adatkészletek összeillesztése egy hozzáadott értékkel bíró szolgáltatás létrehozásához.

Hogyan valósítsuk meg ezt a jó gyakorlatot?

E jó gyakorlat megvalósításához szükséges a probléma mind technikai, mind szervezeti oldalról való megközelítése.

Technikailag, az adatminőség kérdése felvetődhet a szabályokhoz, normákhoz vagy szabványokhoz kapcsolódva. Azonban a szabályok, normák és szabványok alkalmazása különböző szintű irányítást/vezetést igényel. Az irányítási struktúra létrehozása jellemzően az Informatikai Igazgató (CIO) vagy hasonló jogkörrel és feladatokkal bíró személy felelőssége.

  • Az Informatikai Igazgató felelős az általános és jóváhagyott szabályokat, normákat és szabványokat használó információ-technológiai (IKT)-rendszer strukturálásának és implementálásának irányításáért.
  • Az Informatikai Igazgató felel a szemantikailag egyező adatentitások azonosításáért, leírja mely szabványok alapján kell az adatentitásokat modellezni, valamint ellenőrzi az adott szabványoknak való megfelelést.

Az általános adatentitásokat, ahol lehetséges, az alap szókészletek alapján kell formálni.

A CSV állományok a W3C CSV on the Web Ajánlását használva annotálhatók, amely szintén magában foglal egy formális modellt a CSV állományok oszlopainak leírására.

Az adatleírásokat a DCAT-AP szókészlet alapján kell létrehozni.

Az adatközzététel során használhatjuk a W3C Adatminőség Szókészletét (Data Quality Vocabulary, DQV), ami egy keretet biztosít, melyben az adatkészlet minősége leírható a közzétevő vagy a szélesebb közönség által.

Az eszközök automatikusan ellenőrizhetnek bizonyos adatminőség domain-eket, mint az elvárt kódolás betartása (például utf8) vagy a CSV állományok szerkezeti szabályossága.

Az adatkészlet minőségének közzététel előtti értékelésére, például statisztikai adatok RDF formátumban való megjelentetésére, használhatjuk az RDF Adatkocka validátort (PDF).

Az adatok minőségértékelési és eredetkövetési információival való gazdagítására azok RDF integrálása során például a UnifiedViews eszközt használhatjuk.

Szervezeti szint

  • Az Informatikai Igazgató feladata az adatkezelési keretrendszer implementálása, amely adat-architektúra kezelésből, metaadat kezelésből és mesteradat kezelésből (MDM) áll.
  • Az adatnak, mint döntő fontosságú "tőkének" a szerepe hangsúlyozható az Adatkezelési Igazgató (Chief Data Officer, CDO) pozíció létrehozásával.
  • AZ ISO 8000 alapelveinek, mint szókészlet használat, szemantikus kódolás, eredet, pontosság és teljesség figyelembevétele.

A legelterjedtebb technikai szabványok, mint az utf8 minimálisan kötelező használata kieszközölhető jogi intézkedések vagy az állami informatikai szakhatóság rendelkezése révén.

A közzétételi eljárás értékelésekor vegyük figyelembe az ODI Tanúsítványban (ODI Certificates) vagy más hasonló dokumentumban leírt lépéseket.

Felhasznált irodalom

Hol valósult már meg ez a jó gyakorlat?

Ország Megvalósítás Kapcsolat
Ausztria Mission Statement of the Sub-working Group Quality Assurance of Open Data Portals of the Cooperation Open Government Data Austria Cooperation OGD Austria
UK Cross platform character encoding profile
UK ODI Certificate for the Westminster City Council Westminster City Council
Szerbia Validating RDF Data Cube Models Valentina Janev, Mihailo Pupin Institute, University of Belgrade, Belgrade, Serbia
Finnország Valmistele ja avaa - Prepare and open Section 3.6. Tiedon viimeistely ja laatu - Finishing the data and data quality Ministry of Finance, Finland

Referenciák

Nemzeti iránymutatások

Erre a jó gyakorlatra hivatkoznak, vagy ezzel megegyező tanácsot adnak a következő iránymutatások:

Kapcsolat

Eredeti szerzők: Johann Höchtl, Valentina Janev

Közreműködők: Muriel Foulonneau, Lorenzo Canova

Szerkesztők: Valentina Janev, Johann Höchtl

Feladatkezelő

Bármilyen, a fenti jó gyakorlathoz kapcsolódó észrevétel, mint például a megvalósítás, az ahhoz kapcsolódó tapasztalat, levont tanulságok, vagy iránymutatások melyek erre a jó gyakorlatra hivatkoznak, felvihetők és megvitathatók a projekt GitHub-on.

$Id: Overview.php,v 1.6 2016/08/19 09:13:56 phila Exp $