Célok
A statisztikai adatok kapcsolt adatokként történő közzététele a W3C RDF Adatkocka szókészlet alapján, mely meghatározza az adatok megjelenítésének szabványos, gép által olvasható módját, emellett felsorol egy ajánlott metaadat kifejezés-készletet az adathalmazok leírására.
Hivatkozások a felülvizsgált PSI direktívára
Kihívás
A statisztikai adatokat jelenleg számos formátumban és szabvány szerint publikálják, melyek nem teszik lehetővé ezen adatok adathalmazokon átívelő összekapcsolását. Emellett pedig, számos politikai előrejelzés, tervezés és igazodás alapjául szolgálnak, így jelentős hatással vannak a társadalomra (az állampolgároktól kezdve az üzleti szférán át a kormányzatig). A szocio-gazdasági indikátorok gyűjtésének és figyelemmel kísérésének folyamata jelentősen javulna, ha a kormányzati szervek, mint a Statisztikai Hivatal, Nemzeti Bank, Foglalkoztatásügyi szolgálatok, stb., által előállított adatok kapcsolt adat formátumban lennének közzétéve.
Megoldás
A Kapcsolt Adat paradigma új lehetőségeket és perspektívát nyitott a kormányzati szervek előtt, hogy nyílttá tegyék az adatokat és információt cseréljenek. Egy adat akkor nyílt, ha technikailag nyílt (gép által olvasható formátumban elérhető, vagyis visszakereshető és értelmesen feldolgozható egy számítógépes alkalmazás által), valamint jogilag nyílt (egyértelműen engedélyezett kereskedelmi és nem-kereskedelmi célú felhasználása és újrafelhasználása, korlátozások nélkül), lásd például a Világbank Nyílt Adat Fő Szempontok (World Bank Open Data Essentials) dokumentumot.
A kapcsolt adat megközelítés lehetővé teszi az adathalmazok közös fogalmak mentén történő összekapcsolását. Az adathalmaz gráf formában reprezentált, RDF-et használva, mint általános leíró nyelvet. A kapcsolt adat közzétételi eljárás egy teljes tevékenységi körre vonatkozik, amely felöleli a weben különböző forrásokból (pl. adatbázisokból) származó RDF adathalmazok vonatkozásában az adatkinyerést, átalakítást, validálást, kereshetővé tételt és közzétételt. A felhasználásra kész RDF adathalmazokat tárolhatjuk helyileg vagy regisztrálhatjuk egy metaadat-katalógusban, amely épülhet például a CKAN nyílt forráskódú eszközzel.
2014-ben a W3C Kormányzati Kapcsolt Adatok Munkacsoportja (Government Linked Data Working Group) megjelentette az RDF Adatkocka Szókészlet (RDF Data Cube Vocabulary) W3C Ajánlást a többdimenziós adatok weben való közzétételéről.
Miért ez a jó gyakorlat?
Ez a megközelítés hozzájárul a többdimenziós adatok webes közzététele és újrafelhasználása gyakorlatának szabványosításához. A megközelítés az RDF Adatkocka Szókészleten alapszik, amely elég fejlett ahhoz, hogy a statisztikai adatok közzétételéhez használják, mivel javítja az interoperabilitást és lehetővé teszi a különböző statisztikai forrásokból származó adatok összehasonlítását. A szókészlet az SDMX-et (Statistical Data and Metadata eXchange), egy ISO szabványt használ a statisztikai adatok és metaadatok szervezetek közötti cseréjére és megosztására, valamint egy adatok feletti réteget biztosít a szakterület szemantika, adathalmaz metaadatok és más fontos információk leírására, melyek a statisztikai adatok cseréje során szükségesek.
Költségvonatkozások: a közzététel költségeit minimalizálni kell, hacsak nincsenek egyértelmű üzleti előnyök. Az állami szervezeteknek elemezniük kell az adatelérhetőség aktuális helyzetét, az adatok iránti igényt és ezáltal elkerülni az adatok kapcsolt adat formátumba történő átalakításának felesleges költségeit. Az állami szervezeteknek az információt az alábbi módok egyikén kell biztosítaniuk:
- A lehető legalacsonyabb költségek mellett közzétenni az adatokat, hatékonyan és nyíltan elérhetővé téve azokat, vagy
- Költség-haszon elemzést végezni a lehetséges felhasználást, megosztást, közzétételi módokat és közzétételi formátumokat megbecsülve, majd az elemzés alapján kiválasztani a tennivalókat, a közzétételi módokat és formátumokat.
Annak eldöntése, hogy milyen közzétételi forma közvetíti leginkább a közadat (kereskedelmi vagy egyéb) értékét, valamint az ebbe a formátumba történő átalakítás munkája maradhat a kereskedelmi termékek és szolgáltatások forgalmazóira, valamint más felhasználókra. Ha a költségvonatkozások miatt nem lehetséges a statisztikai adatokat a kívánt formátumban közzétenni, akkor fontos annak biztosítása, hogy harmadik fél a rendelkezésre álló formátumból az RDF Adatkocka Szókészlethez alakíthassa át az információt. Az RDF Adatkocka Szókészlet által használt többdimenziós adatmodell (n-dimenziós adatkockákkal mint a megfigyeléssel, dimenzióval és mértékekkel ellátott adathalmazok) kellően általános ahhoz, hogy ne jelentsen korlátokat a közzétevők számára.
A statisztikai adatok más általános adatformátumba történő lehetséges átalakítására láttunk példát az alábbi formátumok esetében: SDMX, XBRL, és a Dataset Publishing Language. Ha megfelelő metaadat biztosított, az átalakítási szkriptekkel megoldható CSV-ből vagy táblázatos (pl. Microsoft Excel) adatokból is.
Hogyan implementáljuk ezt a jó gyakorlatot?
Ez a jó gyakorlat az automatikus adatkinyerés és a közzétételi folyamat eszközkészletén alapszik. Az EU kutatási közössége számos nyílt forráskódú eszközt fejlesztett a statisztikai adatok kapcsolt adat formátumban való közzétételére, lásd például a LOD2 Statistical Workbenchet, vagy az OpenCube eszközkészletet.
Hol implementálták már ezt a jó gyakorlatot?
Ország | Megvalósítás | Kapcsolat |
---|---|---|
Olaszország | LOD ISTAT (residency population) | Istat |
Olaszország | LinkedStat (a project between ISTAT and SpazioDati) | SpazioDati and Istat |
UK | Scottish Government Statistics | Scottish Government |
Finnország | Semangtic hri.fi | Page includes contact information |
Csehország | Publikace dat statistických ročenek ve standardu otevřených dat | Jan Kučera |
Referenciák
- Samos Workshop presentation: A Methodology for Publishing Linked Open Statistical Data (PDF), George Papastefanatos IMIS / RC Athena, Greece
- Samos Workshop presentation: Publishing and Consuming Linked Open Data with the LOD Statistical Workbench, Valentina Janev, Institut Mihajlo Pupin
- Publishing Official Classifications in Linked Open Data, Agenzia per l’Italia Digitale (Giorgia Lodi, Antonio Maccioni), Istituto Nazionale di Statistica (Monica Scannapieco, Mauro Scanu, Laura Tosco). SemStats 2014.
Nemzeti iránymutatások
Erre a jó gyakorlatra hivatkoznak, vagy ezzel megegyező tanácsot adnak a következő iránymutatások:
- (Belgium) Open Data Handleiding Open Data Handbook
- (Estonia) Avaandmete loomise ja avaldamise juhend Open Data Guidelines
- (Finland) Helsinki Region Infoshare
- (International) Using Open Public Sector Information
- (International) Open Data Handbook, Solutions Bank
- (Italy) Linee Guida Nazionali per la Valorizzazione del Patrimonio Informativo Pubblico National Development Guidelines for Public Sector Information
- (Lithuania) Viešojo Sektoriaus Informacijos platinimo gerosios praktikos Best Practices for Sharing Public Sector Information
- (Luxembourg) Recommandations pour l'ouverture des données publiques Recommendations for opening data
- (Serbia) Open Data Handbook
- (Spain) Guía de aplicación de la Norma Técnica de Interoperabilidad de reutilización de recursos de información Application Guide for Technical Interoperability Standard on PSI re-use
- (UK) Open Data Resource Pack
Kapcsolat
Eredeti szerző és szerkesztő: Valentina Janev, Institute Mihajlo Pupin; közreműködő: Benedikt Kämpgen, FZI Research Center for Information Technology
Feladatkezelő
Bármilyen, a fenti jó gyakorlathoz kapcsolódó észrevétel, mint például a megvalósítás, az ahhoz kapcsolódó tapasztalat, levont tanulságok, vagy iránymutatások melyek erre a jó gyakorlatra hivatkoznak, felvihetők és megvitathatók a projekt GitHub-on.