Danmarks Forskningsportal
Om Data & Dokumentation

Data i den Lokale Database kommer fra en række danske forskningsinstitutioners lokale systemer og portaler, som benyttes til registrering af deres egne publikationsoutput- og aktiviteter (også kendt som CRIS systemer). I databasen kaldes disse lokale dataleverandører for ‘Danish Data Providers’ og under filteret af samme navn kan man vælge at afgrænse til kun at se publikationer registreret af den enkelte institution.

 

 

Udover de nuværende dataleverandører er vi i dialog med flere danske institutioner om at blive inkluderet i portalen på sigt.

 

Nuværende Lokale Dataleverandører (Danish Data Providers) til Danmarks Forskningsportal

Aalborg Universitets Forskningsportal (VBN)

Aarhus Universitets Forskningsportal

CBS Forskningsportal

DTU’s forskningsdatabase (DTU Orbit)

IT-Universitetets Forskningsportal

Københavns Universitets Forskningsportal

Roskilde Universitets Forskningsportal

Syddansk Universitets Forskerportal

UC Viden – Professionshøjskolernes Videndatabase

Portalen for forskning og kunstnerisk udviklingsvirksomhed i arkitektur, design og konservering

VIVE – Det Nationale Forsknings- og Analysecenter for Velfærd

Kulturministeriets Pure-Konsortium for arkiver, biblioteker og museer

DIIS’ Publikationer

Mulige Lokale Dataleverandører (Danish Data Providers) til Danmarks Forskningsportal

Forsvarets Forskningsdatabase

De Nationale Geologiske Undersøgelser for Danmark og Grønland (GEUS) – Publikationer

Det Nationale Forskningscenter for Arbejdsmiljøs (NFA) – Forskningsportal

Region Hovedstadens Forskningsportal

Region Sjællands Forskningsportal

Data høstes fra de danske forskningsinstitutioners individuelle lokale systemer via en webservice (OAI-PMH) vha. det nationale udvekslingsformat DDF-MXD (Danish Research Database Metadata Exchange Format), som benyttes til at udveksle metadata for publikationer. 

 

Data høstes omkring datoen d. 20 hver måned. I den Lokale Database er der tale om en fuld høst. Dvs. ændringer, der foretages hos den enkelte forskningsinstitution lokalt afspejles i den Lokale Database efter næste opdatering. Efter datahøst bearbejdes og beriges data, og nye data er derfor tilgængelige i den Lokale Database omtrent begyndelsen af hver måned.

I filteret Added on kan man se og afgrænse til hvilket år/måned de enkelte publikationsposter er tilføjet databasen. Dette kan være særligt nyttigt hvis man fx kun vil se helt ny-tilføjede publikationer.  

 

DDF-MXD (Danish Research Database Metadata Exchange Format) er et dansk nationalt udviklet format, som benyttes til at udveksle metadata om publikationer. I Danmarks Forskningsportal bliver formatet brugt til at indhente information om publikationsdata registreret i de danske forskningsinstitutioners lokale systemer og portaler på en systematisk måde. Formatet bruges i portalens Lokale Database, samt Den Danske Open Access Indikator.

 

Formatet gør det muligt at høste data fra forskellige systemer og konvertere data direkte til portalen frem for at høste forskelligartet data for så efterfølgende at skulle behandle data i portalen, før det kan vises. 

 

Da der er tale om et nationalt format, kan DDF-MXD løbende ændres og udvides med nye relevante felter for at holde sig tidssvarende. Forslag til ændringer og udvidelser af formatet varetages og behandles af NORA og godkendes af Arbejdsgruppen for Data fra Danske Forskningsinstitutioner. Ændrings- og/eller udvidelsesforslag kan sendes til nora.info@dtu.dk.

Fra de lokale dataleverandører høstes en række udvalgte publikationstyper og kategorier:

  • Journal Article
  • Journal Comment
  • Journal Review 
  • Newspaper Article
  • Book
  • Book Chapter
  • Book Preface / Encyclopedia article
  • Report
  • Report Chapter
  • Conference Paper
  • Conference Abstract
  • Conference Poster
  • Working Paper / Preprint
  • Lecture Notes
  • Thesis Doctoral
  • Thesis PhD
  • Other

 

Da den Lokale Database også indeholder publikationstyper som fx konferenceposters og populærvidenskabelige publikationer, som typisk ikke indekseres hos de globale kommercielle dataleverandører er datagrundlaget set ud fra publikationstype bredere end hvad der inkluderes fra de globale dataleverandører i den Globale Database, som udelukkende fokuserer på de mere traditionelle videnskabelige publikationer. 

 

Forskningsinstitutionerne kan i princippet selv bestemme, hvilke data de vælger at udstille via deres webservice til Forskningsportalen. Nogle lokale dataleverandører har fx valgt kun at udstille publikationer, som har status af at være endeligt publicerede, mens andre fx har valgt at publikationsposterne skal være validerede for at kunne høstes. Dvs. fra nogle forskningsinstitutioner får vi alle de publikationsdata de selv udstiller, mens vi fra andre kun kan høste en delmængde af de samlede registrerede publikationsposter.

 

Af de udvalgte publikationstyper og kategorier indhentes metadata fra 2011 og frem fra de enkelte lokale dataleverandører.

NORA-Enhancements er en generel betegnelse for standardiserede navne, der bruges på tværs af alle Forskningsportalens databaser. Standardiseringen foretages for at sikre ensartet og struktureret data, som dels gør det nemmere at søge og dels danner udgangspunkt for grupperinger af særlig analytisk interesse. Metadataelementer indsamlet fra forskellige dataleverandører indeholder ofte flere og forskellige navnevarianter, der beskriver den samme værdi.

 

I den Lokale Database standardiseres (mappes eller grupperes) følgende metadataelementer:

 

Danske affiliationer og grupperinger

Alle danske affiliationsnavne mappes til hhv. ét standardiseret navn og én gruppering. ‘University of Copenhagen’ og ‘Copenhagen University’ mappes f.eks. begge til det standardiserede affiliationsnavn: ’KU University of Copenhagen og grupperingen Universities’ (find disse i filteret Danish Affiliations). 

 

Samarbejdslande/regioner
De øvrige lande som danske forfattere sampublicerer med (samarbejdslande) grupperes i regioner af analytisk interesse. Norge’ grupperes fx i regionerne ‘Europe’, ‘Non-EU’, ‘Nordic’ og ‘OECD’ (find disse i filteret Collaboration – Regions).

 

Emneklassifikationer og Open Access kategorier

Modsat den Globale Database beriges/mappes hverken emneklassifikationer eller Open Access status, da denne standardisering til dels allerede foregår via DDF-MXD-formatet. Dog foretages mindre standardiseringer i flere af den Lokale Database’s filtre, som fx Keywords og Kildefiltre. 

 

Læs mere om NORA-Enhancements i den tekniske dokumentation.

Da der høstes data fra flere danske forskningsinstitutioner, vil der i det fulde datasæt findes en række publikationsdubletter. Dette skyldes, at flere universiteter eller øvrige forskningsinstitutioner sampublicerer, og dermed registrerer flere danske forskningsinstitutioner den samme publikationen i hvert deres lokale system/portal. 

 

For at sikre os at publikationer, der findes hos to eller flere dataleverandører, bliver identificeret og matchet korrekt, har vi udviklet en dedupliceringsalgoritme, som konsoliderer data fra de lokale dataleverandører. Algoritmen bygger på en række fintunede regler som bestemmer, hvorvidt der er tale om en og samme publikation. Disse regler tager hensyn til forskellige forhold, hvor særligt metadata i form af PID’er (Persistente Identifikatorer såsom DOI, PMID, ISSN etc.) spiller en central rolle. 

 

Hvis én post består af data fra flere ‘Danish Data Providers’ indikeres det med symboletbåde i resultatlisten og på publikationsposten. Til udformningen af selve postvisningen flettes metadata fra de enkelte publikationsposter. Til dette formål er der udarbejdet en række visningsregler, der angiver hvilke metadatafelter, der skal vises og benyttes i databasens filtre, samt fra hvilke publikationsposter og hvordan. 

 

Har du behov for at bruge de lokale data- og/eller databasen uden deduplicering (fx til analytiske formål), findes der en version af den Lokale database med dubletter (kaldet Local Data –  Raw Data)

 

Udover den interne matching og deduplicering i den Lokale Database, matches publikationer fra den Lokale Database også med publikationer, der findes i den Globale Database – find disse oplysninger på den enkelte publikationspost eller i filteret ‘Matching Records in’. Læs mere om den matchingalgoritme der er udarbejdet til det specifikke formål. 

På den fulde flettede publikationspost i den Lokale Database kan du ved at klikke på ‘Data Provider’, se hvilke lokale dataleverandører, der har bidraget til den pågældende post. I den pop-up box der kommer frem, findes både oplysninger om de enkelte poster der er matchet, links til  de lokale dataleverandørers postregistreringer i egne systemer/portaler, samt link til posten i DDF-MXD-formatet

 

 

Hver publikation har et lokalt objekt ID (også kaldet LOI), som er opbygget på en måde, så det er synligt hvor mange individuelle poster en publikation er dannet af (også hvis det kun er en enkelt individuel post) og hvor høj en matchprocent, der er mellem de sammenlagte poster:

Vi er i tæt dialog med de lokale dataleverandører og der sættes altid god tid af til test af de enkelte institutioners data, inden endelig inkludering af nye lokale data i databasen. 

 

Samarbejdet med de lokale systemer er desuden forankret i Arbejdsgruppen for Data fra Danske Forskningsinstitutioner, der repræsenterer de forskellige typer af forskningsinstitutioner og fungerer som sparringspartner med NORA.

Portalens Lokale Database har en række generelle problematikker eller udfordringer, som er værd at være opmærksom på:

 

  • Data høstes som det er defineret og registreret af den enkelte dataleverandør.
  • Dækningsgraden afhænger af de lokale dataleverandører, der høstes fra. Dvs. dækningen af de forskningsinstitutioner som er dataleverandører og deres samarbejdspartnere er dækket godt, mens øvrige som fx private virksomheder ikke er dækket i samme grad af denne database. 
  • Publikationsdata beror på lokalt registrerede publikationsdata fra flere forskellige forskningsinstitutioners egne systemer, der kan have specifikke opsætninger og lokale behov. 
  • Opdatering af de lokale data leverandørers systemer sker ikke nødvendigvis samtidig, så selv hvis flere dataleverandører benytter samme systemudbyder til deres lokale system/portal vil nyt indhold, udvidelser af MXD-formatet og rettelser først slå igennem når den enkelte forskningsinstitution har opdateret deres system til den version der indeholder disse rettelser. 
  • Udstilling af data og registreringspraksis kan være forskellig fra leverandør til leverandør og dermed kan data vi modtager fra de enkelte lokale dataleverandører også variere.

 

Under Driftsstatus kan du desuden finde en oversigt over nuværende opdateringsspecifikke problemer med fx data, lokale systemer og høst.