Nodabase.net

Innsyn.no – the Oslo records

Description

What we do, is a systematic harvesting of public records, that is, metadata describing the flow of letters, reports and other documents to and from various public offices.

In 2016 we changed most of the technology and our user-interface because we wanted to provide a combined search for all the archives in Oslo municipality, the capitol of Norway.

We have now more than 7,5 million document-references in our database. We keep track of which of the 98 archives in our application that “owns” the document in question. Add-to-basket is enabled, and when the basket is full, the user can send a FIOA-request with one click.

The result is an application that makes it easier to work with written sources in investigative journalism. But it is open also to other groups to use, free of charge.

The Oslo records alone combines 45 different archives and more than 4 million of our document references.

Origin

This must be done in two parts, the idea behind Innsyn.no itself, and the idea with the Oslo records as a separate.

We struggled with the municipality in our hometown, Kristiansand, who used to provide searchble electronic records, which we in the press used on an everyday basis. But Kristiansand removed its database from the web, and replaced the tool with image-PDF-files which had to be read manually. Our newspaper had lost its most poweful tool for local investigative journalism, and decided to do something about it.

The first version of our tool contained Kristiansand. Later, we added the police districts, the universities, the armed forces and the church.

Then our newspaper had a dialogue with Oslo Redaktørforening, the editors of the mediahouses in Oslo. They asked if we could solve the problem with access to the public documents in the capitol. The problem was, that Oslo had no common archive plan, and more than 45 autonomous archives. They paid, and we solved the problem.

Data

With all our data, it is the public archives themselves who are the sources in our Oslo-project.
Historic data 6 years back was aquired with FOIA-requests by email.
Data 3 months back and weekly updates from launch, we use webscraping to collect.

For other sources, like the police and armed forces, we subscribe to these records by email, and use an Outlook macro to grab the attachments and send the data to the same Dropbox App folder where we place the scraped files from Oslo.

While doing this, all file names are updated to reflect the source of the document, we add a lettercode to the filename. From Dropbox, the files are uploaded to DocumentCloud for OCR treatment. Then, on a daily basis, we run a script that imports data from DocumentCloud to our Postgres-base where data is structured with a parser assigned to each archive source. At this point, the journal entries are searchable with the full-text search capabilities in Postgres and searches can be made across all sources.

Resources

Four people where involved in the project with the Oslo records. Tarjei Leer-Salvesen was in charge, and gathered the historic data from may to August 2016. Kenneth Lykkås did most of the technical work, assisted by Atle Brandt. frode Nordby designed the new user interface.

Oslo Redaktørforening paid NOK 50.000 the efforts. We invested approximately equally in the project ourselves, to implement the technological improvements we developed for the Oslo records to the rest of our application.

Impact

Innsyn.no has made Oslo municipality more transparent. The mayor of Oslo thanked us for the project: http://journalisten.no/2016/10/oslos-ordf%C3%B8rer-trenger-at-flere-ser-politikerne-i-korta

More importantly, our journalist colleagues in Oslo have gotten the tool they need to do a better job with written sources. After a few months, I hear some of my colleagues there have filed a great number of FOIA-requests through the app. I know it is now being used by a lot of users also outside the journalism-profession.

Obstacles

Some archives did not want to share data at all. We had to use the law as a tool, and file complaints in order to get the data we wanted to work with.

Having collected data from 45 different Oslo-sources, using six different types of archive software, we were faced with the problem that although all records in theory contain the same types of data, all archives need their own parser for text-extraction. The records are PDF documents that are converted to text using Tesseract OCR through DocumentCloud. The text representation vary a lot between the sources. Additionally, there are many edge cases within documents from the same source on text placement. To remedy this, we have utilized several patterns for text extraction, including parsing documents top-down, by pages and by journal entries. Our aim is to structure the data with the best possible quality, although some documents (like when a PDF document is a scan of a printout), might not be handled 100% correctly as of yet.

Go to case website
Built on WordPress by Smart Media AS

Personvernerklæring

Personvernerklæringen handler om hvordan denne nettsiden samler inn og bruker informasjon om besøkende. Erklæringen inneholder informasjon du har krav på når det samles inn opplysninger fra nettstedet vårt (personopplysningsloven § 19), og generell informasjon om hvordan vi behandler personopplysninger (personopplysningsloven § 18, 1.ledd). Juridisk eier av nettsiden er behandlingsansvarlig for virksomhetens behandling av personopplysninger. Det er frivillig for de som besøker nettsidene å oppgi personopplysninger i forbindelse med tjenester som å motta nyhetsbrev og benytte del- og tipstjenesten. Behandlingsgrunnlaget er samtykke fra den enkelte, med mindre annet er spesifisert.

1. Webanalyse og informasjonskapsler (cookies)

Som en viktig del av arbeidet med å lage et brukervennlig nettsted, ser vi på brukermønsteret til de som besøker nettstedet. For å analysere informasjonen, bruker vi analyseverktøyet Google Analytics. Google Analytics bruker informasjonskapsler/cookies (små tekstfiler som nettstedet lagrer på brukerens datamaskin), som registrerer brukernes IP-adresse, og som gir informasjon om den enkelte brukers bevegelser på nett. Eksempler på hva statistikken gir oss svar på er; hvor mange som besøker ulike sider, hvor lenge besøket varer, hvilke nettsteder brukerne kommer fra og hvilke nettlesere som benyttes. Ingen av informasjonskapslene gjør at vi kan knytte informasjon om din bruk av nettstedet til deg som enkeltperson. Informasjonen som samles inn av Google Analytics, lagres på Googles servere i USA. Mottatte opplysninger er underlagt Googles retningslinjer for personvern. En IP-adresse er definert som en personopplysning fordi den kan spores tilbake til en bestemt maskinvare og dermed til en enkeltperson. Vi bruker Google Analytics sin sporingskode som anonymiserer IP-adressen før informasjonen lagres og bearbeides av Google. Dermed kan ikke den lagrede IP-adressen brukes til å identifisere den enkelte brukeren.

2. Søk

Hvis nettsiden har søkefunksjon så lagrer informasjon om hvilke søkeord brukerne benytter i Google Analytics. Formålet med lagringen er å gjøre informasjonstilbudet vårt bedre. Bruksmønsteret for søk lagres i aggregert form. Det er bare søkeordet som lagres, og de kan ikke kobles til andre opplysninger om brukerne, slik som til IP-adressene.

3. Del/tips-tjenesten

Funksjonen "Del med andre" kan brukes til å videresende lenker til nettstedet på e-post, eller til å dele innholdet på sosiale nettsamfunn. Opplysninger om tips logges ikke hos oss, men brukes kun der og da til å legge inn tipset hos nettsamfunnet. Vi kan imidlertid ikke garantere at nettsamfunnet ikke logger disse opplysningene. Alle slike tjenester bør derfor brukes med vett. Dersom du benytter e-postfunksjonen, bruker vi bare de oppgitte e-postadressene til å sende meldingen videre uten noen form for lagring.

4. Nyhetsbrev

Nettsiden kan sende ut nyhetsbrev via epost hvis du har registrert deg for å motta dette. For at vi skal kunne sende e-post må du registrere en e-postadresse. Mailchimp er databehandler for nyhetsbrevet. E-postadressen lagres i en egen database, deles ikke med andre og slettes når du sier opp abonnementet. E-postadressen slettes også om vi får tilbakemelding om at den ikke er aktiv.

5. Påmelding, skjema

Nettsiden kan ha skjema for påmelding, kontaktskjema eller andre skjema. Disse skjemaene er tilgjengeliggjort for publikum for å utføre de oppgaver de er ment å gjøre. Påmeldingsskjema er for at besøkende kan melde seg på eller registrere seg. Kontaktskjema er for at besøkende enkelt kan sende en melding til nettsidens kontaktperson. Vi ber da om navnet på innsender og kontaktinformasjon til denne. Personopplysninger vi mottar blir ikke benyttet til andre formål enn å svare på henvendelsen. Skjema sendes som epost via Mailgun som tredjepartsløsning. Hele innsendelen blir lagret hos Mailgun i 24 timer. Mellom 24 timer og 30 dager er det kun mailheader som blir oppbevart før innsendelsen blir slettet etter 30 dager. Årsaken til denne lagringen er for å bekrefte om eposter blir sendt fra nettsiden og videresendt til riktig mottaker. Når eposten er mottatt av mottaker så er det opp til mottaker å avgjøre Databehandlingsbehovet av eposten.

6. Side- og tjenestefunksjonalitet

Det blir brukt informasjonskapsler i drift og presentasjon av data fra nettsteder. Slike informasjonskapsler kan inneholde informasjon om språkkode for språk valgt av brukeren. Det kan være informasjonskapsler med informasjon som støtter om lastbalanseringen av systemet slik at alle brukere blir sikret en best mulig opplevelse. Ved tjenester som krever innlogging eller søk kan det bli brukt informasjonskapsler som sikrer at tjenesten presenterer data til rett mottaker.

7. Hvordan håndtere informasjonskapsler i din nettleser

www.nettvett.no kan du lese om hvordan du stiller inn nettleseren for å godta/avvise informasjonskapsler, og få tips til sikrere bruk av internett.