Store endringer i søkefunksjonaliteten

I denne versjonen av Digitalarkivets søkesider har vi gjort om en del på hvordan søkene fungerer.

Publisert: 2017-11-08

Viktigste endring er at du kan velge om du skal bruke variantsøket eller ikke. Videre har vi gjort endringer i algoritmen som bestemmer relevans. Til sist får du nå bedre tilbakemeldinger om treffene du får og litt søketips om du ikke skulle få treff, samt forbedret søk på kjønn i avansert personsøk.

Variantsøket

Variantsøket har vist seg å gi noen utfordringer i kombinasjon med trunkering. Spesielt for nye brukere som ikke er så godt kjent med søkene er variantsøket til stor hjelp, men for erfarne brukere kan det også være like mye til hinder som til hjelp. Vi vil jobbe med å utvide registeret over navnevarianter for å forbedre variantsøket. Men det er nå mulig å deaktivere variantsøket manuelt. I tillegg viser vi nå en melding om at kombinasjonen av variantsøk og trunkering kan gi mangelfulle treff. Vi har valgt å ikke skru av variantsøket hvis du bruker trunkering, for å gjøre det mulig å søke på navn med variantsøk og f.eks bosted og tidsperiode med trunkering.

Bedre treff

Da vi lanserte DA2017 i juni i år, tok vi i bruk den "andre" måten å gjøre søk på i de globale søkene, dvs. at vi gikk fra et OG-søk til et ELLER-søk. Hvis jeg søker på f.eks "Ole Theodor Larsen Oddernes" kan dette forklares med at jeg søker etter "Ole_eller_Theodor_eller_Larsen_eller_Oddernes". Det er årsaken til at antall treff ble større etterhvert som du skrev inn flere ord.

Ny formel for utregning av relevans

Tidligere ga søk på Roald Amundsen andre personer enn Roald Amundsen
Figur 1: Tidligere ga søk på Roald Amundsen andre personer enn Roald Amundsen

Fordi vi bruker variantsøket, kan vi ikke bruke OG-søk i søkeboksen på forsiden for å vise treffene etterhvert som du skriver. Et ELLER-søk med riktig sortert treffliste skal uansett vise de samme resultetene som et OG-søk øverst i trefflista. Det var ihvertfall teorien. I løpet av dette utviklingsarbeidet har vi kommet til bunns i hvorfor trefflistene ikke gir det man burde forvente. Dette mener vi nå at vi har løst.

Nå gir søk på Roald Amundsen treff på  Roald Amundsen først
Figur 2: Nå gir søk på Roald Amundsen treff på Roald Amundsen først

Figur 1 viser søk på Roald Amundsen før denne utgaven av Digitalarkviets søkesider. I utregningen av relevans som er "standard" utregning i søkemotoren har det stor betydning hvor mange ganger et ord gjentas. Det gjør at "Knut H. Roald", som er født i Roald, og bor på bruket Roald på gården Roald i folketellingen for Roald herred, får en ekstremt høy relevans. Det at Roald Amundsen treffer på flere av ordene blir da underordnet fordi denne Knut H. Roald trumfer Amundsen i antall Roalder. Det vi har gjort er å endre formelen slik at antall unike forekomster av et ord har størst betydning. Hvis du gjøre et OG-søk, vil du kun få treff på alle som har både Roald og Amundesen. Med denne nye formelen for utregning av relevans kan vi dermed være sikre på at de øverste treffene i ELLER-søket er de samme som et OG-søk ville gitt.

Bedre tilbakemelding om antall treff

Når du søker i et fritekstsøk kjører vi nå både et ELLER-søk og et OG-søk mot søkemotoren. Det gjør at vi kan gi bedre tilbakemelding om antall treff, samtidig som vi også fortsatt viser treff som kan være relevante i tillegg. Trefflista baserer seg derfor på resultatet av ELLER-søket, med sortering på relevans med den nye utregningsmetoden. En slik tilbakemelding vises i Figur 2.

Figur 3: Treffliste på forsiden med to eksakte treff får hvit bakgrunn
Figur 3: Treffliste på forsiden med to eksakte treff får hvit bakgrunn

I trefflisten for søkeboksen for forsiden markerer vi de eksakte treffene med hvit bakgrunn, mens de som inneholder noen av ordene får en grå bakgrunn, som vist i Figur 3.

Bedre treff på kjønn

For avansert personsøk har vi nå forbedret søkemuighetene for kjønn. Du kan nå velge mellom "mann", "kvinne" og "ukjent". I Digitalarkivets materiale er ikke "Kjønn" bestandig entydig. Derfor er det mange spesialtegn og det vi kaller "annet grums". Tidligere fikk du kun treff på kvinner som entydig var transkribert med en "k", og menn med "m". Men f.eks "%m%" og "m!!" ble ikke søkbar. Disse betyr jo faktisk det motsatte, hvor det i kilden står "m" men det utifra annen informasjon, f.eks navn og rolle, må kunne sies å være feil. Der legger vi nå inn en "k" i søkeindeksen. Etterhvert vil vi se på muligheten for å gjøre tilsvarende for de kildespesifikke søkene.

Her er fullstendig liste. Dette er med forbehold om at det kan hende noen forkortelser kan ha flere betydninger. Vi har naturligvis kun testet dette med stikkprøver. Men det er nå 1 million flere personposter som er søkbare med bedre angivelse av kjønn.

Mann: 'm' - mann 'g' - gutt 'han' - han 'hf' - husfar 'mk' - mannkjønn 's' - sønn 'k!!' - ikke kvinne '%k%' - ikke kvinne

Kvinne: 'k' - kvinne 'j' - jente 'hun' - hun 'hu' - hustru, husfrue 'kv' - Kvinne 'km' - muligens "kvinnemenneske"? Undersøkelser viser at det er kvinnenavn på personpostene. 'd' - datter 'm!!' - ikke mann '%m%' - ikke mann

Alt annet blir "ukjent".

Endringer

Her er fullstendig oversikt over endringene.

Søk og trefflister

  • Kan ikke kombinere alle fylker med alle kommuner i et fylke
  • Geografisk utvalg i søkeskjema hentes ut på en mer effektiv måte
  • Forbedret søk på kjønn i avansert personsøk
  • Kjønn kommer ikke med hvis man tar kopier og lim fra persontrefflister
  • Som bruker som får 0 treff i finn kilde må jeg ha tips til hvordan jeg kan forbedre søket
  • Som bruker som får 0 treff i avansert personsøk må jeg ha tips til hvordan jeg kan forbedre søket
  • Som bruker som får 0 treff i generiske søkeskjema må jeg ha tips til hvordan jeg kan forbedre søket
  • Som bruker som får 0 treff i enkelt personsøk må jeg ha tips til hvordan jeg kan forbedre søket
  • Som bruker som får 0 treff i søk i folketellingene må jeg ha tips til hvordan jeg kan forbedre søket
  • Som bruker som får 0 treff i bostedsøk må jeg ha tips til hvordan jeg kan forbedre søket
  • Finn kilde: Endre emneknaggsøket fra ELLER-søk til OG-søk
  • Finn kilde: Gjøre det mulig å søke etter arkivreferanse
  • Ny tekst for antall treff basert på kombinasjon av OG og ELLER-søk
  • Skru av eller på variantsøk
  • Vis advarsel ved bruk av trunkeringstegn når variantsøk er på

Annet

  • Rettet en feil som gjøre at hendelsensdatoen blir feil i søk og visninger når datofeltet også inneholder årstall
  • Som engelsk bruker ønsker jeg å kunne se by, kjøpstad, landsokn osv. på engelsk
  • Vi kan nå publisere nyhetsartikler i fremtiden
  • På nyheter bør det vel vises publiseringsdato på kategorisiden