Bruker:Jeblad/Fuzzymatching av titler
Fra Wikipedia, den frie encyklopedi
Fuzzymatching av titler eller hvordan måle avstanden mellom en kort tekst og tittelen på en artikkel, ofte med formål å finne en artikkel å lenke til fra denne teksten. Testingen kan skje ved bruk av trigrammer, som er en sekvenser bestående av tre bokstaver. Trigrammer fra «fuzzy» er således fuz, uzz og zzy. Formålet med å bruke slike for testing av titler å frigjøre seg fra å måtte treffe nøyaktig på oppslagsord. Oppslagsordet «fuzzy» vil da også gi treff hvis en tester med «fuzzysøk» og «fuzzymodell». Desto lengre en er fra oppslagsordet desto lavere måltall eller ranking.
Anta følgende avstandsmål mellom et trigram n fra ordet Ti, hvor pn,j er den lagrede posisjonen og pn,i er den faktiske posisjonen
Måltallet ΔTi,j angir da avstanden mellom ordene Ti og Tj hvor det første ordet er fra testsettet og det siste er fra et lagret treningssett.
Det brukes en WTA (Winner Takes All) innenfor et span på 5-6 ord, dvs en LWTA (Local Winner Takes All), og så konvolveres vinduet over samhørende tekstfragmenter. Teksten som brukes for testsettet kan da være forsider fra nettaviser, lister over siste hundre artikler som er publisert av nettaviser, brødtekst fra artikler og lignende. Tekst fra artikler vil gjerne ha tilleggsføringer, for eksempel at artikler det lenkes til skal være kategorisert innen bestemte kategorier.