Colorful abstract 3D rendering of neural networks with vibrant blue and yellow gradients.

Google esitteli uuden “MUVERA” -algoritmin: Luvassa älykkäämpää tiedonhakua?

Google esitteli kesäkuussa 2025 tutkimuksen uudesta algoritmista nimeltä MUVERA, joka voi tulevaisuudessa tehdä hakukoneista huomattavasti älykkäämpiä ja nopeampia. Vaikka teknologia ei ole vielä käytössä missään hakukoneessa, se edustaa merkittävää edistysaskelta tiedonhaun alalla.

Mikä on MUVERA ja miksi se on tärkeä?

MUVERA on lyhenne sanoista “multi-vector retrieval algorithm” eli monivektori-hakualgoritmi. Kuulostaa monimutkaiselta, mutta asia on yksinkertaisempi kuin luulisi.

Mikä on MUVERA ja miksi se kiinnostaa?

MUVERA on lyhenne sanoista “Multi-Vector Retrieval Algorithm” eli monivektori-hakualgoritmi. Nimi kuulostaa monimutkaiselta, mutta algoritmin ideana on ratkaista yksinkertainen ongelma: miten tehdä tarkasta tiedonhausta nopeampaa?

Kuvittele tilanne, jossa sinulla on maailman paras kirjastonhoitaja, joka löytää aina juuri oikean kirjan, mutta hän on työssään niin perusteellinen, että vastauksen saaminen kestää ikuisuuden. MUVERA pyrkii taklaamaan tämän ongelman.

Monivektorimallit hakevat tietoa tarkasti, mutta hitaasti

Viime vuosina on kehitetty “monivektorimalleja” kuten ColBERTin, jotka ymmärtävät tekstin merkityksiä paljon tarkemmin kuin vanhat järjestelmät. Sen sijaan, että ne kuvaavat koko dokumentin yhdellä numerosarjalla, ne luovat useita eri “kuvauksia” saman tekstin eri osista.

Esimerkiksi jos etsit “Mika Waltarin historiallisia romaaneja”, monivektorimalli ymmärtää erikseen:

  • “Mika Waltari” (kirjailija)
  • “historialliset” (aikakauteen liittyvät)
  • “romaanit” (kirjallisuuden laji)

Tämä tekee hausta paljon tarkemman, koska järjestelmä voi yhdistää eri osia hakusi dokumentin eri osiin. Ongelma vain on, että tällainen haku on todella hidas.

MUVERA:n ratkaisu: Fixed Dimensional Encoding

Googlen tutkijat kehittivät tekniikan nimeltä “Fixed Dimensional Encoding” (FDE), joka on hieman kuin taitava tiivistäjä. Se ottaa monivektorimallin tarkan mutta hitaan kuvauksen ja puristaa sen yhdeksi, nopeasti käsiteltäväksi numerosarjaksi – menettämättä kuitenkaan oleellista tietoa.

Prosessi toimii kolmivaiheisesti:

FDE-muunnos (FDE generation): Sekä hakukysely että dokumentit muunnetaan näiksi erityisiksi “tiivistetyiksi” kuvauksiksi

MIPS-pohjainen haku (MIPS-based retrieval): Järjestelmä etsii nopeasti parhaat ehdokkaat käyttäen tehokkaita maksimi sisätulo -algoritmeja

Uudelleenjärjestely (Re-ranking): Lopuksi parhaat ehdokkaat tarkistetaan vielä alkuperäisellä, tarkalla Chamfer-samankaltaisuusmenetelmällä

Miten MUVERA voi kehittää hakukoneita?

Vaikka MUVERA on vielä tutkimusvaiheessa, se avaa kiinnostavia mahdollisuuksia hakukoneille, kuten:

Ymmärtää merkityksiä: Löytää dokumentteja, jotka käsittelevät samaa aihetta eri sanoin

Monimutkaisia kysymyksiä: “Etsi tutkimuksia, jotka käsittelevät ilmastonmuutoksen vaikutuksia pohjoisiin metsiin viimeisen kymmenen vuoden ajalta”

Kontekstuaalisia yhteyksiä: Ymmärtää että “omena” tarkoittaa eri asioita keskustelussa mm. teknologiabrändeistä vs. ruoanlaitosta

On mielenkiintoista nähdä, miten nämä ideat lopulta löytävät tiensä oikeisiin hakukoneisiin ja muihin sovelluksiin.

Samankaltaiset artikkelit