En una societat marcada per la superabundància
d'informació, aviat les principals diferències entre els ciutadans no
s'establiran per la possibilitat d'accedir a les xarxes de comunicacions o a la
informació, sinó que estaran marcades per la capacitat de poder trobar la
informació de qualitat adequada en el moment oportú.
La
finalitat última de l'arxiu és servir als seus usuaris la informació abocada en tots els documents i aquests mateixos; en les fases
històriques (arxius intermedis i històrics) per mantenir viva la memòria i la
identitat de la institució o de la societat, en les fases actives (arxius de
gestió i central) per la resolución d'un assumpte administratiu.
En l'última dècada la
recuperació de la informació ha experimentat més avenços i innovacions que en
els cinquanta anys anteriors, i la causa principal ha estat el web. El motiu és
que fins llavors, la recuperació de la informació, havia estat confinada en
entorns aïllats i controlats al mateix temps. Això significa que la RI tenia el
seu àmbit sempre entre les col·leccions de documents tancades (documents d'una
institució), i alhora homogènies (economia, medicina o informes jurídics).
Entre els anys seixanta i noranta,
poc abans de la plena irrupció del web, els avenços en la RI consistien
bàsicament en refinaments successius d'algunes poques desenes d'algorismes
d'indexació i de càlcul de rellevància. Ocasionalment, apareixien propostes rupturistes,
però naixien i morien sempre sense arribar a assolir mai l'estatus de
tecnologia comercialitzada o aplicada en el món real. La conseqüència va ser
gairebé una dècada de tempteigs durant la qual van conviure diferents formes
d'organització de la informació.
Tot va canviar molt a
finals dels anys noranta amb la idea dels fundadors de Google: el filtratge de
la informació no tenia gaire problema, el problema era la ordenació dels
resultats. Hi havia tanta informació al web que trobar milers milers de pàgines
web sobre qualsevol tema era fàcil. El problema era l'algoritme d'ordenació,
basat en els càlculs estadístics de la RI clàssica, molt influenciats al seu
torn per les freqüències dels termes presents en cada document, encara que
després aquestes freqüències es ponderessin amb freqüències globals del conjunt
de l'índex.
El que van aportar va ser:
i si apliquem la mateixa lògica que en l'anàlisi de citacions per determinar la
importància d'una pàgina? Van deduir que si eren capaços de construir una
espècie de base de dades on poguessin saber quants enllaços rebia cada pàgina,
llavors seria fàcil determinar quines pàgines eren les més valuoses per a cada
pregunta. Amb un important matís posterior, aquesta forma de determinar la
importància d'un web i després d'influir la seva posició en la ordenació de la
pàgina de resultats va rebre el nom de PageRank, ara tan conegut, discutit i
imitat.
En aquests moments, la RI
al web té oberts almenys dos reptes importants, un és la recuperació amb
adversari. L'altre repte és conèixer la intenció de l'usuari quan llança una
cerca. Atès que un cercador com Google és en realitat una interfície unificada
d'accés al repositori d'informacions multimèdia més gran i divers que mai va
somiar la humanitat, resulta clau poder interpretar les intencions de l'usuari.
Però aquesta intenció només es pot determinar per mitjans indirectes. Encertar
en major mesura aquesta predicció pot marcar la diferència entre que l'usuari
consideri que la cerca ha estat encertada o més aviat un fracàs.
Pel mateix motiu, en els
últims anys la pàgina de resultats també ha anat evolucionant cap al que s'anomena
la "cerca universal". Actualment, la majoria dels motors de cerca
combinen en la mateixa pàgina de resultats diverses tipologies i morfologies de
la informació, generalment imatges, vídeos i notícies (a més de pàgines web). Fins
i tot el mateix concepte de cercador ha evolucionat i, al costat dels cercadors
tradicionals (o generalistes), s'han desenvolupat nous tipus de cercadors.
L'actual objectiu és
aconseguir un web amb continguts que siguin millor interpretats pels ordinadors
i on, entre altres coses, els cercadors funcionin de forma
"intel·ligent". Es tracta d'una tasca, plena de dificultats:
científiques, perquè se situen en les fronteres del coneixement, i logístiques,
perquè implica una manera de crear i publicar continguts molt diferent. Malgrat
tot, hi ha fundades esperances que el moviment, projecte o visió de la web
semàntica, obtingui resultats que, a mitjà i a llarg termini, podrien conduir a
un paisatge on la RI sigui molt diferent del que coneixem ara.


Cap comentari:
Publica un comentari a l'entrada