dimecres, 3 de maig del 2017

3.1. INTRODUCCIÓ


En una societat marcada per la superabundància d'informació, aviat les principals diferències entre els ciutadans no s'establiran per la possibilitat d'accedir a les xarxes de comunicacions o a la informació, sinó que estaran marcades per la capacitat de poder trobar la informació de qualitat adequada en el moment oportú.

La finalitat última de l'arxiu és servir als seus usuaris la informació abocada en tots els documents i aquests mateixos; en les fases històriques (arxius intermedis i històrics) per mantenir viva la memòria i la identitat de la institució o de la societat, en les fases actives (arxius de gestió i central) per la resolución d'un assumpte administratiu.




En l'última dècada la recuperació de la informació ha experimentat més avenços i innovacions que en els cinquanta anys anteriors, i la causa principal ha estat el web. El motiu és que fins llavors, la recuperació de la informació, havia estat confinada en entorns aïllats i controlats al mateix temps. Això significa que la RI tenia el seu àmbit sempre entre les col·leccions de documents tancades (documents d'una institució), i alhora homogènies (economia, medicina o informes jurídics).

Entre els anys seixanta i noranta, poc abans de la plena irrupció del web, els avenços en la RI consistien bàsicament en refinaments successius d'algunes poques desenes d'algorismes d'indexació i de càlcul de rellevància. Ocasionalment, apareixien propostes rupturistes, però naixien i morien sempre sense arribar a assolir mai l'estatus de tecnologia comercialitzada o aplicada en el món real. La conseqüència va ser gairebé una dècada de tempteigs durant la qual van conviure diferents formes d'organització de la informació.

Tot va canviar molt a finals dels anys noranta amb la idea dels fundadors de Google: el filtratge de la informació no tenia gaire problema, el problema era la ordenació dels resultats. Hi havia tanta informació al web que trobar milers milers de pàgines web sobre qualsevol tema era fàcil. El problema era l'algoritme d'ordenació, basat en els càlculs estadístics de la RI clàssica, molt influenciats al seu torn per les freqüències dels termes presents en cada document, encara que després aquestes freqüències es ponderessin amb freqüències globals del conjunt de l'índex.

El que van aportar va ser: i si apliquem la mateixa lògica que en l'anàlisi de citacions per determinar la importància d'una pàgina? Van deduir que si eren capaços de construir una espècie de base de dades on poguessin saber quants enllaços rebia cada pàgina, llavors seria fàcil determinar quines pàgines eren les més valuoses per a cada pregunta. Amb un important matís posterior, aquesta forma de determinar la importància d'un web i després d'influir la seva posició en la ordenació de la pàgina de resultats va rebre el nom de PageRank, ara tan conegut, discutit i imitat.



En aquests moments, la RI al web té oberts almenys dos reptes importants, un és la recuperació amb adversari. L'altre repte és conèixer la intenció de l'usuari quan llança una cerca. Atès que un cercador com Google és en realitat una interfície unificada d'accés al repositori d'informacions multimèdia més gran i divers que mai va somiar la humanitat, resulta clau poder interpretar les intencions de l'usuari. Però aquesta intenció només es pot determinar per mitjans indirectes. Encertar en major mesura aquesta predicció pot marcar la diferència entre que l'usuari consideri que la cerca ha estat encertada o més aviat un fracàs.

Pel mateix motiu, en els últims anys la pàgina de resultats també ha anat evolucionant cap al que s'anomena la "cerca universal". Actualment, la majoria dels motors de cerca combinen en la mateixa pàgina de resultats diverses tipologies i morfologies de la informació, generalment imatges, vídeos i notícies (a més de pàgines web). Fins i tot el mateix concepte de cercador ha evolucionat i, al costat dels cercadors tradicionals (o generalistes), s'han desenvolupat nous tipus de cercadors.


L'actual objectiu és aconseguir un web amb continguts que siguin millor interpretats pels ordinadors i on, entre altres coses, els cercadors funcionin de forma "intel·ligent". Es tracta d'una tasca, plena de dificultats: científiques, perquè se situen en les fronteres del coneixement, i logístiques, perquè implica una manera de crear i publicar continguts molt diferent. Malgrat tot, hi ha fundades esperances que el moviment, projecte o visió de la web semàntica, obtingui resultats que, a mitjà i a llarg termini, podrien conduir a un paisatge on la RI sigui molt diferent del que coneixem ara.



Cap comentari:

Publica un comentari a l'entrada