Gestió d'arxius.ARMG: 3.5. LA INDEXACIÓ AUTOMATITZADA

La indexació automatitzada es la que es realitza amb aplicacions informàtiques, sense intervenció humana, sent les màquines les que obtenen els terminis dels documents. És una indexació per extracció. Els conceptes es prenen d’una part o tot el document. Després :

s’eliminen les paraules buides: determinants, preposicions, conjuncions…

deixant les que aporten un contingut significatiu: substantius, certs verbs, adjectius

És un procés que ha evolucionat tan ràpidament com les tecnologies de la informació i la comunicació: la aparició de Sistemes de Gestió Electrònica de Documents (EDMS: Electronic Data Management Systems), la automatització dels processos documentals i les bases de dades a text complet.

En contra de la indexació humana, ofereix moltes avantatges, com la rapidesa d’indexació, de cerca i resposta, la multiplicació dels elements de recuperació, etc.

La indexació assistida per ordinador, que és l’habitual en l’actualitat, es caracteritza per la inclusió de relacions hipertextuals, amb estructures de navegació en el mateix document o entre altres. Aquestes eines faciliten enormement la cerca a la llista i, per tant, la elecció i discriminació l’un de l’altre. I sobretot son capaços de portar a l’usuari al document mateix, sempre i quan estigui digitalitzat.

La indexació automatitzada, igual que la manual, persegueix identificar el document mitjançant l'ús de paraules clau que resumeixin el seu contingut. La indexació automatitzada extreu o assigna els termes de indexació d'una forma automàtica per mitjà de màquines i sense intervenció humana. Aquesta pot ser lliure, quan la identificació es realitza a través d'una llista o conjunt obert de termes, o pot tractar-se d'una indexació controlada, quan s'utilitzen llistes tancades a manera de llistes d'autoritat, llistes d'encapçalaments, llistes de descriptores, tesaurus, ontologies, etc.

Models d’indexació automatitzada

La indexació automàtica se sol definir amb la següent fórmula: Lingüística+ estadística+ informàtica= indexació automàtica ,a la qual avui podem afegir un quart element: Bases de coneixement+ lingüística+ estadística+ informàtica= indexació automàtica.

No obstant això, els diferents models d'indexació automatitzada utilitzen aquests elements en diferents graus i es poden classificar atenent als següents criteris:

Segons el mètode d'extracció terminològica:

Mètodes lingüístics: utilitzen diferents nivells d'anàlisi lingüística: anàlisi lèxica, sintàctic, semàntic i contextual. Aquests tipus d'anàlisis es duen a terme mitjançant la utilització d'eines automàtiques per a cada nivell.

Mètodes no lingüístics:

Extracció estadística de termes: Hans Peter Luhn d'IBM, en els anys 60 va mecanitzar l'anàlisi del contingut gràcies a la autocodificació dels textos i la formació d'índexs KWIC (Key Word In Context), que encara se segueix utilitzant per localitzar termes en alguns tesaurus.

Extracció probabilística de termes: basada en la freqüència d'aparició mitjana dels termes.

Extracció bibliometrica de termes: basat en l'anàlisi quantitativa de determinades termes presents en els documents de la bibliografia emprada en un camp concret.

Extracció infométrica de termes: basat en el tractament informàtic dels termes i l'enginyeria del coneixement. És el que se sol denominar data mining o mineria de dades: explotació de dades per extreure coneixement.

Segons la part del document que indexen:

indexen les parts principals del document: títol, resum, etc.: Es calcula que en àmbits molt especialitzats, un 60% dels termes pertinents per la indización, estan de forma explícita en el títol, un 30% està implicat en alguna paraula del títol i un 10% en el text.

indexen el text complet

Segons el control del vocabulari:

Llenguatges controlats: la identificació del document es realitza utilitzant un vocabulari controlat com a llistes de matèries, taxonomies, tesaurus, ontologies...

Llenguatges lliures: la identificació es realitza a través d'una llista o conjunt obert de termes.

Evolució en els sistemes de indexació automàtica:

Els models de indexació automàtica són molt variats: des de mètodes molt simples (extracció de paraules del llenguatge natural), fins a mètodes molt complexos basats en una indexació intel·ligent que tracta no les paraules, sinó els conceptes. Tots aquests mètodes conviuen alhora, encara que puguem parlar d'un procés evolutiu en la indexació automatitzada servint-nos del tractament que s'ha anat donant al llenguatge natural i que podem resumir així:

Primera etapa: les paraules s'entenen com a objectes:

En els anys 60, al començament de la utilització de l'ordinador com a processador de textos, els primers intents de indexació automàtica es basaven en la identificació de les paraules que apareixen en els títols.
Les paraules buides són descartades mitjançant un filtre i les altres passen a considerés descriptores. Es tracta doncs, d'una indexació morfològica. No obstant això, si es manipula el text complet, s'obté una indexació indiscriminada que no distingeix les ambigüitats dels termes, ja que no diferencia les formes flexives (gènere i nombre) ni tampoc els sinònims, homònims, polisèmies, etc; pel que es comença a analitzar també el context, igual que es venia fent amb els índexs de concordances.
Es configuren índexs permutats amb una entrada per cada paraula no buida que apareix en el document. I, en molts casos, s'utilitza la informació que presenten els registres bibliogràfics o es parteix dels títols i resums per obtenir termes més representatius i adequats. Un gran avanç va ser introduir mètodes estadístics i probabilístics, analitzant la freqüència estadística d'aparició de cada paraula.
Es deixen fos les paraules l'aparició de les quals és excessiva i aquelles l'aparició de les quals és molt escassa o rara, i es trien les paraules que apareixen amb una freqüència mitjana.
Aquests models, encara que alguna cosa primitius, van suposar un gran avanç respecte als models d’indexació manuals i avui encara segueixen utilitzant-se tant com a mètodes per extreure paraules i elaborar tesaurus, com a mètodes que s'usen en combinació amb altres models basats en l'anàlisi lingüística.

Segona etapa: des dels anys 70 es destaca l'anàlisi lingüística per evitar l'ambigüitat en els termes: es comença a processar el llenguatge natural en tots els seus aspectes: morfològic, sintàctic, semàntic i pragmàtic.

Processament morfològic-lèxic: primer se segmenta el text en unitats més petites. S'identifiquen així paraules, sintagmes, locucions, sigles, etc. als quals es donen una sèrie d'identificadors per ser utilitzats com a punts de referència. Es compta amb 2 diccionaris, un diccionari que conté totes les entrades d'una llengua i un altre diccionari amb locucions.

Processament sintàctic: una vegada obtingut el lèxic mitjançant aquest processament morfològic, es passa a utilitzar una gramàtica o diccionari sintàctic que descrigui l'estructura de les oracions. Se separen les oracions en simples i compostes, i es desambigüen les diferents categories morfològiques. Els analitzadors sintàctics poden determinar les funcions de les paraules en el text. Aquestes dues etapes anteriors es poden realitzar alhora mitjançant els anomenats analitzadors morfosintàctics que utilitzen un analitzador amb una gramàtica particular adaptada a la naturalesa dels textos que indexen.

Processament semàntic: posteriorment, l'anàlisi semàntica permetrà agrupar i jerarquitzar el contingut del text a través d'un nou reconeixement morfològic que tingui en compte els significats, i a través del reconeixement de sinònims i hiperònims. També pot realitzar-se una anàlisi semàntica des del punt de vista gramatical, que estudiï les relacions sintagmàtiques ben sigui en el context de la frase o en el del document complet. Es redueixen així els termes lèxics indexats i s’homogeneïtzen. Posteriorment, es poden elaborar arbres que representin gràficament els enllaços dins d'aquests esquemes per poder descendir des dels termes genèrics als termes específics, i viceversa, amb la finalitat d'establir i representar els diferents dominis semàntics, temàtics o conceptuals del text i les seves jerarquies o associacions. En aquesta etapa, s'usen tesaurus molt especialitzats de termes que estableixen tant les jerarquies com les associacions temàtiques o conceptuals, i que permeten reduir o ampliar cada cerca amb gran precisió. Arran d'això van néixer els mapes lèxics que representen els termes del text associats a una o diverses parelles de termes del tesaurus.

Processament pragmàtic: aquesta indexació és molt complexa ja que es basa no només en el coneixement lingüístic, sinó també en el coneixement del món real. Es tracta que l'univers del discurs només pot comprendre's posant-ho en relació o emmarcant-ho en el context de l'univers real. S'utilitzen, llavors, algorismes molt complexos que recullen les relacions contextuals per poder comprendre el context del discurs. Un pas més avançat i ja a cavall entre aquesta etapa i la següent és la consideració no només de l'anàlisi purament semàntica, sinó també de l'anomenada Anàlisi Cognitiva del Discurs, amb la finalitat d'extreure el que es denomina l'Estructura Fonamental del Significat, i per a això s'utilitzen altres tècniques com la constitució de Xarxes Semàntiques.

Tercera etapa: indexació intel·ligent basada no només en l'abstracció de conceptes, sinó també en models conceptuals sostinguts sobre bases de coneixement: es tracta de l'etapa actual en la qual s'integren tots els models anteriors intentant dotar a les màquines de competències lingüístiques i cognitives basades tant en la lingüística, com a les bases de coneixement. El que es persegueix és l'accés directe als documents a través del processament lingüístic i cognitiu automàtics i la utilització del llenguatge natural, combinat amb altres tècniques com l'anàlisi estadística o el mesurament terminològic. No faria falta que els usuaris coneguessin els llenguatges documentals, sinó que interfícies intel·ligents facilitarien utilitzar el llenguatge natural i els ordinadors, mitjançant agents intel·ligents, s'encarregarien de tot el procés de manipulació, selecció i processament de la informació.

Els anomenats motors d'indexació i cerca, que són les eines que durien a terme la indexació automatitzada en els nous sistemes de gestió del coneixement, es doten d'un sistema d'extracció de conceptes que pot construir Xarxes Semàntiques de sortida i entrada, fonamentades en bases de coneixement que, per mitjà d'ontologies, permetin construir la semàntica del text i associar les relacions del context. Això permetria la recuperació d'informació per conceptes i idees.

Les bases de coneixement d'aquests sistemes intel·ligents, no són més que un tesaurus enriquit amb informació morfològica, sintàctica i semàntica, això és, una ontologia el vocabulari de la qual s'extreu dels documents d'un àrea específica del coneixement, d'un camp especialitzat del saber. En tractar-se d'un vocabulari molt especialitzat, els documentalistes no posseeixen les competències necessàries per a l'anàlisi d'aquest camp del saber i, per tant, aquestes competències s'extreuen del propi document, del coneixement que els experts han plasmat en ell. Un coneixement que va més enllà del purament semàntic, ja que es tracta d'un coneixement pragmàtic, ja que s'extreuen porcions de realitat. Per dur a terme aquest tipus d'anàlisi tan complexa, es necessita un treball multidisciplinari on intervinguin experts estadístics, informàtics, lingüistes i enginyers de la intel·ligència artificial.

La diferència entre els tesaurus i les ontologies és que els tesaurus contenen relacions d'associació, però les ontologies especifiquen com és aquesta associació i la representen mitjançant estructures en forma d'arbre o en plànols. Els nous programes de programari per a la gestió del coneixement realitzen una indización automàtica representant el contingut utilitzant conceptes i algorismes molt complexos. Conjuguen programari per al tractament del text complet i la gestió electrònica de documents, amb programari per al processament del llenguatge natural, la qual cosa permet indexar el document no només mitjançant paraules clau, sinó també analitzant el text complet, i utilitzar el llenguatge natural tant per a la indexació com per a la formulació de preguntes en les cerques. Els sistemes més complexos combinen el model lingüístic amb l'estadístic i solen estar conformats per 4 mòduls diferents: un mòdul de construcció de regles per a la canonització de les paraules flexives i derivatives, un motor d’indexació, un mòdul de càlcul estadístic i una base del coneixement o diccionari electrònic. Es tracta no només de sistemes de Gestió Electrònica de Documents (GED), sinó de veritables Sistemes de Gestió del Coneixement (SGC) en els quals el motor d’indexació i els mètodes de Processament del Llenguatge Natural (PLN) compleixen un paper fonamental.

Dins de les diferents etapes de la indexació automàtica que hem analitzat anteriorment, podem destacar, al seu torn, les diferents eines o instruments d'anàlisis utilitzades en el processament lingüístic dels documents, que també han anat variant amb el pas del temps. Podem destacar 3 instruments principals:

Diccionaris: per dur a terme l'anàlisi morfològica i sintàctic utilitzant regles gramaticals

Tesaurus: per dur a terme l'anàlisi semàntica mitjançant l'establiment d'enllaços d'equivalència, jerarquia o associació a l'hora d'aplicar les regles documentals

Ontologies: per indicar els tipus de relacions que es donen entre els conceptes, amb la finalitat d'eliminar les ambigüitats en el contingut dels documents.

Durant el procés d'indexació, es tenen en consideració els enllaços entre els textos i les relacions lingüístiques, analitzant els continguts en funció de:

Detecció automàtica dels errors tipogràfics

Eliminació dels paraules no útils en funció de la seva categoria gramatical

Determinació de la forma normalitzada (canonització)

Resolució dels casos d'homografia

Identificació automàtica de les expressions més utilitzades

Ponderació de les paraules i expressions mitjançant una anàlisi estadística del text

El treball d'anàlisi morfològica i sintàctic del text es realitza mitjançant diccionaris amb milers d'entrades, que incorporen les diferents formes d'un mateix terme: singular, plural, masculí, femení, formes conjugades dels verbs, etc. A més, el sistema posseeix un lèxic d'expressions idiomàtiques que integren les sigles en les seves formes desenvolupades, les locucions, etc. L'eliminació de paraules no útils es realitza en funció de criteris gramaticals i morfològics, normalitzant les paraules útils. En el cas d'homografies, s'efectua una normalització de les categories gramaticals. Per exemple, es distingeix "llibre", nom comú de "llibre", forma conjugada del verb "lliurar". També permet fer cerques de termes semàntics mitjançant altres sinònims o equivalent. Existeixen moltes regles per desxifrar els sinònims.

Els documents que responen a les preguntes formulades es presenten en una llista de textos classificats per ordre de pertinència. Això ve determinat per les "dependències lingüístiques" entre els termes de la pregunta i els oposats dins dels documents basi.

Molts indexadors automàtics permeten fer les preguntes per a les cerques en múltiples idiomes.

Gestió d'arxius.ARMG

dimecres, 3 de maig del 2017

3.5. LA INDEXACIÓ AUTOMATITZADA

Models d’indexació automatitzada

Evolució en els sistemes de indexació automàtica:

Cap comentari:

Publica un comentari a l'entrada