Departamentul TAOY KemGUKI

Tezauri de regăsire a informațiilor:

structura, scopul si procedura de dezvoltare

1. Tezaur ca modalitate de reprezentare sistematizată a cunoștințelor și

un fel de dicționar ideografic.

2. Tezauri de regăsire a informațiilor: esență și scop

3. Structura IPT

4. Procedura de dezvoltare, examinare, înregistrare și întreținere a IPT.

Bibliografie

1. GOST 7.74 - 96. Limbi de regăsire a informațiilor. Termeni și definiții [Text]. - Intrare. 1997-07-01. - Minsk: Consiliul Interstatal pentru Standardizare, Metrologie și, 1997. - 34 p. (Sistem de standarde pentru informare, biblioteconomie și publicare) TC 191.

2. GOST 7.25-2001. Tezaur de regăsire a informațiilor monolingv. Reguli de dezvoltare, structură și formă de prezentare [Text]. – GOST 7,25-80; Introducere 2002-07-01. - M.: Editura IPK de standarde, 2001. - 16 p. MTK 191.

3. GOST 7.24-2007 Tezaur multilingv pentru regăsirea informațiilor. Compoziție, structură și cerințe de bază pentru construcție. - În loc de GOST 7.24-90; intrare. 2008-07-01. / Consiliul Interstatal pentru Standardizare, Metrologie și Certificare. - M.: Standartinform, 2008. - 7 p. (Sistem de standarde privind informarea, biblioteconomia și publicarea)

4. Baranov, O. S. Dicționar ideologic al limbii ruse / O. S. Baranov. - M.: Editura ETS, 1995. - 820 s

5. Zhmailo, S. V. Despre definiția tezaurului [Text] / S. V. // NTI. Ser. 1 Munca de organizare și informare. - 2003. - Nr. 12. – P.20 – 25.

6. Zhmailo, S. V. Dezvoltarea tezaurilor moderne de regăsire a informațiilor [Text] / S. V. Zhmailo // NTI. Ser. 1 Organizarea și metodologia muncii informaționale. -2004. - Numarul 1. – P.23 – 31.

Deci, în dicționarul ideografic al limbii ruse de O. S. Baranov (4), se disting 12 secțiuni superioare ale dicționarului ideografic, printre care se numără: „ordine, natură, activitate, cultură”, etc., fiecare dintre ele împărțită în grupuri, subgrupe, departamente, secții . Toate cuvintele din acest dicționar sunt grupate în cuiburi în funcție de semnificația lor și sunt grupate după un anumit concept, cu care sunt cel mai adesea asociate prin relații de specii. Cuiburile sunt grupate în subsecțiuni și așa mai departe. În acest moment, în dicționar există 5923 de cuiburi, 7 niveluri de diviziune (conform www.rifmovnik.ru/thesaurus.htm din 16 februarie 2010). Iată un exemplu de intrare de dicționar din acest dicționar:

178.4.7 aromă ▲ - un miros plăcut (de exemplu, miros de flori, iarbă, fân. blând #. îmbătător #). aromatizare . . . ambra. tămâia.

Codul cuvântului „aromă” reflectă clasificarea ideografică acceptată în acest cuvânt dat, în special, corelarea acestui cuvânt cu categoria „178-Senzații”.

Astfel, termenii „tezaur”, „dicționar ideologic”, „dicționar de tip tezaur” înseamnă în primul rând că totalitatea cuvintelor limbii este prezentată în ei în așa fel încât un grup de cuvinte să includă cuvinte similare. în sens. Scopul principal al dicționarelor ideografice este o colecție de unități lexicale unite printr-un concept comun; aceasta face ca cititorul să găsească mai ușor mijloacele cele mai potrivite pentru exprimarea adecvată a gândirii și promovează stăpânirea activă a limbii.

Din istoria tezaurilor

JACHETE 2302

în Costume

Produse pentru haine

Produse de cusut

n Jachetă cu două piept

Jacheta combinata

Jachetă de sport

în măsuri de ambalare

Material rămas

Deseuri materiale

Notă lexicală;

Ascriptori sau descriptori-sinonime;

Descriptori superiori;

Descriptori în aval;

Descriptori asociativi;

Descriptori legați de alte tipuri de relații.

În cadrul fiecărui grup de LU asociate cu un descriptor principal printr-un fel de relație paradigmatică, trebuie să existe o ordine alfabetică de aranjare. De exemplu:

LIMBAJE ALGORITMICE

cu limbaje algoritmice

limbaje orientate către mașină

limbaje specifice domeniului

în SOFTWARE

LIMBAJE FORMALE

n AUTOCODURI

un ALGORITMI

PROGRAMARE cf. limbaje artificiale

O intrare ascriptor constă dintr-un ascriptor și descriptori sau o combinație de descriptori care o înlocuiesc atunci când procesează și caută informații. Iată exemple de articole ascriptor:

Caractere alfanumerice

Limbi spaniole FORMALE

LIMBAJE NATURALE

vezi LIMBAJE ALGORITMICE

O intrare din dicționar poate include, de asemenea:

Cât de des este folosit descriptorul;

Numărul de cod descriptor;

Cod descriptor conform indexului sistematic;

Indici de clasificare;

Mărci semantice și lexicografice suplimentare;

echivalente străine.

Calitatea unui index lexico-semantic este determinată de completitudinea unităților lexicale incluse în acesta. este înțeleasă ca probabilitatea de a introduce în tezaur orice cuvânt cu semnificație informativă pentru o anumită disciplină. Completitudinea indexului lexico-semantic și, în consecință, a întregului tezaur are un efect semnificativ asupra rezultatelor indexării documentelor și interogărilor.

Părțile suplimentare pot include indici sistematici, permutaționali, ierarhici și de altă natură și liste de categorii speciale de unități lexicale.

Un index sistematic este un index în care descriptorii sunt grupați în funcție de rubricile acceptate în IPT. Un index sistematic definește direcția tematică a tezaurului, îi dezvăluie conținutul și reflectă acele ramuri ale științei și tehnologiei care pot fi căutate cu una sau alta profunzime de detaliu. Necesitatea acestuia ca parte a IPT se datorează faptului că oferă o reprezentare vizuală a stării generale a terminologiei într-un anumit domeniu de cunoaștere, vă permite să construiți un model terminologic coerent și, dacă este posibil, toți termenii și concepte care ar trebui să-şi găsească loc în tezaur. Este destinat să faciliteze căutarea de termeni la compilarea imaginilor de căutare ale documentelor și interogărilor prin ordonarea unui set de descriptori și ascriptori pe subiect.

Indexul sistematic, în esență, este o schemă de clasificare pentru completarea tezaurului cu terminologie, deoarece este construit prin ordonarea unui set de descriptori în funcție de domeniile de studiu.

Indicii sistematici ai IPT sunt împărțiți în trei tipuri:

tematice,

Amestecat.

Această împărțire reflectă principiul construirii schemei de clasificare a unui index sistematic.

Principalele funcții îndeplinite de indicele sistematic al IPT:

Utilizare ca auxiliar pentru indexare, oferind, în total, căutarea descriptorilor pentru indexarea conceptelor care nu sunt reprezentate explicit în tezaur (funcția de căutare);

Utilizare în procesul de menținere a unui tezaur (funcția de menținere a IPT);

Utilizarea ca bază structurală a IPT, ca management al dezvoltării acestuia (funcția constructivă).

În conformitate cu GOST 7.25-2001 (2), atunci când se construiește un index sistematic de tipuri tematice și mixte, în partea sa tematică, ar trebui să fie utilizate rubrici ale rubricatorului Interstate NTI sau un rubricator ASNTI specific compatibil cu rubricatorul Interstate NTI. La construirea unui index sistematic de tipuri categorice și mixte, în partea sa categorială urmează următoarele categorii generale:

Denumirile disciplinelor și ramurilor de activitate;

Articole, materiale;

Metode, procese, operații, fenomene;

Proprietăți, valori, parametri, caracteristici;

Relații, structuri, modele, legi, reguli, concepte abstracte.

Index ierarhic. Un index ierarhic este un index care oferă o listă de liste de descriptori, fiecare listă începând cu un descriptor care nu are părinte. Acesta reflectă structura completă a relațiilor ierarhice în IPT. După fiecare descriptor, descriptorii sunt dați direct cu o indicație a nivelului lor în ierarhie, folosind numerotarea sau o denumire grafică a nivelului:

Necesitatea elaborării unui index ierarhic al IPT este cauzată de faptul că întregul sistem de subordonare a conceptelor nu este fixat în intrările de dicționar ale IPT, deoarece aceasta ar presupune o creştere semnificativă a indicelui lexico-semantic. este necesar să se dezvolte o secțiune independentă a IPT - un index ierarhic care să reflecte întregul lanț ierarhic de subordonare a descriptorilor la partea de jos.

Un index permutațional este un index care listează în ordine alfabetică toate cuvintele individuale care fac parte din componentele frazelor care denotă descriptori și pentru fiecare dintre ele sunt indicați toți descriptorii care includ aceste cuvinte. Prin urmare, fiecare termen apare în indexul permutațional de câte ori conține cuvinte semnificative. Scopul indexului permutațional este de a oferi o căutare a descriptorilor-expresii după orice cuvânt inclus în componența lor, inclusiv a celor care nu apar la începutul unei unități lexicale. Vă permite să grupați cuvinte cu o singură rădăcină într-un singur loc.

De regulă, un index permutațional este compilat într-un mod automat și are de obicei forma unui index de tip KWIC (Cuvânt cheie - În context - „Cuvinte cheie în context”), în care toate cuvintele semnificative - termenii - sunt aranjate in ordine alfabetica. în indicele de permutare se află în centrul coloanei, care este format din microcontextele elementelor termenului, iar partea din termeni care nu se potrivește este transferată în partea stângă a aceleiași linii:

cuantumul optic

excitare

electric

cu excitaţie dependentă

Generatoare de interferențe

GENERATORE SERIALE

GENERATOARE DC

GENERATOARELE DC se dovedesc a fi necesare.

4. Procedura de dezvoltare, examinare, înregistrare și întreținere a IPT

În prezent, procedura de elaborare, examinare și înregistrare a IPT este determinată de două standarde: GOST 7.25-2001 „Tezaurul de regăsire a informațiilor monolingv. Reguli de dezvoltare, structură, compoziție și formă de prezentare” și GOST 7.24-2007 „Tezaur de regăsire a informațiilor multilingve. Compoziție, structură și cerințe de bază pentru construcție. În conformitate cu aceste standarde, funcțiile de examinare și înregistrare a IPT sunt îndeplinite de fondurile depozitare naționale și internaționale.

Fondul Național de Depozitare al IPT în limba rusă (inclusiv IPT care conține echivalentele descriptorilor în limba rusă) se află la , în VINITI.

Există, de asemenea, două IPT-uri depozitare internaționale:

1) IPT International Depository Fund în limba engleză, inclusiv IPT care conține echivalentele descriptorilor în limba engleză. Se află în, în Toronto, în biblioteca Facultății de Științe Informaționale a Universității din Toronto (Thesaurus Clearinghouse - „settlement”, The Library, Faculty of Information Studies, University of Toronto, TORONTO, Canada);

2) IPT International Depository Fund în toate limbile, altele decât engleza. Este situat în , în Varșovia, în informații științifice și tehnice și economice (Instytut Informacji Naukowej, Technicznej i Ekonomicznej, Clearinghouse, VARSOVIA A, Polonia.).

Adresele complete ale acestor organizații sunt date în GOST 7.25-2001.

GOST 7.25-2001 și GOST 7.24-2007 definesc acțiunile dezvoltatorilor IPT după cum urmează:

1. Înainte de a începe lucrările la crearea unui IPT, dezvoltatorul trebuie să se adreseze fondului depozitar național sau internațional corespunzător pentru a determina disponibilitatea tezaurilor înregistrate pe o anumită temă. În prezența unor astfel de tezaure, se face o evaluare a posibilității de a le introduce într-un sistem dat. Dacă nu se găsesc astfel de tezaure, este posibilă crearea unui IPT. În același timp, întreaga tehnologie pentru crearea IPT trebuie să respecte strict GOST 7.25-2001 și GOST 7.24-2007

2. IPT terminat (dezvoltat) trebuie să fie supus unei examinări pentru conformitatea cu GOST 7.25-2001. ei îndeplinesc standardul, apoi National emite dezvoltatorului . din acest IPT este depus (depus) în fondurile naționale relevante sau într-unul dintre fondurile de depozit internaționale (în Toronto sau Varșovia).

Depozitariile naționale difuzează informații cu privire la componența fondului IPT-urilor depuse și le furnizează dezvoltatorilor de noi IPT-uri pentru a împrumuta elemente și a asigura compatibilitatea suportului lingvistic al diferitelor sisteme informaționale. Astfel, aceștia îndeplinesc funcțiile de examinare, înregistrare, stocare a IPT-urilor și informații despre IPT-urile disponibile.

multe operațiuni pentru managementul IPT);

Tranziția AIS de la operarea independentă la operarea în rețea (atunci când se utilizează IPT în cadrul unui principiu unic de întreținere a acestora, acestea trebuie să fie de acord).

Procesul de menținere a IPT-ului în funcțiune se numește menținerea sau ajustarea tezaurului. De obicei, include următoarele:

Modificarea compoziției lexicale a IPT: introducerea de noi unități lexicale, a acestora, schimbarea statutului unităților lexicale (traducerea unui cuvânt cheie în descriptori și invers);

Schimbarea relațiilor paradigmatice în IPT (întărire, slăbire);

Menținerea IPT presupune utilizarea obligatorie a instrumentelor de automatizare care vă permit să efectuați rapid astfel de operațiuni care necesită multă muncă precum sortarea alfabetică a dicționarului, vocabular, verificarea reciprocității și consistenței referințelor, cu ajutorul cărora sunt fixate relații paradigmatice în IPT. , etc.

, antonime, paronime, hiponime, hipernime etc.) între unitățile lexicale. Tezaurile sunt unul dintre cele mai eficiente instrumente pentru descrierea domeniilor individuale de studiu.

În trecut, termenul tezaur au fost desemnate în principal dicționare, reprezentând vocabularul limbii cu exemple de utilizare a acesteia în texte cu maximă completitudine.

De asemenea termen tezaur folosit în teoria informaţiei pentru a se referi la totalitatea tuturor informaţiilor pe care le deţine subiectul.

În psihologie, tezaurul unui individ caracterizează percepția și înțelegerea informațiilor. Teoria comunicării are în vedere și tezaurul general al unui sistem complex, prin care elementele sale interacționează.

Poveste

Unul dintre primele tezaure se numește Dicționarul de sinonime al lui Philo din Biblus. O corespondență mai exactă cu termenul este Amara-kosha, scrisă în sanscrită sub formă de versuri în secolul al VI-lea. Primul tezaur modern în limba engleză a fost creat de Peter Mark Roger în 1805. A fost publicată în 1852 și a fost folosită de atunci.

În anii 1970, tezaurile au început să fie utilizate în mod activ pentru sarcini de regăsire a informațiilor. În astfel de tezaure, cuvintele sunt comparate cu descriptori prin care se stabilesc legături semantice.

Tezauri

Vezi si

Scrieți o recenzie despre articolul „Tezaur”

Note

Un fragment care caracterizează Tezaurul

- Ce dandy ești azi! - uitându-se în jur la noul său mentic și pânză de șa, spuse Nesvitsky.
Denisov a zâmbit, a luat o batistă din tashka, care răspândea mirosul de parfum și i-a băgat-o în nasul lui Nesvitsky.
- Nu pot, ma duc la munca! a ieșit, și-a curățat dinții și s-a parfumat.
Figura impunătoare a lui Nesvițki, însoțită de un cazac și hotărârea lui Denisov, care și-a fluturat sabia și a strigat disperat, au avut ca efect că s-au strecurat de cealaltă parte a podului și au oprit infanteriei. Nesvitsky a găsit un colonel la ieșire, căruia trebuia să-i transmită ordinul și, după ce și-a îndeplinit ordinul, s-a întors.
După ce a eliberat drumul, Denisov s-a oprit la intrarea în pod. Ținând nepăsător în spate armăsarul, care se repezi spre al său și dădea cu piciorul, se uită la escadrila care se îndrepta spre el.
Pe scândurile podului răsunară zgomote transparente de copite, de parcă mai mulți cai galopeau, iar escadrila, cu ofițeri în față patru oameni la rând, s-a întins de-a lungul podului și a început să iasă pe cealaltă parte.
Soldații de infanterie opriți, înghesuiți în noroiul călcat în picioare de pod, priveau la husarii curați, cumpătați, trecând armonios pe lângă ei, cu acel sentiment deosebit de neprietenos de înstrăinare și batjocură cu care se întâlnesc de obicei diferitele ramuri ale armatei.
- Băieți drăguți! Numai la Podnovinskoye!
- Ce buni sunt! Doar pentru spectacol și condus! a spus altul.
– Infanterie, nu praf! - a glumit husarul, sub care calul, jucându-se, a stropit cu noroi pe infanterist.
„Te-aș fi alungat cu un rucsac pentru două tranziții, șireturile s-ar fi uzat”, a spus infanteristul, ștergându-și murdăria de pe față cu mâneca; - altfel nu este o persoană, ci o pasăre stă!
„Ar fi mai bine să te pun pe un cal, Zikin, dacă ai fi priceput”, a glumit caporalul la soldatul slab, răsucit de greutatea rucsacului.
„Ia o ștafetă între picioare, iată un cal pentru tine”, a răspuns husarul.

Restul infanteriei trecu grăbit peste pod, vârtejind la intrare. În cele din urmă, vagoanele au trecut toate, zdrobirea a devenit mai mică, iar ultimul batalion a intrat pe pod. Unii husari din escadrila lui Denisov au rămas de cealaltă parte a podului împotriva inamicului. Inamicul, vizibil în depărtare de la muntele opus, de jos, de pe pod, nu era încă vizibil, deoarece din scobitura de-a lungul căreia curgea râul, orizontul se termina cu cota opusă nu mai mult de jumătate de verstă. În față era un deșert, de-a lungul căruia în unele locuri se mișcau grupuri de cazaci ai noștri călători. Deodată, pe cota opusă a drumului, au apărut trupe în glugă albastră și artilerie. Aceștia erau francezii. Trupa cazacilor s-a deplasat în jos la trap. Toți ofițerii și oamenii din escadrila lui Denisov, deși au încercat să vorbească despre străini și să privească în jur, nu s-au oprit să se gândească doar la ceea ce era acolo, pe munte, și au privit neîncetat în locurile care apăreau la orizont, pe care le-au recunoscut ca fiind trupele inamice. Vremea s-a limpezit din nou după-amiaza, soarele a apus puternic peste Dunăre și munții întunecați din jurul ei. Era liniște și din acel munte se auzea din când în când sunete de claxoane și strigăte ale inamicului. Nu era nimeni între escadrilă și inamic, cu excepția unor mici margini. Un spațiu gol, trei sute de brazi, îi despărțea de el. Inamicul a încetat să tragă, iar acea trăsătură strictă, formidabilă, inexpugnabilă și evazivă care desparte cele două trupe inamice s-a simțit cu atât mai clar.
„Un pas dincolo de această linie, amintește de linia care separă vii de morți și - necunoscutul suferinței și morții. Și ce e acolo? cine e acolo? acolo, în spatele acestui câmp, și un copac și un acoperiș luminat de soare? Nimeni nu știe, și cineva vrea să știe; și este înfricoșător să treci această linie și vreau să o trec; și știi că mai devreme sau mai târziu va trebui să o treci și să afli ce este acolo, de cealaltă parte a liniei, așa cum este inevitabil să afli ce este acolo, de cealaltă parte a morții. Și el însuși este puternic, sănătos, vesel și iritabil și înconjurat de oameni atât de sănătoși și iritabil de vioi. Deci, dacă nu gândește, atunci fiecare persoană care este în vizorul inamicului simte, iar acest sentiment dă o strălucire deosebită și o claritate veselă a impresiilor la tot ceea ce se întâmplă în aceste momente.
Fumul unei împușcături a apărut pe un deal din apropierea inamicului, iar mingea, fluierând, a zburat peste capetele escadrilului de husari. Ofițerii care stătuseră împreună s-au împrăștiat la locurile lor. Husarii au început cu sârguință să îndrepte caii. Totul din escadrilă a tăcut. Toată lumea se uita în față la inamic și la comandantul de escadrilă, așteptând comanda. Un al treilea nucleu a zburat. Este evident că au tras în husari; dar ghiulele, fluierând uniform repede, a zburat peste capetele husarilor și a lovit undeva în spate. Husarii nu se uitară înapoi, dar la fiecare zgomot al unei ghiulele zburătoare, parcă la comandă, întreaga escadrilă cu fețele ei monoton diverse, ținându-și răsuflarea în timp ce ghiulele zbura, se ridica în etrieri și cobora din nou. Soldații, fără să-și întoarcă capul, s-au uitat unul la altul, căutând curioși impresia unui tovarăș. Pe fiecare față, de la Denisov până la clarină, lângă buze și bărbie, apărea o trăsătură comună de luptă, iritare și entuziasm. Sergentul-major se încruntă, uitându-se la soldați, ca și cum ar fi amenințat cu pedeapsa. Junker Mironov se aplecă la fiecare trecere a miezului. Rostov, stând pe flancul stâng pe Gracik lui atins, dar vizibil, avea aspectul fericit al unui student chemat în fața unui public numeros pentru un examen, în care era sigur că va excela. S-a uitat în jur limpede și strălucitor la toți, de parcă le-ar fi rugat să fie atenți la felul în care stă calm sub ghiulele. Dar și în fața lui, aproape de gură se arăta aceeași trăsătură a ceva nou și strict, împotriva voinței lui.
- Cine se înclină acolo? Yunkeg "Mig" ons! Hexog „oh, uită-te la mine” ite! – strigă Denisov, care nu putea să stea pe loc și care se învârtea pe un cal în fața escadronului.
Fața cu nasul moale și cu părul negru a lui Vaska Denisov și întreaga lui silueta mică, doborâtă, cu mâna lui nervoasă (cu degetele scurte acoperite cu păr), în care ținea mânerul unei sabie trase, era exact aceeași ca întotdeauna, mai ales seara, după ce am băut două sticle. Era doar mai roșu decât de obicei și, aruncându-și capul zburlit în sus ca păsările când bea, apăsându-și fără milă pintenii în părțile bunului beduin cu picioarele lui mici, el, ca și cum ar fi căzut înapoi, a galopat spre celălalt flanc al escadrilă și cu o voce răgușită strigă să inspecteze pistoalele. A condus până la Kirsten. Căpitanul de stat major, pe o iapă lată și liniştită, se îndreptă spre Denisov în pas. Toiagul căpitanului, cu mustața lui lungă, era la fel de serios ca întotdeauna, doar că ochii îi străluceau mai mult decât de obicei.
- Da ce? - i-a spus lui Denisov, - nu va veni la luptă. Vei vedea, hai să ne întoarcem.
- Chog „nu știe ce fac,” mormăi Denisov. „Ah! G” schelet! strigă el cadetului, observându-i chipul vesel. - Ei bine, am așteptat.
Și a zâmbit aprobator, aparent bucurându-se de junker.
Rostov se simțea complet fericit. În acest moment, șeful a apărut pe pod. Denisov galopă spre el.
- Pg-ul tău „înălțime! Lasă-mă să atac! Îi voi arunca în ei”.
— Ce fel de atacuri există, spuse şeful cu o voce plictisitoare, tresărind ca de la o muscă enervantă. — Și de ce stai aici? Vezi, flancurile se retrag. Condu escadronul înapoi.
Escadrila a trecut podul și a ieșit de sub împușcături fără să piardă o singură persoană. În urma lui, a trecut și a doua escadrilă, care era în lanț, iar ultimii cazaci au degajat acea parte.
Două escadrile de locuitori din Pavlograd, trecând podul, una după alta, s-au întors la munte. Comandantul regimentului Karl Bogdanovich Schubert a mers cu mașina până la escadrila lui Denisov și a călărit într-un pas nu departe de Rostov, fără să-i acorde nicio atenție, în ciuda faptului că, după ciocnirea anterioară de la Telyanin, acum s-au văzut pentru prima dată. Rostov, simțindu-se în față în puterea unui om față de care se considera acum vinovat, nu și-a luat ochii de la spatele atletic, ceafa blondă și ceafa roșie a comandantului de regiment. Lui Rostov i s-a părut că Bogdanich se prefăcea doar neatent și că tot scopul lui era acum să pună la încercare curajul cadetului și se îndreptă și se uită vesel în jur; apoi i s-a părut că Bogdanich călărea în mod deliberat aproape pentru a-i arăta lui Rostov curajul. Apoi s-a gândit că inamicul său va trimite acum o escadrilă într-un atac disperat pentru a-l pedepsi pe Rostov. Se credea că după atac el va veni spre el și va întinde cu generozitate lui, rănitului, mâna împăcării.

Din ce în ce mai mult, în numeroase proiecte, cărți, broșuri, resurse de pe Internet, se poate întâlni conceptul de „tezaur”. Ca un fenomen misterios, înspăimântă prin necunoașterea lui, pentru că este mult mai ușor să spui „dicționar” decât să folosești o definiție ciudată.

Tezaur: ce este? Cum este diferit de un dicționar obișnuit? Vom încerca să studiem aceste probleme mai detaliat și mai accesibil.

Interpretarea termenului

Inițial, conceptul de tezaur a fost considerat din punctul de vedere al unui dicționar, reprezentând vocabularul limbii cu exemple de utilizare în text.

Ozhegov interpretează un tezaur ca un dicționar al unei anumite limbi care reflectă pe deplin vocabularul, în timp ce Efremova consideră acest fenomen din punctul de vedere al unui set sistematic de date dintr-un anumit domeniu de cunoaștere.

Cea mai specifică definiție este folosită în filologie, unde tezaurul este înțeles ca o componentă a unui tip de dicționar, unde toate semnificațiile cuvintelor sunt conectate prin relații semantice între ele și reflectă relațiile cheie ale conceptelor dintr-o anumită zonă.

După cum vedem, este destul de dificil să răspundem la întrebarea: „Tezaur: ce este?” clar. Pentru un studiu mai restrâns al termenului, să luăm în considerare istoria apariției, tipurile și relațiile unităților lexicale într-un dicționar de acest tip.

Istoricul apariției

Fizicianul englez Roger este considerat părintele fondator al tezaurilor; el a fost cel care l-a sistematizat în 1852, împărțindu-l în grupuri. În același timp, fiecare grup era reprezentat de numele conceptului, iar apoi erau sinonimele sale pentru anumite părți de vorbire, liste de nume înrudite, precum și referiri la numele altor categorii. Ideea unei astfel de clasificări a fost foarte valoroasă, deoarece dicționarul era considerat cel mai natural, descriind vocabularul limbii în cea mai mare măsură. Cu toate acestea, ar putea fi folosit ca o căutare rapidă a conceptelor importante. De pe vremea primului tezaur și încă a existat o transformare regulată a acestui tip de dicționar, care este folosit în multe domenii ale cunoașterii și este larg popular în întreaga lume. Totodată, studiul temei: „Tezaur: ce este?” relevante în multe școli.

Până în prezent, tezaurile au rămas cel mai popular mod de a descrie cunoștințele în orice domeniu necesar pentru o percepție umană eficientă.

Relații dintre cuvintele din tezaur

Cele mai comune relații din tezaurul clasic sunt:

  1. Sinonimia este un fenomen în care sunt asociate cuvinte dintr-o parte de vorbire care sunt similare în sens lexical. De exemplu: putere-patrie, brigadă-detașament, stacojiu - roșu etc.
  2. Antonimia este legătura dintre cuvintele unei părți de vorbire care au sensul lexical opus. De exemplu: tăcere - hohote, afectuos - nepoliticos.
  3. Hiponimie (hiponimie) - relații cheie în scopul descrierii substantivelor. Hipernimul are un înțeles lexical larg, exprimă denumirea generică, comună, a unei clase (mulțimi) de obiecte, obiecte și anume proprietățile și trăsăturile acesteia. Un hiponim are un înțeles restrâns; denumește un obiect (atribut, proprietate) ca element al unui anumit set sau clasă. Pentru a clarifica această relație, să luăm un exemplu simplu. Cuvintele fiară și tigru interconectate, în timp ce numele comun - fiară- este un hipernim în raport cu hiponimul tigru.
  4. Meronimia (paronimia) - relații pentru substantive, se formează după principiul „parte – întreg”. Ca exemplu, luați în considerare cuvintele aeronave, tren de aterizare, hubloul. În acest caz, denumirea comună a transportului este holonim (întreg, nume), iar părțile sale constitutive sunt meronime.
  5. Consecință (relații între verbe). De exemplu, cuvintele du-te si vino legate de proces și de consecința (rezultatul) acestuia.
  6. Motivul (valabil și numai pentru verbe). Luați în considerare un exemplu de astfel de relații, luați cuvintele: rănit - dor. În acest caz, motivul poate fi urmărit - să sară peste pentru că au existat probleme de sănătate.

Ce este un tezaur, vom vedea din următorul exemplu.

Patul este un dispozitiv pentru dormit.

[hipernim]: mobilier
[meronim]: casă
[sinonim]: canapea, pat.

Acesta este doar un exemplu clasic de tezaur al limbii ruse, dar toate dicționarele de acest tip sunt construite exact pe acest principiu.

Funcții de tezaur

Dicționarul tezaurului are funcții importante sociale, de comunicare, științifice și alte funcții.

El este:

  • o sursă de cunoștințe speciale într-un domeniu larg sau restrâns, un mod de ordonare, descriere a termenilor;
  • instrument de căutare în fluxul de informații;
  • instrument pentru analiza manuală a documentației în motoarele de căutare;
  • instrument pentru indexarea automată a textelor complexe.

Tipuri de tezauri

Varietatea dicționarelor necesită luarea în considerare nu numai a întrebării: „Tezaur: ce este?”, ci și atenție la tipuri. Acest lucru ne va ajuta să înțelegem mai bine caracteristicile acestui tip de dicționare.


Concluzie

Sperăm că am putut explica într-un limbaj accesibil ce este un tezaur. Datorită exemplelor, este ușor de înțeles cum diferă de alte dicționare. De asemenea, am abordat problema tezaurilor de regăsire a informațiilor, care sunt utilizate pe scară largă de sistemul informațional pentru căutarea rapidă și sistematizarea a milioane de titluri.

N. V. Lukaşevici

[email protected]

B. V. Dobrov

Centrul de cercetare de calcul al Universității de Stat din Moscova M.V.Lomonosov;

Centrul ANO pentru Cercetare Informațională

[email protected]

Cuvinte cheie: tezaur, regăsire informații, procesare automată a textului,

Marea majoritate a tehnologiilor care lucrează cu colecții mari de texte se bazează pe metode statistice și probabilistice. Acest lucru se datorează faptului că resursele lexicale care ar putea fi folosite pentru a procesa colecții de text folosind metode lingvistice ar trebui să aibă un volum de zeci de mii de intrări de dicționar și să aibă o serie de proprietăți importante care trebuie monitorizate în mod special atunci când se dezvoltă o resursă. În raport, luăm în considerare principiile de bază ale dezvoltării resurselor lexicale pentru procesarea automată a colecțiilor mari de texte folosind exemplul tezaurului limbii ruse creat din 1997 pentru prelucrarea computerizată a textelor RuThez, care este în prezent o rețea ierarhică de peste 42 de mii de concepte. . Descriem starea actuală a tezaurului pe baza unei comparații a compoziției sale lexicale și a corpusului de text al Sistemului Informațional Universitar RUSIA (www.cir.ru) - 400 de mii de documente. Sunt discutate exemple de utilizare a tezaurului în diverse aplicații automate de procesare a textului.

  1. Introducere

În prezent, milioane de documente au devenit disponibile în formă electronică, au fost create mii de sisteme informatice și biblioteci electronice. În același timp, sistemele informaționale care utilizează resurse lexicale și terminologice pentru căutare sunt calculate în fracțiuni de procent. Acest lucru se datorează problemelor grave ale creării unor astfel de resurse lingvistice pentru prelucrarea automată a colecțiilor moderne de documente electronice.

În primul rând, aceste colecții sunt de obicei foarte mari, resursa trebuie să includă descrieri de mii de cuvinte și termeni. În al doilea rând, colecțiile sunt un set de documente cu structură diferită, cu o varietate de construcții sintactice, ceea ce face dificilă procesarea automată a propozițiilor text. În plus, informațiile importante sunt adesea distribuite între diferite propoziții ale textului.

Toate acestea ridică brusc întrebarea ce fel de resursă lingvistică ar trebui să fie, care, pe de o parte, ar fi utilă pentru prelucrarea și căutarea automată în colecțiile electronice, pe de altă parte, ar putea fi creată într-un timp previzibil și întreținută cu relativ efort mic.

În articol, vom lua în considerare principiile de bază ale dezvoltării resurselor lexicale pentru procesarea automată a colecțiilor mari de texte. Aceste principii vor fi luate în considerare pe exemplul tezaurului limbii ruse creat din 1997 de Centrul ANO pentru Cercetare Informațională pentru prelucrarea computerizată a textelor RuThez. RuThez este în prezent o rețea ierarhică de peste 42 de mii de concepte, care include peste 95 de mii de cuvinte, expresii și termeni rusești. Vom descrie starea actuală a tezaurului pe baza unei comparații a compoziției sale lexicale și a lexicului corpusului de text al Sistemului Informațional Universitar RUSIA, susținut de Centrul de Cercetare și Dezvoltare al Universității de Stat din Moscova. M.V.Lomonosov si ANO TsII. UIS RUSSIA (www.cir.ru) conține 400.000 de documente pe teme socio-politice (aproximativ 3 GB de texte, 200 de milioane de cuvinte de utilizare). Articolul va analiza, de asemenea, exemple de utilizare a tezaurului în diferite aplicații de procesare a textului.

  1. Principii pentru dezvoltarea unei resurse lingvistice

pentru sarcini de regăsire a informațiilor

Pentru a asigura procesarea automată eficientă a documentelor electronice (indexare automată, clasificare, comparare a documentelor), este necesar să se construiască o bază pentru compararea acestora - o listă a ceea ce a fost menționat în document. Pentru ca un astfel de index să fie mai eficient decât un index de cuvinte, este necesar să se depășească diversitatea lexicală a textului: sinonime, polisemie, părți de vorbire, stil și să-l reducă la un invariant - un concept care devine baza pentru comparare. texte diferite. Astfel, conceptele ar trebui să devină baza unei resurse lingvistice, iar expresiile limbajului: cuvintele, termenii - devin doar intrări de text care inițializează conceptul corespunzător.

Pentru a putea compara concepte diferite, dar apropiate ca înțeles, trebuie stabilite relații între ele. În mod tradițional, în resursele lingvistice pentru prelucrarea automată a textelor în limbaj natural s-au folosit anumite seturi de relații semantice, precum parte, sursă, cauză etc. Cu toate acestea, atunci când lucrăm cu colecții de texte mari și eterogene, trebuie să înțelegem că, odată cu stadiul actual al tehnologiei de procesare a textului, un sistem informatic nu va putea detecta aceste relații în text într-un mod stabil pentru a efectua procedurile pe care le-am au asociat cu anumite relații. Prin urmare, relațiile dintre concepte ar trebui în primul rând să descrie unele proprietăți invariante care nu depind sau depind slab de tema unui anumit text în care este menționat conceptul.

Funcția principală a acestor relații este de a răspunde la următoarea întrebare:

dacă se știe că textul este consacrat discuției despre C1, iar C2 este legat

atitudineRcu C1, putem spune că subiectul textului(*)

are legatura cu C2?

Atunci când se creează o resursă lingvistică pentru prelucrare automată, este important să se determine care proprietăți ale conceptelor C1 și C2 permit stabilirea relațiilor corecte (*) între ele.

Deci, de exemplu, despre orice texte sunt scrise mesteceni, putem spune întotdeauna că acestea sunt versuri despre copaci. Dar în ciuda popularității și a discuțiilor frecvente despre relație lemn ca parte paduri, un număr foarte mic de texte despre copaci sunt texte despre păduri. Rețineți că problema nu este legată de numele relației. Asa de poiana face parte din padure, iar textele despre poieni sunt texte despre pădure.

Invarianța relațiilor față de spectrul de subiecte posibile ale textelor domeniului de studiu este determinată în mare măsură de proprietăți mai profunde decât cele reflectate de denumirile relațiilor, și anume cuantificatorul și proprietățile existențiale ale acestuia. Deci proprietățile cuantificatoare ale relațiilor descriu dacă toate instanțele unui concept au o relație dată, dacă o relație dată este păstrată pe parcursul întregului ciclu de viață al exemplului. Problemă de utilizare a relației lemnpădure este legată tocmai de faptul că nu fiecare copac anume se află în pădure, dar luminișul nu poate fi în afara pădurii.

Un exemplu de descriere a proprietăților existențiale ale relațiilor este dacă existența conceptului C2 decurge din existența conceptului C1 (de exemplu, existența conceptului GARAJ necesită conceptul AUTO) sau existența exemplelor de C1 depinde de existența exemplelor de C2 (deci un anumit POTOP inseparabil de un exemplu concret RÂURI). Discuția din textul conceptului dependent C2, în special al celui dependent de exemplu, sugerează că textul este relevant și pentru conceptul principal C1.

Luați în considerare relația dintre concepte PĂdure și LEMN in detalii. De fapt, o parte a conceptului PĂDURE este o COPACUL ÎN PĂdure, în timp ce există și COPACUL ÎN STARE,COPACUL ÎN GRĂDINĂ etc. În orice caz, se impune ruperea relaţiei de subordonare a conceptului LEMN noţiune PĂDURE.

Pe de alta parte, PĂDURE este bun SET DE COPACI, nu există fără copaci (precum și GRĂDINĂ). Astfel conceptul PĂDURE ar trebui să depindă de concept LEMN. Pornind de la o analiză a nevoilor sarcinilor aplicate specifice, am ajuns la concluzia că este important să descriem proprietățile profunde ale relațiilor care anterior se reflectau foarte nesemnificativ în resursele lingvistice, dar care sunt de o importanță capitală pentru sarcinile de prelucrare automată a colecții mari de texte și, eventual, pentru multe alte sarcini.

Acum modelăm descrierea proprietăților cuantificatoare și existențiale ale conceptelor printr-un set de relații tradiționale de tezaur SUS-JOS (66% din toate relațiile), PARTEA-Întreg (30% din relații), ASOCIAȚIE (4%), în combinație cu un set de modificatori suplimentari (20% din relații sunt etichetate ). Rețineți că relațiile PARTE-Întreg și ASOCIARE sunt interpretate conform regulii (*). În total, sunt descrise aproximativ 160 de mii de conexiuni directe între concepte, ceea ce, ținând cont de tranzitivitatea relațiilor, oferă un număr total de conexiuni diferite de peste 1350 de mii de conexiuni, adică, în medie, fiecare concept este conectat cu alte 30. .

  1. Tezaur RuThes: Structura generală

Tezaurul RuThes este o rețea ierarhică de concepte corespunzătoare semnificațiilor cuvintelor individuale, expresiilor textuale sau serii sinonime. Astfel, elementele principale ale tezaurului sunt conceptele, expresiile limbajului, relațiile, expresia limbajului - concept, relațiile dintre concepte.

În tezaur, atât cunoștințele lingvistice - descrieri ale lexemelor, idiomurilor și conexiunile acestora, legate în mod tradițional de cunoștințele lexicale, semantice, cât și cunoștințele despre termeni și relații din cadrul materiilor, în mod tradițional legate de domeniul de activitate al terminologiștilor, descrise în tezaururile de regăsire a informațiilor. . Ca astfel de subdomenii de subiecte, tezaurul descrie domenii precum economie, legislație, finanțe, relații internaționale, care sunt atât de importante pentru viața de zi cu zi a unei persoane încât au o reprezentare lexicală semnificativă în dicționarele explicative tradiționale. În ele, lexicale și terminologice sunt puternic interconectate și interacționează puternic între ele.

Expresiile limbajului sunt lexeme separate (substantive, adjective și verbe), grupuri nominale și verbale. Astfel, tezaurul nu include acum adverbe și cuvinte auxiliare ca expresii lingvistice. Grupurile cu mai multe cuvinte pot include termeni, idiomuri, funcții lexicale ( influență e).

Pentru fiecare expresie de limbă, sunt descrise următoarele:

Ambiguitatea sa este conexiunea cu unul sau mai multe concepte, ceea ce înseamnă că o anumită expresie lingvistică poate servi ca expresie textuală a acestui concept. Atribuirea unei expresii lingvistice unor concepte diferite este, de asemenea, un indiciu implicit al ambiguității acesteia;

Compoziția sa morfologică (parte de vorbire, număr, caz);

Caracteristicile scrisului (de exemplu, cu majuscule) etc.

Fiecare concept de tezaur are un nume unic, o listă de expresii lingvistice prin care acest concept poate fi exprimat în text, o listă de relații cu alte concepte.

Ca nume unic pentru un concept, se alege de obicei una dintre expresiile sale textuale fără ambiguitate. Dar numele conceptului poate fi format și dintr-o pereche de expresii sale textuale ambigue - sinonime scrise cu virgulă și care îl definesc în mod unic (de exemplu, conceptul GRASĂ, GRASĂ). O expresie textuală ambiguă a numelui unui concept poate fi, de asemenea, furnizată cu o etichetă sau cu un fragment de interpretare scurtat, de exemplu, conceptul MULTIME (GRUPUL DE OAMENI).

  1. Exemplu de intrare de dicționar

Am ales ca exemplu intrarea din dicționar a conceptului PĂDURE corespunzând unuia dintre sensurile cuvântului pădure. Această intrare din dicționar este interesantă deoarece include diferite tipuri de cunoștințe denumite în mod tradițional cunoștințe lexicale (semantice) și cunoștințe enciclopedice (cunoștințe despre domeniul subiectului, terminologie).

Sinonime pentru concept PĂDURE(total 13):

pădure(M), zonă de pădure, mediu forestier,

pădure, cartier de pădure, peisaj forestier,

zonă de pădure, pădure, împădurită,

zonă brută de pădure, pădure,

șir de păduri.

Următorii termeni cu sinonime:

JUNGLĂ(junglă);

PARC PĂDURĂ(gradina orasului, zona verde,

masiv verde, parc forestier,

silvicultură, silvicultură

centura, parcM), zona parc);

VÂNATOARE PĂDURĂ;

pădure de foioase(pădure de rasinoase, foioase

pădure);

DUMBRAVĂ(pădure de stejar);

PĂDURĂ DE CONIFERE (masiv de conifere, pădure de conifere întunecată)

Concepte-părți cu sinonime:

BORELOM (bloc de vânt, de vânt);

cădere(zona de tăiere);

CULTURA PĂDURILOR(specii forestiere, silvicultură

cultură);

PĂDURĂ (terenuri ale fondului forestier; terenuri acoperite cu

pădure; teren forestier, suprafata de padure;

teren împădurit, împădurit

zonă,);

PĂDURE(plantații forestiere, plantații forestiere,

împădurire);

MIZIA PĂDURII(marginea, marginea);

TUPOF (tufăr);

PROSECA;

TEREN USCAT(uscat).

Aici, simbolurile (M) reflectă semnul ambiguității introducerii textului.

concept PĂDURE are și alte relații, așa-numitele relații de dependență (în versiunea modernă se numesc ASC 2 - asociere asimetrică): INCENDIU DE PĂDURE(incendiu de pădure, incendiu în pădure; GESTIONAREA PĂDURILOR (folosirea pădurilor, utilizarea parcelelor fond forestier); PROPRIETATEA PĂDURILOR; ȘTIINȚA PĂDURILOR (știința pădurilor). După cum sa menționat deja în paragraful 2, conceptul de PĂDURE depinde de conceptul de ARBOR, care în tezaur este notat cu relația ASC 1 .

Întregul concept PĂDURE este direct legată de alte 28 de concepte, ținând cont de tranzitivitatea relațiilor - cu 235 de concepte (mai mult de 650 de intrări de text în total).

  1. Evaluarea stadiului tehnicii

Tezaur al limbii ruse RuThez

5.1. Compoziția lexicală

În prezent, în rețeaua tezaurului sunt incluse peste 95 de mii de expresii lingvistice, dintre care 61 de mii sunt cu un singur cuvânt.

Această cantitate de muncă ne-a făcut să decidem ce cuvinte și expresii lingvistice ar trebui incluse în descrierile tezaurului. Dorința firească a fost de a vedea cum cele mai frecvente cuvinte ale limbii ruse sunt reprezentate în tezaur. Pentru aceasta s-a folosit colecția de texte a Sistemului Informațional Universitar RUSIA (400 mii documente). Colecția conține documente oficiale ale diferitelor organisme ale Federației Ruse (55 de mii de documente din 1992), precum și materiale de presă din 1999 (ziare Izvestia, Nezavisimaya Gazeta, Komsomolskaya Pravda, Argumente și fapte, revista Expert și altele), materiale științifice. reviste (Buletinul Universității din Moscova, Jurnalul de Sociologie). S-a făcut comparația între lista de leme incluse în Tezaur și lista celor mai frecvente 100.000 de leme din colecția de texte (frecvență mai mare de 25).

Marcarea lexicală a listei a arătat că dintre aceste sute de mii de leme, 35 de mii sunt descrise în RuThes, doar aproximativ 7 mii de lexeme merită să fie incluse în tezaur, restul sunt variante lematice ale diferitelor nume proprii. Prin urmare, reaprovizionarea a încetat să fie o prioritate și se realizează treptat, începând cu cuvintele cele mai frecvente. Se presupune că, de îndată ce această listă este practic epuizată, se va efectua următoarea comparație cu matricea de text a sistemului informațional, vor fi selectate noi jetoane cu o frecvență mai mare de 25. În plus, pragul de vizualizare ar trebui să fie redus. Prezența în colecția de texte a unui număr mare de exemple de text vă permite să răspundeți rapid la „noutățile lexicale” (de exemplu, instalare,blockbuster, monde frumos, thriller) și includeți-le în locurile corespunzătoare din sistemul ierarhic al tezaurului.

Lucrul constant cu colecția actuală de texte oferă oportunități unice de a testa semnificația și calitatea descrierilor lexicale oferite în dicționare. De exemplu, o frecvență neobișnuit de mare de utilizare a cuvântului Mama Vezi(de peste 400 de ori). Verificarea față de matrice a arătat că cuvântul este într-adevăr adesea folosit ca sinonim pentru cuvânt Moscova, în timp ce dicționarele explicative marchează adesea acest cuvânt ca fiind învechit. Un alt exemplu de cuvânt folosit frecvent (de peste 300 de ori) marcat ca învechit în dicționare este cuvântul fericită.

5.2 Descrierea semnificațiilor cuvintelor

O comparație cu colecția de text arată că multe dintre cuvintele de frecvență din matrice sunt bine reprezentate în tezaur în cel puțin una dintre valorile lor (de obicei de bază). A afla în ce măsură gamă de semnificații ale cuvintelor polisemantice ale limbii ruse este reprezentată în tezaur este sarcina noastră principală în prezent.

După cum știți, diferite surse de dicționar oferă adesea un set diferit de semnificații pentru cuvintele polisemantice, disting nuanțe de semnificații și același tip de polisemie poate fi descris diferit pentru cuvinte diferite chiar și în același dicționar. Prin urmare, sarcina unei descrieri consistente și reprezentative a semnificațiilor lexemelor este o sarcină importantă pentru creatorii oricărei resurse de dicționar.

Cu toate acestea, dacă resursa este destinată procesării automate, atunci sarcina unei descrieri echilibrate a valorilor devine mult mai importantă. Umflarea excesivă a valorilor poate duce la incapacitatea sistemului informatic de a selecta valoarea dorită, ceea ce duce, la rândul său, la o scădere semnificativă a eficienței sistemului de procesare a textului. Deci, unul dintre dezavantajele resursei WordNet ca resursă pentru procesarea automată a textului este numărul excesiv de valori descrise pentru unele cuvinte (în WordNet 1.6: 53 de valori pentru alerga.47 pentru Joaca etc.). Aceste semnificații sunt greu de distins chiar și pentru o persoană atunci când adnotează semantic texte. Este clar că și sistemul informatic nu poate face față alegerii unei valori adecvate. Prin urmare, diferiți autori propun diferite modalități de combinare a valorilor pentru a îmbunătăți calitatea prelucrării.

În același timp, factorul opus acționează: dacă valorile diferă într-adevăr în setul lor de legături de vocabular (în cazul nostru, legături de tezaur) - nu pot fi lipite într-o singură unitate (un singur concept) - acest lucru va duce, de asemenea, la un deteriorarea calității prelucrării automate.

Luați în considerare, de exemplu, cuvintele şcoalăși biserică, fiecare dintre acestea putând fi considerată ca o organizație și ca o clădire.

Fiecare organizație școlară are o clădire (cel mai adesea una). Toate părțile clădirii școlii (săli de clasă, tabele) sunt legate de şcoală ca organizatie. Nu există tipuri specifice de clădiri școlare. Prin urmare descrierea scoli ca clădiri, este nepotrivit să se identifice ca un concept separat. Cu toate acestea, descrierea unui astfel de concept cumulativ ŞCOALĂ ca organizaţie şi ca clădire trebuie să aibă o relaţie special concepută cu conceptul CLĂDIREA. Când descrieți astfel de relații în tezaur, se folosește un semn pe relație - modificatorul „A” („aspect”, în analiza automată, pentru a ține cont de această relație, este necesară „confirmarea” de către alte concepte).

ŞCOALĂ

SUPERIOR INSTITUȚIE EDUCAȚIONALĂ

SUS A CLĂDIRE PUBLICĂ

Sensuri relevante ale cuvintelor biserică nu atât de aproape. biserici Cum o organizație poate avea un număr mare de clădiri bisericești în diferite locuri și, de asemenea, să aibă multe alte clădiri. zidirea bisericii strâns asociat cu religia și confesiunea, dar poate schimba apartenența la organizarea bisericilor. biserica-organizatieși zidirea bisericii au subspecii diferite. Asa de BISERICA (ORGANIZARE) și BISERICA (CLĂDIREA) sunt prezentate în RuThes ca concepte diferite.

Divergența semnificativă în relațiile tezaurului se corelează într-un mod interesant cu capacitatea denotațiilor corespunzătoare semnificațiilor de a exista separat unele de altele. Astfel, clădirea bisericii nu încetează să existe și chiar să fie numită biserică chiar și atunci când se schimbă uzul, spre deosebire de clădirea școlii.

Procesul de reconciliere a reprezentării valorilor în Tezaur se desfășoară constant, începând cu cele mai frecvente leme. Pentru fiecare simbol de frecvență, se verifică modul în care valorile sale sunt descrise în dicționarele explicative, ce valori sunt utilizate în colecție și cum sunt prezentate în tezaur. Ca urmare, s-a format o listă de 10.000 de lexeme, a căror ambiguitate necesită încă fie o analiză suplimentară, fie o descriere suplimentară. Lista se bazează pe 30 de mii dintre cele mai frecvente leme.

De remarcat că în Tezaur problema ambiguității este parțial înlăturată datorită faptului că relațiile de tezaur pot fi descrise între diferitele sensuri ale unui cuvânt și, prin urmare, este posibil să se aleagă cel mai înalt concept din ierarhie în mod implicit. Cu siguranță s-a discutat în text. De exemplu, cuvântul fotografie are trei semnificații: fotografia ca domeniu de activitate, fotografia ca fotografie, fotografia ca studio foto:

FOTOGRAFIE(fotografiend, fotografie, ..., fotografie )

PARTE IMAGINE FOTOGRAFICĂ

(o fotografie, fotografie, fotografie )

PARTE STUDIO FOTOGRAFIC (fotografie ).

Astfel, dacă nu a fost posibil să ne dăm seama ce sens este folosit cuvântul fotografie, valoarea implicită este considerată a fi o fotografie (proces, rezultat sau locație), ceea ce este suficient pentru multe aplicații automate de procesare a textului.

  1. Aplicarea tezaurului RuThes

pentru procesarea automată a textului

Din 1995, terminologia socio-politică RuThes (tezaurul socio-politic) a fost utilizată în mod activ și cu succes pentru diverse aplicații de prelucrare automată a textului, precum indexarea conceptuală automată, clasificarea automată folosind mai multe rubricatoare, adnotarea automată a textelor, inclusiv în limba engleză.. Tezaurul socio-politic (27.000 de concepte, 62.000 de intrări de text) este instrumentul de căutare de bază în sistemul de căutare UIS RUSSIA (www.cir.ru).

Întregul vocabular al tezaurului RuThes este utilizat în procedurile de rubricare automată a textelor după titluri ierarhice complexe. În tehnologia existentă, fiecare rubrică este descrisă ca o expresie booleană a termenilor, după care formula originală este extinsă de-a lungul ierarhiei tezaurului. Expresia booleană rezultată poate include deja sute și mii de conjuncții și clauze.

Ca exemplu, să dăm un fragment din descrierea în termeni de concepte de tezaur (și expresii de limbaj după extinderea formulei) a rubricii „Imaginea unei femei” a rubricatorului SOFIST 2 utilizat de VTsIOM pentru clasificarea sondajului de opinie publică. chestionare:

(FEMEIE[N]

|| FATA[N]

|| RADA[L] (bunica, nepoata, verisoara,

fiica, cumnata, mama, mama vitrega, nora, fiica vitrega, ...))

(TRASĂTĂ DE CARACTER[L] (economisitor, lipsit de inimă, uituc,

frivol, batjocoritor, intolerant, sociabil, ...)

|| IMAGINE[E] (reprezentare, aspect, aspect,

aspect, formă, imagine, aspect)

|| PLĂCUT[L] (..., interesant, frumos, drăguț,

atrăgător, atrăgător, drăgător, ...)

|| NEPLĂCUT[L] (nesimpatic, nepoliticos, urât, ...)

|| VALOARE [L] (respecta, idolatrizează, adoră,

închinare, închinare, ...)

|| PREFER[N]

Simbolul "E" denotă extinderea completă de-a lungul ierarhiei tezaurului, simbolul "L" - în funcție de relațiile dintre specii ("JUS"), simbolul "N" - nu se extind.

Se efectuează cercetări privind dezvoltarea unei tehnologii combinate pentru clasificarea automată a textului care combină cunoștințele tezaurului și procedurile de învățare automată.

Problemele de utilizare a unui tezaur pentru a extinde o interogare formulată în limbaj natural (acum doar partea socio-politică a tezaurului este folosită pentru a extinde interogarea terminologică în sistemul de regăsire a informațiilor al UIS RUSSIA), căutarea răspunsurilor la întrebări în larg culegeri de texte.

7. Concluzie

Lucrarea prezintă principiile de bază ale dezvoltării resurselor lingvistice pentru prelucrarea automată a colecțiilor mari de texte. Resursa lingvistică creată - RuThez Russian Thesaurus - este destinată utilizării în astfel de aplicații de procesare automată a textului, cum ar fi indexarea conceptuală a documentelor, clasificarea automată prin titluri ierarhice complexe, extinderea automată a interogărilor în limbaj natural.

Această lucrare este susținută parțial de Fundația Rusă pentru Științe Umaniste, grant nr. 00-04-00272a.

Literatură

  1. Lukashevich N.V., Saliy A.D., Reprezentarea cunoștințelor în procesarea automată a textului //NTI, Ser.2. 1997. Nr 3. S. 1-6.
  2. Zhuravlev S.V., Yudina T.N., Sistemul informatic RUSIA //NTI, Ser.2. 1995. Nr 3. S. 18‑20.
  3. Winston M., Chaffin R., Herman D., A Taxonomie of Part-Whole Relations // Știința cognitivă. 1987. nr. 11. P. 417-444.
  4. Priss U.E., The Formalization of WordNet by Methods of Relational Concept Analysis // WordNet. O bază de date lexicală electronică / Ed. de C. Fellbaum. Cambridge, Massachusetts, Londra, Anglia.: The MIT Press 1998. P. 179-196.
  5. Guarino N., Welty C., O ontologie formală a proprietăților // Proceedings of the ECAI-00 Workshop on Applications of ontologies and Problem Solving Methods. Berlin: 2000. P. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Câteva principii ontologice pentru proiectarea resurselor lexicale de nivel superior // First Int. Conf. privind resursele lingvistice și evaluarea. 1998.

  1. LukashevichN.V., Dobrov B.V., Modificatori ai relațiilor conceptuale în tezaurul pentru indexare automată // NTI, Ser.2. 2000, nr. 4, S. 21-28.
  2. Marele Dicționar explicativ al limbii ruse / Ed. S.A. Kuznetsova. Sankt Petersburg: Norint, 1998.
  3. Ozhegov S.I., Shvedova N.Yu., Dicționar explicativ al limbii ruse - ediția a III-a. M.: Az, 1996.
  4. Apresyan Yu.D., Lucrări alese, volumul I. Semantică lexicală: ed. a II-a. M.: Școala „Limbi ale culturii ruse”, Ed. Firma „Literatura Răsăriteană” RAS, 1995.
  5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross și K. Miller, Five papers on WordNet, CSL Report 43. Cognitive Science Laboratory, Princeton University, 1990.
  6. Chugur, J. Gonzalo și F. Verdjeo, Sense distinctions in NLP applications // Proceedings of “OntoLex-2000”: Ontologies and Lexical Knowledge Bases. Sofia: OntoTextLab. 2000.
  7. Loukachevitch N., Dobrov B., Rezumat tematic structural bazat pe tezaur în sistemele informaționale multilingve // ​​Revizuirea traducerii automate. 2000 nr. 11. P. 10-20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Tezaurul limbii ruse pentru procesarea limbajului natural

de colecții mari de texte

Natalia V. Loukacevici, Boris V. Dobrov

Cuvinte cheie: tezaur, procesare a limbajului natural, regăsire informațională

În prezentarea noastră luăm în considerare principiile principale ale dezvoltării resurselor lexicale pentru procesarea automată a colecțiilor mari de texte și descriem structura tezaurului limbii ruse, care este dezvoltat din 1997 special ca instrument pentru procesarea automată a textului. Acum Tezaurul este o rețea ierarhică de 42 de mii de concepte. Descriem stadiul actual al Tezaurului dezvoltând în comparație cu 100.000 de leme cele mai frecvente ale colecției de texte a Sistemului Informațional Universitar RUSIA (www.cir.ru), inclusiv 400 de mii de documente. De asemenea, avem în vedere utilizarea Tezaurului în diferite aplicații de procesare automată a textului.

Unul dintre noile concepte de bază care a apărut ca urmare a dezvoltării metodelor automate de prelucrare a informațiilor, în special, la traducerea dintr-o limbă în alta, căutarea de informații științifice și tehnice și crearea unui model informațional al unei întreprinderi în sisteme de control automatizate. , a fost conceptul de tezaur al sistemului informatic. Termenul „tezaur” implică un corp de cunoștințe despre lumea exterioară - acesta este așa-numitul tezaur al lumii T. Toate conceptele lumii exterioare, exprimate folosind limbajul natural, constituie un tezaur, din care tezaururile private pot fi se disting prin împărțire ierarhică, ținând cont de subordonarea conceptelor individuale sau prin evidențierea părților tezaurului general al lumii. Tezaurul în sistemele de regăsire a informațiilor joacă un rol important în găsirea documentului dorit prin cuvinte cheie. Prin urmare, construirea unui tezaur este o sarcină complexă și responsabilă. Dar această sarcină poate fi și automatizată.

Clasificarea în definiția sa cea mai generală este împărțirea și ordonarea mulțimilor. Se numește repartizarea obiectelor în clase pe baza unei trăsături comune inerente acestor fenomene sau obiecte și diferențierea lor de obiectele și fenomenele care alcătuiesc alte clase. Dacă este necesar, fiecare clasă poate fi împărțită în subclase. Rubricatorul este un tip special de clasificare. Prin urmare, acestea sunt create pe baza prevederilor generale:
 baza științifică pentru construirea unei clasificări;
 reflectarea nivelului modern de dezvoltare a științei;
 disponibilitatea unui sistem de legături și referințe, precum și a unui aparat de referință (RSA).

Totuși, rubricatorul este o clasificare pragmatică, creată pe baza fluxurilor de informații și a nevoilor specialiștilor. Aceasta este diferența sa față de clasificări a priori precum UDC și IPC.

Principalele funcții ale clasificărilor și, în special, ale rubricatorului sunt următoarele:
 diferenţierea tematică a subsistemelor informaţionale;
 formarea de tablouri de informaţii după orice semne;
 sistematizarea materialelor informaţionale şi a publicaţiilor;
 căutare curentă şi retrospectivă;
 indexarea documentelor și a interogărilor;
 conectarea cu alte scheme de clasificare;
- funcţii normative.

Ele sunt construite prin împărțirea conceptelor - obiecte de clasificare pe baza relațiilor stabilite între trăsăturile acestor obiecte în conformitate cu anumite principii logice. Atributul prin care se face clasificarea se numește baza de împărțire a clasificării. Clasificările folosesc pe scară largă metode de deducție și de inducție pentru a stabili grupuri, clase și pentru a identifica relațiile dintre ele. Acest lucru este tipic pentru clasificările ierarhice. Profunzimea clasificării (numărul de niveluri ierarhice) poate varia în funcție de scop. Unul dintre rubricatoarele utilizate pe scară largă este Rubricatorul de stat de informații științifice și tehnice (SRSTI).

Rubricatorul SRSTI este proiectat astfel încât să poată fi utilizat împreună cu alte clasificări precum UDC și IPC. Clasificarea zecimală universală (UDC) există de mai bine de 70 de ani, dar este încă de neegalat în ceea ce privește amploarea sa de distribuție și este folosită în multe țări din întreaga lume. UDC acoperă întregul univers al cunoașterii și este utilizat cu succes pentru sistematizare și căutarea ulterioară a unei game largi de surse de informații.

Pe lângă UDC, clasificarea bibliotecă-bibliografică (LBC) este utilizată pe scară largă în practică. LBC este construit pe principiile subordonării logice și reprezintă o clasificare de tip aplicată.
În Federația Rusă, pentru a clasifica invențiile și a sistematiza colecțiile interne de descrieri ale invențiilor, se utilizează clasificarea internațională a brevetelor - o clasificare cu mai multe aspecte destul de complexă, construită conform principiului funcțional-industriei. Aceleași concepte tehnice pot fi în IPC sau clase speciale (după industrie) sau clase funcționale (după principiul de acțiune). Principiul sectorial al distribuției conceptelor presupune clasificarea obiectelor în funcție de aplicarea într-una sau alta ramură a tehnologiei dezvoltată istoric, tehnologia.

Caracteristicile comparative ale rubricatorului SRNTI, UDC, LBC și IPC sunt prezentate în Tabelul 1.

tabelul 1
Caracteristicile rubricatorului SRNTI, UDC, LBC și IPC

Nume

Structura

Principiul amplasării diviziilor

Schema de partiții

Ierarhic

Industrie

De la general la specific

Ierarhic

Tematic

Ierarhic

Funcțional-industrie

De la general la specific

LBC pentru biblioteci științifice

Ierarhic

Industrie

De la general la particular, după tip


Astfel, putem evidenția principalele caracteristici distinctive ale rubricatoarelor și clasificatoarelor:
 se caracterizează prin natură aplicativă şi orientare sectorială;
 sunt sisteme deschise care depind de dezvoltarea științei și tehnologiei, de nevoile și cerințele specialiștilor;
 sisteme anorganice, deoarece obiectele iau naștere și se dezvoltă în mediu și din acesta pătrund în ele. Elementele pot exista independent în afara sistemului. Această caracteristică este strâns legată de a doua caracteristică;
 elementul minim este conceptul asociat mediului. Conceptul reprezintă un sistem de definiții;
 între concepte există conexiuni atât de-a lungul „verticalei” (gen-specie, întreg-parte) cât și de-a lungul „orizontalei” (vedere-vedere, parțial-parte), ceea ce indică ierarhia sistemelor.

În consecință, structura și principiile de organizare a clasificărilor și a rubricatorilor fac posibilă automatizarea procesului de construire a tezaurilor dintr-o zonă de subiect folosind metoda deducției. Algoritmul pentru construirea unui tezaur folosind metoda deducției este prezentat în fig. unu.

Baza formării tezaurului este imaginea de căutare a documentului, sarcina sau aplicația de căutare a informațiilor, completată de operator. Prin urmare, primul pas este cercetarea și analiza aplicației. În prima etapă, operatorul indică subiectul sau problema de interes, posibilele cuvinte cheie și sinonimele acestora. Drept urmare, ne facem o idee superficială a domeniului subiectului.

Orez. 1. Algoritm pentru construirea unui tezaur folosind metoda deducției

În plus, se formează un tezaur de cuvinte cheie CS folosind metoda deducerii, care necesită:
 CS array, care este setat de către utilizator însuși, indicat în Figura 1 ca MP;
 CS array extras din sarcina de căutare, respectiv, MZ.

Cu toate acestea, pentru o înțelegere mai completă și mai aprofundată a domeniului subiectului, folosim rubricatoare și scheme de clasificare existente (GRNTI, UDC, LBC, IPC). Pentru a maximiza acoperirea domeniului subiectului, este necesar să le vizualizați pe toate cele disponibile. Gama de rubricatoare reprezintă MR. Algoritmul de căutare a deducțiilor constă în doi pași:
1. Găsirea conceptelor generice (Fig. 2);
2. Găsirea termenilor specifici în cadrul conceptelor generice (Fig. 3).


Orez. 2. Prelucrarea unui concept generic

Încărcăm primul rubricator din matrice și organizăm un ciclu de verificare a prezenței în rubricatoare a CS-ului introdus de utilizator. Fiecare CS este căutat în rubricator și comparat cu un concept generic sau „cuib”, apoi se verifică condiția - există un link către termenii specifici. Dacă există o astfel de referință, atunci CS este comparată cu termenii specifici. Dacă linkul nu este găsit, mergeți la următorul concept generic. Când sunt vizualizate cuvintele cheie ale CS introduse de operator, trecem la matricea de CS extrase din sarcină. Procedura de verificare este similară - căutăm CS-uri corespunzătoare conceptelor generice, iar apoi legăturile acestora către termeni specifici.


Orez. 3. Prelucrarea termenilor generici

Rețineți că în cadrul fiecărui concept generic, este important să revizuiți toți termenii generici disponibili pentru a obține o înțelegere maximă a zonei problemei. Rezultatul acestor acțiuni este formarea unei matrice de cuvinte cheie CS, care este un tezaur complet corespunzător sarcinii de căutare a informațiilor sau imaginii de căutare a documentului.

Pe baza unui set complet de imagini de căutare ale documentelor (să-l notăm), este posibil să se creeze tezaure de ramuri și un singur clasificator de bibliotecă. Evident, setul complet  în sine reprezintă cel mai simplu tezaur.

Cu toate acestea, folosind criteriul de selecție
, (1)
putem construi tezaure industriale. În acest caz, setul tuturor tezaurilor de ramuri formează un tezaur complet
, (2)
ale căror secțiuni pot fi structurate ierarhic în conformitate cu cerințele GOST-urilor pentru principalele clasificatoare (GRNTI, UDC, LBC, IPC) sau pentru un clasificator unificat intern.

Automatizarea procesului de construire a unui tezaur și de clasificare face posibilă facilitarea cât mai mult posibil a muncii unui operator care lucrează cu resurse de informații distribuite.

Pe lângă construirea unui tezaur, bazat pe imaginea de căutare a unui document, abordarea propusă poate fi utilizată pentru rezumarea automată a documentelor și gruparea textului.

Rezumarea documentelor este una dintre sarcinile care vizează furnizarea specialiștilor-experți cu informații fiabile necesare pentru luarea unei decizii de management asupra valorii documentelor primite de pe Internet. Abstracția este procesul de conversie a informațiilor documentare, care culminează cu compilarea unui rezumat, iar un rezumat este o prezentare adecvată din punct de vedere semantic a conținutului principal al documentului primar, care se distinge prin designul economic al semnelor, constanța caracteristicilor lingvistice și structurale și destinat să realizeze diverse funcţii de informare şi comunicare în sistemul de comunicare ştiinţifică. Algoritmul de referință a documentului este prezentat în fig. 4.


Orez. 4. Algoritm de sintetizare a documentelor

În general, algoritmul include următorii pași principali.
1. Propozițiile sunt extrase dintr-un document descărcat de pe Internet și localizat în depozitul de date prin extragerea semnelor de punctuație și stocarea lui într-o matrice.
2. Fiecare propoziție este împărțită în cuvinte prin selectarea separatorilor, iar noi le stocăm într-o matrice, iar matricea este diferită pentru fiecare propoziție.
3. Pentru fiecare propoziție, pentru fiecare cuvânt din această propoziție, numărăm numărul de cuvinte din alte propoziții (înainte și după). Suma repetărilor pentru fiecare cuvânt (înainte și după) va fi ponderea acestei propoziții.
4. Numărul dat de propoziții cu coeficientul maxim de pondere și selectați în rezumat în ordinea apariției în text.

Modelul propus pentru construirea unui tezaur și cataloage tematice ale unui sistem informațional reprezintă o bază teoretică pentru automatizarea căutării semantice și permite unui expert de specialitate nu numai să efectueze lucrări de căutare, ci și într-un mod automatizat, documente abstracte obținute ca urmare a căutării. în sistemele informatice distribuite ale internetului.

Literatură:
1. Barushkova R.I. Scheme de clasificare a informațiilor științifice și tehnice. Proc. indemnizatie. - M., 1981. - Anii '80.
2. Barushkova R.I. Rubricator ca schemă de clasificare a informațiilor științifice și tehnice. Trusa de instrumente. - M., 1980. - 38 de ani.
3. Trusov A.V., Babarykin E.P. Evaluarea limitelor zonei de solicitare a informațiilor tematice în sistemele informaționale distribuite. Materiale ale Conferinței panrusești (cu participare internațională) „Informații, inovații, investiții”, 24-25 noiembrie 2004, Perm / Perm CSTI. - Perm, 2004. - S.76-79.
4. Yatsko V.A. Probleme logico-lingvistice de analiză și abstractizare a textului științific. - Abakan: editura statului Khakass. un-ta, 1996. - 128 p.


închide