BERT – algoritmul Google pentru înțelegerea limbajului natural, conversațional

BERT (Bidirectional Encoder Representations from Transformers) este un algoritm Google de învățare, înțelegere și procesare a limbajului natural. BERT ajută mașina de învățare Google să înțeleagă sensul cuvintelor dintr-o propoziție, cu toate nuanțele contextului, în mod special la nivel conversațional. BERT ajută Google să returneze răspunsuri relevante, atât la căutările scrise, cât și la căutările vocale. BERT este, de asemenea, un proiect de cercetare și inovație academică.

Proiectul a fost făcut public în Octombrie 2018, cu denumirea “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, semnat de Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova – Cornell University

BERT denumește un framework, de tip open-source, de procesare a limbajului NLP (Neuro-Linguistic Programming) realizat de Google și care poate fi folosit în diferite domenii, pentru înțelegerea limbajului natural, a comunicării. De aceea, vom auzi sau vom citi despre BERT în diferite situații, dar nu va fi vorba de update-ul Google întotdeauna.

Multe companii preocupate de AI (inteligența artificială) au dezvoltat și ele versiuni ale tehnologiei BERT:

– Microsoft extends on BERT with MT-DNN (Multi-Task Deep Neural Network).

– RoBERTa from Facebook.

– SuperGLUE Benchmark was created because the original GLUE Benchmark became too easy.

Ce probleme rezolvă algoritmul BERT pentru motorul de căutare Google

Problema sensului cuvintelor în contextul comunicării, al conversației, este cea pe care cei doi algoritmi Google, BERT și RankBrain, încearcă să o rezolve. Avem tot mai mult conținut, accesibil de oriunde și oricând, iar problema înțelegerii corecte a cuvintelor este frecventă și greu de rezolvat. Dacă polisemia și sinonimia, cuvintele omonime și omofone sau omografe sunt înțelese ușor și firesc de oameni, pentru roboți lucrurile nu sunt la fel de simple.

De aceea a fost conceput BERT, o tehnologie bazată pe inteligența artificială, care încearcă să rezolve aceste probleme ale înțelesului cuvintelor, în sensul intrepretării corecte a enunțurilor, mai ales în cazul cuvintelor cu sensuri multiple, a celor care se pronunță la fel și se scriu diferit…

Diferența dintre recunoașterea limbajului și înțelegerea sensului

Natural Language Understanding implică înțelegerea de către roboți a sensului contextual al cuvintelor, acel sens comun, obișnuit, pe care oamenii îl știu sau îl intuiesc natural, firesc. Aceasta este marea provocare a tehnologiilor bazate pe inteligența artificială și mașina de învățare.

De asemenea, Natural Language Understanding nu înseamnă Structured Data (date structurate); organizarea informației pe baza tehnicilor de date structurate nu rezolvă și problema înțelegerii corecte a cuvintelor în contextual utilizării acestora.

Citește și: Date Structurate: ce sunt, cum funcționează și cum le implementăm

Cuvintele folosite individual nu înseamnă nimic, practic nu au sens, au nevoie de un context, pentru a căpăta un sens. Asocierea cuvintelor înseamnă legătura gramaticală și lexicală dintre acestea într-un text; astfel, cuvintele asociate, capătă un înțeles și transmit un mesaj.

Cum funcționează algoritmul sau tehnologia de înțelegere BERT

Diferența dintre BERT și tehnologiile de până acum în domeniul intrepretării limbajului este bidirecționalitatea.

Modul de funcționare al lui BERT este bidirecțional, în sensul că poate interpreta un enunț, luând în calcul toate cuvintele din acesta în ambele sensuri: de la stânga la dreapta și invers.

Celelalte metode de interpretare a limbajului au funcționare unidirecțională, astfel că nu puteau să asocieze un cuvânt cu altele anterioare din enunț.

Rolul lui BERT este să rezolve o serie de probleme legate de înțelegerea limbajului uman natural: determinarea sensului exact al cuvintelor într-un context anume, legătura cu enunțul următor și predictibilitatea sau co-referința, dezambiguizarea textului, legatura semantică a cuvintelor, rezolvarea polisemiei, sumarizarea automată.

Algoritmul BERT este capabil să analizeze și să înțeleagă un text, în ansamblul său, astfel încât să poată să facă legătura semantică între cuvinte. Este un proces de transformare a textului – codificarea și decodificarea cuvintelor – prin predicție și citirea textului în ambele sensuri (bi-directional pre-training).

BERT îmbunătățește funcționarea motorului de căutare Google

Update-ul BERT îmbunătățește modul în care Google înțelege căutările utilizatorilor în motorul de căutare: analizează interogările / căutările, nu paginile web.

Google ne spune că BERT nu vine ca un update care să penalizeze paginile web, este doar o tehnologie inteligentă care va înțelege mai bine conținutul site-urilor, căutările scrise sau vocale ale utilizatorilor, și ca urmare Google va returna rezultate mult mai relevante și precise la aceste căutări.

Cu toate acestea, specialiștii SEO spun că trebuie să fim atenți în continuare la modul în care realizăm conținutul text al paginilor web și cum folosim cuvintele cheie, astfel încât sensul acestora să fie clar, în contextul respectiv.

RankBrain funcționează în continuare și este completat de BERT

RankBrain a fost prima tehnologie Google bazată pe inteligența artificială, lansată în 2015, prin care motorul de căutare încerca să înțeleagă mai bine comportamentul și căutările utilizatorilor (sensul cuvintelor).

Algoritmul BERT nu va înlocui algoritmul RankBrain, ci este o tehnologie nouă care vine în completarea acestuia; BERT și RankBrain au impact asupra ranking-ului paginilor web în paginile de rezultate Google. Cei 2 algoritmi vor funcționa simultan sau alternativ:

“RankBrain can and will still be used for some queries. But when Google thinks a query can be better understood with the help of BERT, Google will use that. In fact, a single query can use multiple methods, including BERT, for understanding query.” Barry Schwartz on October 25, 2019  – Searchengineland.com

Google înțelege astfel și corectează (asociază cu forma corectă) atunci când se strecoară o greșeală de scriere sau asociază corect un cuvânt cu sinonimele acestuia, pentru că înțelege mai bine sensul cuvântului în funcție de context, cu ajutorul lui BERT; astfel, paginile web returnate ca rezultate ale căutărilor în Google vor fi mai relevante, mai precise.

Citește și: Despre RankBrain, inteligenţa artificială Google

Info + foto