L’évaluation des représentations multilingues : la clé pour étendre Posos à plusieurs langues
Pour analyser les questions des médecins et y répondre de la manière la plus précise possible, Posos utilise plusieurs modèles de machine learning. Nous avons déjà décrit certains d’entre eux en ce qui concerne l’extraction de termes médicaux (NER) et leur normalisation (NEL) dans un précédent article (ici). Ces modèles ont été entraînés sur de grandes quantités de textes en français, annotés par l’équipe de pharmaciens de Posos.
Sommaire
Posos a l’ambition de proposer son outil d’aide à la décision dans toutes les langues européennes. Les modèles d’extraction de termes médicaux et de leur normalisation ont vocation à être répliqués dans chacune de ces langues. Les travaux de l’équipe R&D de Posos éviteront ainsi d’avoir à reproduire le fastidieux travail d’annotation à chaque fois sur chacune de ces langues.
Depuis peu, certains de ces modèles sont capables de généraliser des tâches de traitement du langage d’une langue à l’autre. S’ils sont entraînés sur un dataset annoté, dans une langue donnée, nous obtenons de bons résultats dans cette langue mais également dans d’autres langues.
Dans de récents travaux de recherche, publiés par Posos à la conférence EGC [1], nous proposons une nouvelle méthode pour évaluer les capacités de ces modèles à produire des représentations multilingues alignées.
Capacité de généralisation multilingue
Ce travail de recherche s’est principalement appuyé sur le modèle mBERT. Il s’agit d’une version multilingue du modèle BERT, proposé en 2018 et devenu incontournable en traitement du langage [2]. Ce modèle de deep learning permet de retrouver des mots préalablement et aléatoirement masqués dans de larges quantités de texte. On appelle cette méthode d’entraînement le Masked Language Modelling (MLM). L’un de ses principaux avantages est qu’il n’est pas nécessaire de réaliser d’annotation manuelle pour entraîner ce modèle: on parle d’auto-supervision. La différence entre mBERT et BERT est simple: là où BERT est entraîné sur un large corpus uniquement en anglais, mBERT lui, est entraîné pour cet objectif de MLM sur du texte dans 104 langues.
Après ce pré-entraînement (à gauche dans l’image ci-dessus), mBERT montre des capacités de généralisation multilingue surprenantes. Ces dernières s'obtiennent en deux temps. D'abord, un ré-entraînement de mBERT sur une tâche d'analyse de texte sur des données annotées dans une langue donnée (au centre). Par exemple, sur un dataset d'extraction d'entités nommées (NER) en anglais, à l’image de celui que Posos a développé dans le domaine médical. Ensuite, une évaluation du modèle sur la même tâche, mais dans une autre langue (à droite), ici en français. Dans la littérature scientifique, plusieurs travaux [4,5] ont montré que cette évaluation dans une autre langue donnait de très bons résultats, sans avoir besoin d'entraîner le modèle sur la tâche visée dans la langue cible (le français dans notre exemple).
Construction de représentations alignées
mBERT pourrait avoir une autre utilité que de servir de base à un modèle d’extraction d’entités. Ainsi, l’équipe R&D de Posos explore actuellement l’utilisation directe de ce modèle pour normaliser ces entités. En effet, après son pré-entraînement, mBERT produit un vecteur pour chaque mot d’une phrase. Cette représentation dépend également du reste de la phrase: on parle de représentation (ou word embedding) contextualisée, à l’inverse d’une représentation statique où un mot se voit toujours attribuer la même représentation quel que soit son contexte.
Cependant, les capacités de généralisation cross-langue de mBERT ne garantissent pas que les représentations de mots ou de phrases qu’il produit soient alignées. Précisons un point : qu'est-ce qu'on entend par représentations alignées ? Ce qu'on veut, c'est que la représentation obtenue pour une phrase ou un mot soit proche de celle obtenue pour sa traduction. De telles représentations alignées pourraient ainsi permettre de construire des modèles multilingues de remontée de documents sans supervision. Nous avons souhaité valider que mBERT était capable de produire de telles représentations alignées.
Jusqu’à présent, il n’y a pas de consensus scientifique sur la question. Malgré les capacités de généralisations cross-langues, il a été montré que les représentations construites par mBERT comportent des composantes spécifiques à chaque langage [5]. D'autre part, plusieurs travaux ont comparé les représentations de phrases traduites et obtiennent des résultats contradictoires selon la manière de construire la représentation d'une phrase [4,6].
L’approche de Posos est différente et s’est focalisée sur la comparaison des représentations de mots plutôt que des représentations de phrases.
Comment construire des paires de mots traduites en contexte
Pour faire avancer la recherche sur les représentations multilingues, nous avons imaginé une méthode de construction de paires de mots traduits et replacés dans leur contexte. Cette méthode permet de mieux évaluer les qualités multilingues d’un modèle.
Notre travail repose sur deux jeux de données: un dataset de traduction (BUCC 2017) qui contient des paires de phrases traduites, et un dictionnaire bilingue (MUSE) qui contient des paires de mots traduits mais isolés. Dans les paires de phrases traduites, une extraction des paires de mots qui sont présentes dans le dictionnaire bilingue a été réalisée. Dans l'exemple ci-dessus, nous retrouvons la paire "rapide" et "fast" présente dans le dictionnaire et pour laquelle on peut fournir un contexte avec les deux phrases du dataset de traduction.
Par la suite, nous pouvons passer séparément chacune des phrases en entrée du modèle mBERT et comparer les représentations contextualisées des mots de la paire. De plus, mBERT étant construit comme un empilement de plusieurs blocs Transformer [3], il est possible de comparer les représentations construites par chacune de ces couches.
Compte tenu des potentielles variations de densité dans l'espace de représentation, nous avons utilisé une tâche de traduction de mots contextualisés par une recherche “par plus proche voisin”. Concrètement, pour chaque paire de mots contextualisés obtenue avec notre méthode, par exemple "fast" et "rapide", nous prenons 10 000 autres mots tirés au hasard dans une langue et nous vérifions que la représentation de "rapide" est plus proche de "fast" que tous les autres mots tirés au hasard.
Nous observons que pour les "meilleures" couches de mBERT, nous retrouvons la traduction dans plus de 90% des cas, et ceci même pour des paires de langues très différentes comme l'anglais et le mandarin. Et ces résultats sont comparables à des embeddings FastText alignés (en pointillés) qui sont reconnus pour l'alignement de leur représentation et fournissent donc une bonne baseline pour comparaison. Pour plus d'informations sur ces embeddings FastText alignés, nous avons publié un autre article qui s'étend plus en détail sur le sujet (ici).
Nous observons un meilleur alignement sur des couches plus profondes par rapport à celles qui sont plus proches de l'entrée du modèle. Cela semble indiquer que l'alignement multilingue est une caractéristique "haut-niveau" construite par le modèle.
Conclusion et travaux futurs
L'évaluation à l'échelle du mot ou du sous-mot plutôt qu'à l'échelle de la phrase montre que pour certaines couches du modèle, la qualité de la représentation multilingue est comparable voire meilleure que celle d'embedding multilingues habituellement utilisés mais moins sophistiqués.
L’avancée majeure est que le modèle mBERT a permis à Posos de construire un modèle d’extraction d’entités (NER) qui obtient des résultats proches de l’état de l’art lorsqu’on l’évalue sur l’extraction de noms de maladie en anglais alors qu’on l'entraîne sur nos données en français (des résultats qui seront prochainement publiés).
Références
L’article ici est basé sur des travaux présentés à la conférence EGC 2022:
[1] Félix Gaschi, Alexandre Joutard, Parisa Rastin, Yannick Toussaint. Évaluation des propriétés multilingues d'un embedding contextualisé. EGC 2022
Un article qui introduit et décrit le modèle que nous évaluons:
[2] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL 2019
Ce modèle étant lui-même basé sur le mécanisme Transformer proposé dans l’article suivant:
[3] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need. NeurIPS 2017
Trois articles qui démontrent les capacités de généralisation cross-langues de mBERT:
[4] Telmo Pires, Eva Schlinger, Dan Garrette. How Multilingual is Multilingual BERT? ACL 2019
[5] Shijie Wu, Mark Dredze. Beto, Bentz, Becas: The Surprising Cross-Lingual Effectiveness of BERT. EMNLP 2019
[6] Jasdeep Singh, Bryan McCann, Richard Socher, Caiming Xiong. BERT is Not an Interlingua and the Bias of Tokenization. DeepLo 2019