NLP : Qwant présente un nouveau modèle BERT compact en langue française

Les équipes de recherche de Qwant franchissent une étape supplémentaire dans l’application des sciences à l’amélioration de la vie quotidienne avec la publication d’un nouveau modèle BERT.

Team Qwant

13 septembre 2021

2min

Avez-vous entendu parler du NLP ?

Le « Natural Language Processing » (Traitement Automatique des Langues, en français) est un domaine de recherche pluridisciplinaire appliqué visant à mettre au point des outils de traitement automatique des langues capables de répondre à une large gamme d’applications.

Parmi ces dernières, on retrouve un grand nombre d’applications utiles au quotidien et bien connues du grand public : la reconnaissance vocale, la compréhension de textes, la traduction, la classification thématique de documents, et bien d’autres encore.

Tout l’enjeu (et la beauté) du NLP est de faire comprendre le langage humain à des machines afin de leur permettre d’interagir avec nous. Si vous souhaitez en savoir plus sur cette technologie et les travaux menés par les équipes de Qwant, nous vous invitons à lire cet article qui faisait suite à la conférence Coling sur le sujet.

Avec la publication par Oralie Cattan, doctorante, et Christophe Servan, responsable scientifique chez Qwant et d’autres chercheurs d’un article de recherche portant sur l’utilisabilité des modèles BERT pour le français, les équipes de recherche de Qwant franchissent une étape supplémentaire dans l’application des sciences à l’amélioration de la vie quotidienne. Ces modèles compacts, moins gourmands en données, avaient jusqu’alors principalement été proposés en anglais.

Mais ce n’est pas tout ! Oralie et Christophe y présentent aussi un nouveau modèle BERT compact pour le français, développé au sein de Qwant, répondant au nom de « FrALBERT » et disponible sur HuggingFace. C’est une performance, puisque ce modèle compact, utilisant « seulement » 12 millions de paramètres, est un des rares modèle BERT compact applicable à la langue française à exister. De plus, il fut entraîné grâce à la puissance de calcul dont dispose Qwant en interne. Les deux principaux modèles BERT français existants jusqu’alors sont plus gros (+ de 110 millions paramètres !), et ont nécessité l’utilisation d’un supercalculateur (p.ex : Jean Zay ou à travers un partenariat avec un GAFAM).

Les équipes de Qwant s’unissent pour féliciter Oralie Cattan et Christophe Servan et réaffirmer leur attachement aux valeurs du progrès par la science et la connaissance.

Pour en savoir plus : publication scientifique: « On the Usability of Transformers-based models for a French Question-Answering task » / HuggingFace

Dans la même thématique