Avez-vous entendu parler du NLP ?

Le « Natural Language Processing » (Traitement Automatique des Langues, en français) est un domaine de recherche pluridisciplinaire appliqué visant à mettre au point des outils de traitement automatique des langues capables de répondre à une large gamme d'applications.

Parmi ces dernières, on retrouve un grand nombre d'applications utiles au quotidien et bien connues du grand public : la reconnaissance vocale, la compréhension de textes, la traduction, la classification thématique de documents, et bien d'autres encore.

Tout l'enjeu (et la beauté) du NLP est de faire comprendre le langage humain à des machines afin de leur permettre d'interagir avec nous. Si vous souhaitez en savoir plus sur cette technologie et les travaux menés par les équipes de Qwant, nous vous invitons à lire cet article qui faisait suite à la conférence Coling sur le sujet.

Avec la publication par Oralie Cattan, doctorante, et Christophe Servan, responsable scientifique chez Qwant et d'autres chercheurs d'un article de recherche portant sur l’utilisabilité des modèles BERT pour le français, les équipes de recherche de Qwant franchissent une étape supplémentaire dans l'application des sciences à l'amélioration de la vie quotidienne. Ces modèles, gourmands en données, n'avaient jusqu'alors été évalués qu'en anglais et sur des ensembles de données plus larges.

Mais ce n'est pas tout ! Oralie et Christophe y présentent aussi un modèle BERT compact pour le français, développé au sein de Qwant, répondant au nom de « FrALBERT » et disponible sur HuggingFace. C’est une performance, puisque ce modèle compact, utilisant « seulement » 12 millions de paramètres, est le seul modèle applicable à la langue française à avoir été créé par une entité privée. En effet, les deux modèles similaires existants jusqu'alors utilisaient non seulement un nombre conséquent de paramètres (+ de 110 millions !), mais ils avaient été créés uniquement par des entités académiques (INRIA & CNRS) et disposant d’un supercalculateur.

Les équipes de Qwant s’unissent pour féliciter Oralie Cattan et Christophe Servan et réaffirmer leur attachement aux valeurs du progrès par la science et la connaissance.

Pour en savoir plus : publication scientifique: "On the Usability of Transformers-based models for a French Question-Answering task" / HuggingFace