L'UCLouvain recherche un chercheur ou une chercheuse pour un doctorat en traitement automatique du langage - bourse de doctorat à temps plein (100%) pour une durée de deux ans, renouvelable une fois sous conditions - pour le Centre de traitement automatique du langage (Cental), de l'Institut langage et communication (ILC) à l’UCLouvain (Louvain-la-Neuve) - entrée en fonction: 1er septembre 2025 (négociable) Cette proposition de bourse de doctorat s’articule sur les travaux récents réalisés par le Centre de traitement automatique du langage (CENTAL) sur des données de productions écrites d’apprenants du français langue étrangère. Reposant sur une collaboration féconde avec FEI (France Éducation International), ces recherches ont déjà abouti dans une solution de correction automatisée des épreuves écrites du TCF, FIDELIA (https://www.france-education-international.fr/actualites/lettre-fei/2024-06/...). Dans ce projet, nous visons à dépasser la simple caractérisation de la compétence écrite des apprenants de FLE, en détectant automatiquement les erreurs qu’ils commettent afin de les corriger (= normalisation). Ce projet vise à combler l’absence de travaux en matière de normalisation et de correction neuronale des erreurs d’apprenants en français et s’inscrit dans la logique du centre K de l’UCLouvain (CLARIN). La détection des erreurs d’apprenants et leur normalisation ouvrent de nombreuses perspectives : correction automatisée, génération de feedback, amélioration des recherches sur corpus grâce à la forme normée, etc. Pour ce faire, ce projet visera trois objectifs principaux :
1. Constituer un corpus parallèle (version originale et normalisée) pour 6569 textes d’apprenants rédigés dans le cadre d’un examen officiel de français, le TCF. Ce corpus, rassemblé en collaboration avec France Éducation Internationale, constitue une ressource unique pour le français (Wilkens et al., 2022). Il s’agira de le normaliser manuellement (i.e. identifier et corriger les erreurs), mais aussi de les classer selon une typologie inspirée de Granger (2003). 2. Profiter des dernières avancées en matière d’apprentissage profond pour exploiter ce corpus annoté et concevoir un système automatisé capable de (1) normaliser les productions d’apprenants en français et (2) de les catégoriser en fonction de notre typologie. Nous comparerons cette solution aux performances des modèles génératifs de type ChatGPT, qui ne nécessitent pas de données d’entraînement (zero-shot learning). 3. Exploiter les méta-données du corpus (niveau CECR et langue maternelle) pour décrire (1) les types d’erreurs typiques de chaque niveau CECR ; (2) les erreurs typiques de locuteurs ayant une langue maternelle donnée et (3) l’interaction entre ces deux variables, à savoir comment les erreurs se distribuent par niveau en fonction de la langue maternelle.
Au sein de projet, le rôle du doctorant ou de la doctorante engagé consistera à mener l’essentiel de la recherche, à savoir réaliser les trois étapes décrites ci-dessus. Le chercheur ou la chercheuse devra également assurer la diffusion des résultats obtenus via des publications scientifiques et rédiger une thèse de doctorat. Il ou elle sera amené à collaborer étroitement avec les autres membres de l’équipe en vue d’assurer la bonne réalisation de ces tâches. Environnement de travail Le CENTAL est rattaché à l’Institut Langage & Communication (https://uclouvain.be/fr/instituts-recherche/ilc), qui fait partie de l’UCLouvain. Cette université est située à Louvain-la-Neuve (https://uclouvain.be/fr/sites/louvain-la-neuve), une ville piétonne, agréable à vivre et très dynamique. Le projet de recherche sera réalisé sous la direction du Pr. Thomas François (https://cental.uclouvain.be/team/tfrancois/), expert en lisibilité et en simplification automatique de la langue et du Dr. Patrick Watrin (https://www.linkedin.com/in/pwatrin/?originalSubdomain=be), expert dans les larges modèles de langue appliqués à la recherche d’information et le traitement numérique des corpus. Qualifications et aptitudes requises Le candidat répondra aux qualifications suivantes :
* Être porteur d’un master en Linguistique computationelle, en Traitement automatique du langage (TAL) ou en Informatique (option en Intelligence artificielle). * Faire montre d’un excellent parcours académique * Disposer de bonnes compétences informatiques : * langages de programmation : Python, R (ou similaire) * la connaissance de scikit-learn, pandas, tensorflow/keras et/ou pytorch * systèmes : Linux de préférence * Bonne connaissance des principaux outils et algorithmes du TAL. La connaissance des réseaux de neurones profonds est un plus. * Excellente maîtrise du français (niveau C1 minimum) et bonne connaissance de l’anglais (niveau B2 minimum) * Autonomie, curiosité, sens du travail en équipe, capacité d’écoute et d’analyse des besoins, réactivité.
Conditions d’engagement : Cette bourse de doctorat est soumise aux conditions suivantes :
* Le candidat ou la candidate, suite à la procédure de recrutement, devra encore être approuvée par le Conseil de Recherche de l’UCLouvain. * À la date d’engagement, le doctorant doit être titulaire depuis au maximum 3 ans* d’un grade académique de master 120 crédits ou d’un grade reconnu comme équivalent. * Le candidat ou la candidate devra se domicilier en Belgique pendant la durée du contrat de bourse. * Le montant net de la bourse est d’environ 2 500 euros par mois. * Pour voir sa bourse être renouvelée pour une période de deux ans supplémentaires, le candidat ou la candidate devra soumettre une demande de financement auprès du FNRS et être classé à minima au rang « A » ainsi qu’avoir réussi son épreuve de confirmation.
* Le délai maximum fixé ci-dessus est augmenté d’une année par accouchement et/ou par adoption. Dossier de candidature : Date limite de remise du dossier : 1er juillet
Si vous êtes intéressé par ce poste, merci d'envoyer votre dossier de candidature à Thomas François (thomas.francois@uclouvain.bemailto:thomas.francois@uclouvain.be) et Patrick Watrin (pmailto:patrick.watrin@uclouvain.beatrick.watrin@uclouvain.bemailto:patrick.watrin@uclouvain.be) par mail. Celui-ci devra inclure :
1. un curriculum vitae détaillé en français ou anglais reprenant les différentes qualifications et aptitudes requises, les détails de votre parcours académique (grades, listes de cours), ainsi que les éventuelles publications et autres expériences académiques et scientifiques ;
2. une lettre de motivation en français, décrivant votre intérêt pour le poste, comment votre profil répond à la description du poste et aux objectifs du projet, etc. (maximum 2 pages) ;
3. une lettre de référence en français ou en anglais de la part d’un ou d’une de vos professeur(e)s.
4. Un « academic statement » : une déclaration académique concise dans laquelle vous exposez vos attentes vis-à-vis de vos études de troisième cycle (doctorat), ainsi que vos objectifs de carrière.
Les candidats retenus seront invités à participer à un entretien via vidéo-conférence selon des modalités qui leur seront ensuite transmises par mail. Plus d'informations : Les questions concernant le poste ou la procédure de candidature doivent être envoyées par e-mail à Thomas François (thomas.francois@uclouvain.bemailto:thomas.francois@uclouvain.be) et à Patrick Watrin (patrick.watrin@uclouvain.bemailto:patrick.watrin@uclouvain.be) avant le 20 juin.
Thomas François
Chargé de cours en linguistique appliquée Faculté de Philosophie, Arts et Lettres Université catholique de Louvain Institut Langage et Communication, PLIN, CENTAL et TeaMM Place Montesquieu, 3 - box L2.06.04 • B-1348 Louvain-la-Neuve • Belgium Tél. : +32 (0)10 / 47 37 36