Appel à contributions, numéro spécial de la revue TAL "Traitement
      automatique des langues peu dotées"
      
      
      tal-59-3.sciencesconf.org
      
      
      (see French version below)
      
      
      
      NLP for Under-Resourced Languages
      
      
      Until recently, most of the research work in Natural Language
      Processing
      
      (NLP) has been focused on a few well-described languages with many
      
      speakers. The lack of interest for other "under-resourced"
      languages and
      
      language varieties can be accounted for by a variety of reasons:
      lack of
      
      funding, of human resources, of appropriate technology, of
      complete and
      
      precise linguistic descriptions, of academic recognition by the
      
      scientific community, etc. Under-resourced languages nevertheless
      pose
      
      important scientific challenges, which open avenues of progress
      for NLP
      
      in general. First, at a time when state-of-the-art methods usually
      
      require large amounts of annotated data, work on under-resourced
      
      languages often imposes methods able to deal with small-sized
      datasets
      
      (small data). Second, given the difficulty of finding resources
      such as
      
      lexicons or corpora, the collected datasets are often very
      heterogeneous
      
      with respect to the time, space or domain parameters, e.g. corpora
      of
      
      texts corresponding to different geolinguistic varieties and
      different
      
      topics at different time points. This also often involves dealing
      with
      
      variation in the writing, due either to an evolution of spelling
      
      standards in time or also to the lack of spelling standards for
      
      languages or language varieties which are mostly oral and only
      seldom
      
      written. Third, NLP for under-resourced languages tends to be
      carried
      
      out in isolated or sparse research groups, and the resulting
      products
      
      are often in different formats and standards. Discovering,
      accessing,
      
      and making those resources interoperable so that they can be
      reused can
      
      become a challenge in itself. When dealing with under-resourced
      
      languages, issues of interoperability of data and metadata become
      of
      
      crucial importance for combining and re-using the few resources
      and
      
      tools that might be available.
      
      
      The goal of this issue of Traitement Automatique des Langues (TAL)
      is to
      
      give an overview of current research on NLP for under-resourced
      
      languages from all over the world, encompassing a large variety of
      tasks.
      
      
      Authors are invited to submit original papers on all aspects of
      NLP for
      
      under-resourced languages, in particular regarding, but not
      limited to,
      
      the following issues and tasks:
      
      
      - Methods for the acquisition, collection and elicitation of
      resources
      
      and annotations (e.g., OCR, crowdsourcing, etc.), for textual or
      spoken data
      
      - Spelling normalisation and character-level models for spelling
      variation
      
      - Projection of annotations from closely-related languages and
      
      cross-lingual models
      
      - Methods to deal with data sparsity, low quality issues and
      
      out-of-vocabulary words
      
      - Language and language variety identification, in particular for
      short
      
      texts and mixed language texts with code-switching
      
      - Computer-assisted language learning and writing aids (spelling
      
      correction, predictive text and word completion)
      
      - Issues related to reusability of NLP tools, techniques and
      resources
      
      for languages other than those originally targeted, with special
      concern
      
      for interoperability and reusability of resources and tools
      
      - Computational approaches for under-resourced and endangered
      languages
      
      documentation
      
      
      We also invite authors to provide a short but accurate description
      of
      
      the languages or language varieties under study, focusing both on
      their
      
      linguistic and sociolinguistic characteristics:
      
      
      - Brief history, location of current speakers ;
      
      - Main linguistic properties (morphology, syntax) and language
      family ;
      
      - Writing system ;
      
      - Vitality, approximate number of speakers, and contexts of use.
      
      
      IMPORTANT DATES
      
      
      - Submission deadline : May 15, 2018
      
      - Notification to authors after the first review: July 16, 2018
      
      - Notification to authors after the second review: September 30,
      2018
      
      - Final version: November 30, 2018
      
      - Publication: January 2019
      
      
      THE JOURNAL
      
      
      TAL (Traitement Automatique des Langues / Natural Language
      Processing)
      
      is an international journal published by ATALA (French Association
      for
      
      Natural Language Processing, 
http://www.atala.org) since 1960
      with the
      
      support of CNRS. It is now published online, with an immediate
      open
      
      access to published papers, and annual print on demand. This does
      not
      
      change its editorial and reviewing process.
      
      
      LANGUAGE
      
      
      Manuscripts may be submitted in English or French. French-speaking
      
      authors are requested to submit their contributions in French.
      
      
      SUBMISSION FORMAT
      
      
      Papers must be between 20 and 25 pages. Authors should contact the
      
      editors for a derogation on the length.
      
      
      Authors who intend to submit a paper are encouraged to upload
      their
      
      contribution via the menu "Paper submission" (PDF format). To do
      so,
      
      they will need to have an account on the sciencesconf platform. To
      
      create an account, go to the site 
http://www.sciencesconf.org
      and click
      
      on "create account" next to the "Connect" button at the top of the
      page.
      
      To submit, come back to the page 
http://tal-59-3.sciencesconf.org/,
      
      connect to your account and upload your submission.
      
      
      From now on, TAL will perform double-blind review: it is thus
      necessary
      
      to anonymise the manuscript and the name of the pdf file.
      
      
      Style sheets are available for download on the Web site of the
      journal:
      
      
http://old.atala.org/English-style-files
      
      
************************************************************************
      
      French Version
      
************************************************************************
      
      
      Jusqu'à récemment, la plupart des travaux de recherche en
      Traitement
      
      Automatique des Langues (TAL) se sont concentrés sur quelques
      langues
      
      bien décrites et ayant de nombreux locuteurs. Le manque d'intérêt
      pour
      
      d'autres langues et variétés linguistiques «sous-dotées» peut
      
      s'expliquer par différentes raisons : manque de financement, de
      
      ressources humaines, de technologie appropriée, de descriptions
      
      linguistiques complètes et précises, de reconnaissance académique
      par la
      
      communauté scientifique, etc. Les langues sous-dotées posent
      néanmoins
      
      d'importants défis scientifiques qui ouvrent des pistes de progrès
      pour
      
      le TAL en général. Premièrement, à une époque où les méthodes de
      l'état
      
      de l'art nécessitent généralement de grandes quantités de données
      
      annotées, le travail sur des langues sous-dotées impose souvent
      des
      
      méthodes capables de traiter des jeux de données de petite taille
      (small
      
      data). Deuxièmement, compte tenu des difficultés à trouver des
      
      ressources telles que des lexiques ou des corpus, les données
      collectées
      
      sont souvent très hétérogènes et correspondent à différentes
      époques,
      
      aires linguistiques ou domaines, par exemple des corpus de textes
      
      intégrant différentes variétés géolinguistiques et portant sur
      
      différents sujets à différentes époques. Cette hétérogénéité
      implique
      
      aussi souvent des variations dans la graphie, dues soit à une
      évolution
      
      des normes orthographiques dans le temps, soit à l'absence de
      normes
      
      orthographiques pour les langues ou les variétés linguistiques qui
      sont
      
      essentiellement orales et rarement écrites. Troisièmement, les
      travaux
      
      de TAL pour les langues sous-dotées ont tendance à être réalisés
      dans
      
      des groupes de recherche isolés ou dispersés, et les ressources
      
      produites utilisent souvent des formats et des normes différents.
      
      Trouver ces ressources, y accéder et les rendre interopérables
      pour
      
      qu'elles puissent être réutilisées peut devenir un défi en soi.
      Quand il
      
      s'agit de langues sous-dotées, les questions d'interopérabilité
      des
      
      données et des métadonnées deviennent d'une importance cruciale
      pour
      
      combiner et réutiliser les quelques ressources et outils qui
      pourraient
      
      être disponibles.
      
      
      L'objectif de ce numéro de Traitement Automatique des Langues
      (TAL) est
      
      de donner un aperçu de la recherche actuelle sur le TAL pour les
      langues
      
      sous-dotées du monde entier, englobant une grande variété de
      tâches.
      
      
      Les auteurs sont invités à soumettre des documents originaux sur
      tous
      
      les aspects du TAL pour les langues sous-dotées, en particulier en
      ce
      
      qui concerne, mais sans s'y limiter, les questions et tâches
      suivantes :
      
      
      - Méthodes d'acquisition et de collecte de ressources et
      d'annotations
      
      (p. ex. OCR, crowdsourcing, etc.) pour les données orales et
      écrites
      
      - Normalisation orthographique et modèles basés sur les caractères
      pour
      
      gérer la variation orthographique
      
      - Projection d'annotations à partir de langues proches et modèles
      
      multilingues
      
      - Méthodes pour traiter le manque de données, les problèmes de
      qualité
      
      et les mots hors-vocabulaire
      
      - Identification de la langue et des variétés, en particulier pour
      les
      
      textes courts et les textes en plusieurs langues avec alternance
      codique
      
      - Apprentissage des langues assisté par ordinateur et outils
      d'aide à
      
      l'écriture (correction orthographique, clavier prédictif et
      complétion
      
      de mots)
      
      - Problèmes liés à la réutilisation des outils, techniques et
      ressources
      
      du TAL pour des langues autres que celles initialement ciblées,
      avec un
      
      intérêt particulier pour l'interopérabilité et la réutilisabilité
      des
      
      ressources et des outils
      
      - Approches informatisées pour la documentation des langues
      sous-dotées
      
      et en danger
      
      
      Nous invitons également les auteurs à fournir une description
      courte
      
      mais précise des langues ou des variétés linguistiques étudiées,
      en
      
      mettant l'accent à la fois sur leurs caractéristiques
      linguistiques et
      
      sociolinguistiques :
      
      
      - Bref historique, localisation des locuteurs actuels ;
      
      - Principales propriétés linguistiques (morphologie, syntaxe) et
      famille
      
      de langues ;
      
      - Système d'écriture ;
      
      - Vitalité, nombre approximatif de locuteurs et contextes
      d'utilisation.
      
      
      DATES IMPORTANTES
      
      
      - Date limite de soumission : 15 mai 2018
      
      - Notification aux auteurs, première relecture : 16 juillet 2018
      
      - Notification aux auteurs, seconde relecture : 30 septembre 2018
      
      - Version finale : 30 novembre 2018
      
      - Publication : janvier 2019
      
      
      LA REVUE
      
      
      La revue TAL (Traitement Automatique des Langues) est une revue
      
      internationale éditée depuis 1960 par l’ATALA (Association pour le
      
      Traitement Automatique des Langues) avec le concours du CNRS. Elle
      est
      
      maintenant publiée en format électronique, avec accès gratuit
      immédiat
      
      aux articles publiés, et impression annuelle à la demande. Cela ne
      
      change aucunement son processus de relecture et de sélection.
      
      
      LANGUE
      
      
      Les articles sont écrits en français ou en anglais. Les
      soumissions en
      
      anglais ne sont acceptées qu'en cas de présence d'au moins un
      auteur non
      
      francophone.
      
      
      FORMAT DE LA SOUMISSION
      
      
      Les articles doivent faire entre 20 et 25 pages. Les auteurs
      doivent
      
      contacter les rédacteurs pour obtenir une dérogation sur la
      longueur.
      
      
      Les chercheurs ayant l’intention de soumettre une contribution
      sont
      
      invités à déposer leur article en cliquant sur le menu "Soumission
      d’un
      
      article" (format PDF). Pour cela, si ce n’est déjà fait,
      s’inscrire sur
      
      le site 
http://www.sciencesconf.org
      (en haut à gauche, "créer un
      
      compte"), puis revenir sur la page 
http://tal-59-3.sciencesconf.org/,
      se
      
      connecter et effectuer le dépôt.
      
      
      La revue TAL a un processus de relecture en double-aveugle. Merci
      
      d’anonymiser votre article et le nom du fichier.
      
      
      Les feuilles de style sont disponibles en ligne sur le site de la
      revue
      
      : 
http://old.atala.org/Instructions-aux-auteurs-feuilles
      
      
      
      
      -- 
        Claudia Soria
        
        Researcher
        
        Istituto di Linguistica Computazionale "A. Zampolli"
        
        Consiglio Nazionale delle Ricerche
        
        Via Moruzzi 1
        
        56124 Pisa
        
        Italy
        
        
        Tel. +39 050 3153166
        
        Skype clausor