Appel à contributions, numéro spécial de la revue TAL "Traitement
automatique des langues peu dotées"
tal-59-3.sciencesconf.org
(see French version below)
NLP for Under-Resourced Languages
Until recently, most of the research work in Natural Language
Processing
(NLP) has been focused on a few well-described languages with many
speakers. The lack of interest for other "under-resourced"
languages and
language varieties can be accounted for by a variety of reasons:
lack of
funding, of human resources, of appropriate technology, of
complete and
precise linguistic descriptions, of academic recognition by the
scientific community, etc. Under-resourced languages nevertheless
pose
important scientific challenges, which open avenues of progress
for NLP
in general. First, at a time when state-of-the-art methods usually
require large amounts of annotated data, work on under-resourced
languages often imposes methods able to deal with small-sized
datasets
(small data). Second, given the difficulty of finding resources
such as
lexicons or corpora, the collected datasets are often very
heterogeneous
with respect to the time, space or domain parameters, e.g. corpora
of
texts corresponding to different geolinguistic varieties and
different
topics at different time points. This also often involves dealing
with
variation in the writing, due either to an evolution of spelling
standards in time or also to the lack of spelling standards for
languages or language varieties which are mostly oral and only
seldom
written. Third, NLP for under-resourced languages tends to be
carried
out in isolated or sparse research groups, and the resulting
products
are often in different formats and standards. Discovering,
accessing,
and making those resources interoperable so that they can be
reused can
become a challenge in itself. When dealing with under-resourced
languages, issues of interoperability of data and metadata become
of
crucial importance for combining and re-using the few resources
and
tools that might be available.
The goal of this issue of Traitement Automatique des Langues (TAL)
is to
give an overview of current research on NLP for under-resourced
languages from all over the world, encompassing a large variety of
tasks.
Authors are invited to submit original papers on all aspects of
NLP for
under-resourced languages, in particular regarding, but not
limited to,
the following issues and tasks:
- Methods for the acquisition, collection and elicitation of
resources
and annotations (e.g., OCR, crowdsourcing, etc.), for textual or
spoken data
- Spelling normalisation and character-level models for spelling
variation
- Projection of annotations from closely-related languages and
cross-lingual models
- Methods to deal with data sparsity, low quality issues and
out-of-vocabulary words
- Language and language variety identification, in particular for
short
texts and mixed language texts with code-switching
- Computer-assisted language learning and writing aids (spelling
correction, predictive text and word completion)
- Issues related to reusability of NLP tools, techniques and
resources
for languages other than those originally targeted, with special
concern
for interoperability and reusability of resources and tools
- Computational approaches for under-resourced and endangered
languages
documentation
We also invite authors to provide a short but accurate description
of
the languages or language varieties under study, focusing both on
their
linguistic and sociolinguistic characteristics:
- Brief history, location of current speakers ;
- Main linguistic properties (morphology, syntax) and language
family ;
- Writing system ;
- Vitality, approximate number of speakers, and contexts of use.
IMPORTANT DATES
- Submission deadline : May 15, 2018
- Notification to authors after the first review: July 16, 2018
- Notification to authors after the second review: September 30,
2018
- Final version: November 30, 2018
- Publication: January 2019
THE JOURNAL
TAL (Traitement Automatique des Langues / Natural Language
Processing)
is an international journal published by ATALA (French Association
for
Natural Language Processing,
http://www.atala.org) since 1960
with the
support of CNRS. It is now published online, with an immediate
open
access to published papers, and annual print on demand. This does
not
change its editorial and reviewing process.
LANGUAGE
Manuscripts may be submitted in English or French. French-speaking
authors are requested to submit their contributions in French.
SUBMISSION FORMAT
Papers must be between 20 and 25 pages. Authors should contact the
editors for a derogation on the length.
Authors who intend to submit a paper are encouraged to upload
their
contribution via the menu "Paper submission" (PDF format). To do
so,
they will need to have an account on the sciencesconf platform. To
create an account, go to the site
http://www.sciencesconf.org
and click
on "create account" next to the "Connect" button at the top of the
page.
To submit, come back to the page
http://tal-59-3.sciencesconf.org/,
connect to your account and upload your submission.
From now on, TAL will perform double-blind review: it is thus
necessary
to anonymise the manuscript and the name of the pdf file.
Style sheets are available for download on the Web site of the
journal:
http://old.atala.org/English-style-files
************************************************************************
French Version
************************************************************************
Jusqu'à récemment, la plupart des travaux de recherche en
Traitement
Automatique des Langues (TAL) se sont concentrés sur quelques
langues
bien décrites et ayant de nombreux locuteurs. Le manque d'intérêt
pour
d'autres langues et variétés linguistiques «sous-dotées» peut
s'expliquer par différentes raisons : manque de financement, de
ressources humaines, de technologie appropriée, de descriptions
linguistiques complètes et précises, de reconnaissance académique
par la
communauté scientifique, etc. Les langues sous-dotées posent
néanmoins
d'importants défis scientifiques qui ouvrent des pistes de progrès
pour
le TAL en général. Premièrement, à une époque où les méthodes de
l'état
de l'art nécessitent généralement de grandes quantités de données
annotées, le travail sur des langues sous-dotées impose souvent
des
méthodes capables de traiter des jeux de données de petite taille
(small
data). Deuxièmement, compte tenu des difficultés à trouver des
ressources telles que des lexiques ou des corpus, les données
collectées
sont souvent très hétérogènes et correspondent à différentes
époques,
aires linguistiques ou domaines, par exemple des corpus de textes
intégrant différentes variétés géolinguistiques et portant sur
différents sujets à différentes époques. Cette hétérogénéité
implique
aussi souvent des variations dans la graphie, dues soit à une
évolution
des normes orthographiques dans le temps, soit à l'absence de
normes
orthographiques pour les langues ou les variétés linguistiques qui
sont
essentiellement orales et rarement écrites. Troisièmement, les
travaux
de TAL pour les langues sous-dotées ont tendance à être réalisés
dans
des groupes de recherche isolés ou dispersés, et les ressources
produites utilisent souvent des formats et des normes différents.
Trouver ces ressources, y accéder et les rendre interopérables
pour
qu'elles puissent être réutilisées peut devenir un défi en soi.
Quand il
s'agit de langues sous-dotées, les questions d'interopérabilité
des
données et des métadonnées deviennent d'une importance cruciale
pour
combiner et réutiliser les quelques ressources et outils qui
pourraient
être disponibles.
L'objectif de ce numéro de Traitement Automatique des Langues
(TAL) est
de donner un aperçu de la recherche actuelle sur le TAL pour les
langues
sous-dotées du monde entier, englobant une grande variété de
tâches.
Les auteurs sont invités à soumettre des documents originaux sur
tous
les aspects du TAL pour les langues sous-dotées, en particulier en
ce
qui concerne, mais sans s'y limiter, les questions et tâches
suivantes :
- Méthodes d'acquisition et de collecte de ressources et
d'annotations
(p. ex. OCR, crowdsourcing, etc.) pour les données orales et
écrites
- Normalisation orthographique et modèles basés sur les caractères
pour
gérer la variation orthographique
- Projection d'annotations à partir de langues proches et modèles
multilingues
- Méthodes pour traiter le manque de données, les problèmes de
qualité
et les mots hors-vocabulaire
- Identification de la langue et des variétés, en particulier pour
les
textes courts et les textes en plusieurs langues avec alternance
codique
- Apprentissage des langues assisté par ordinateur et outils
d'aide à
l'écriture (correction orthographique, clavier prédictif et
complétion
de mots)
- Problèmes liés à la réutilisation des outils, techniques et
ressources
du TAL pour des langues autres que celles initialement ciblées,
avec un
intérêt particulier pour l'interopérabilité et la réutilisabilité
des
ressources et des outils
- Approches informatisées pour la documentation des langues
sous-dotées
et en danger
Nous invitons également les auteurs à fournir une description
courte
mais précise des langues ou des variétés linguistiques étudiées,
en
mettant l'accent à la fois sur leurs caractéristiques
linguistiques et
sociolinguistiques :
- Bref historique, localisation des locuteurs actuels ;
- Principales propriétés linguistiques (morphologie, syntaxe) et
famille
de langues ;
- Système d'écriture ;
- Vitalité, nombre approximatif de locuteurs et contextes
d'utilisation.
DATES IMPORTANTES
- Date limite de soumission : 15 mai 2018
- Notification aux auteurs, première relecture : 16 juillet 2018
- Notification aux auteurs, seconde relecture : 30 septembre 2018
- Version finale : 30 novembre 2018
- Publication : janvier 2019
LA REVUE
La revue TAL (Traitement Automatique des Langues) est une revue
internationale éditée depuis 1960 par l’ATALA (Association pour le
Traitement Automatique des Langues) avec le concours du CNRS. Elle
est
maintenant publiée en format électronique, avec accès gratuit
immédiat
aux articles publiés, et impression annuelle à la demande. Cela ne
change aucunement son processus de relecture et de sélection.
LANGUE
Les articles sont écrits en français ou en anglais. Les
soumissions en
anglais ne sont acceptées qu'en cas de présence d'au moins un
auteur non
francophone.
FORMAT DE LA SOUMISSION
Les articles doivent faire entre 20 et 25 pages. Les auteurs
doivent
contacter les rédacteurs pour obtenir une dérogation sur la
longueur.
Les chercheurs ayant l’intention de soumettre une contribution
sont
invités à déposer leur article en cliquant sur le menu "Soumission
d’un
article" (format PDF). Pour cela, si ce n’est déjà fait,
s’inscrire sur
le site
http://www.sciencesconf.org
(en haut à gauche, "créer un
compte"), puis revenir sur la page
http://tal-59-3.sciencesconf.org/,
se
connecter et effectuer le dépôt.
La revue TAL a un processus de relecture en double-aveugle. Merci
d’anonymiser votre article et le nom du fichier.
Les feuilles de style sont disponibles en ligne sur le site de la
revue
:
http://old.atala.org/Instructions-aux-auteurs-feuilles
--
Claudia Soria
Researcher
Istituto di Linguistica Computazionale "A. Zampolli"
Consiglio Nazionale delle Ricerche
Via Moruzzi 1
56124 Pisa
Italy
Tel. +39 050 3153166
Skype clausor