TEMIS : Projet SAMAR du Pôle de Compétitivité Cap Digital : vers une plateforme d’organisation de flux multimédia en langue arabe
La technologie de Text Mining de TEMIS se met au service de l’analyse des flux d’information en langue arabe et ouvre de nouveaux horizons métier
PARIS--(BUSINESS WIRE)--TEMIS, leader en solutions de Text Mining pour l’Entreprise, annonce aujourd’hui qu’il pilote le projet de recherche et développement SAMAR, un projet labélisé par le pôle de compétitivité Cap Digital Paris-Région.
« Internet en langue arabe : espace de liberté ou fracture sociale ? »
Le volume des contenus en ligne est en faible croissance au Maghreb
Le contenu en ligne est en phase de développement dans les pays du Maghreb. Etonnamment, la proportion des contenus en langue arabe issus de cette partie du globe est très faible. La presse écrite joue un rôle primordial dans le développement de l’Internet arabe et représente près de 40 % de ses contenus1. Or, la production de contenus en langue arabe doit être encouragée pour que les internautes du Maghreb, de plus en plus nombreux, puissent lire des contenus de qualité dans leur langue maternelle. De l’autre côté des frontières, on souhaite également diffuser des contenus rédigés en langue arabe afin d’étendre la gamme des sources d’informations provenant du Maghreb et de ne pas se limiter au faible volume de contenus non représentatifs, soit directement rédigés en anglais dans un souci de diffusion internationale, soit plus ou moins fidèlement traduits en anglais.
Ouvrir des horizons aux contenus en arabe
Le projet SAMAR a été initié par l’Agence France-Presse avec la volonté d’ouvrir son portail d’information à des contenus multilingues écrits en langue arabe. Mais les mécanismes de la langue arabe sont extrêmement complexes et les technologies actuelles ne permettaient pas un traitement optimal de l’information vue du Maghreb. Ces contenus en arabe ne pouvaient donc être reliés à aucune plateforme d’information internationale sans traduction préalable. Une intégration réussie de nouvelles sources d’informations dans de tels systèmes sous-entend en effet que les collections de contenus importées soient exploitables au même titre que les autres contenus fédérés par le portail d’information. Cela implique une analyse linguistique poussée des contenus permettant ad minima d’indexer les informations et de les rendre accessibles via la recherche d’information en ligne.
SAMAR, la plateforme d’organisation de flux multimédia en langue arabe
Le projet SAMAR a pour objet le développement d’une plateforme de traitement multimédia en langue arabe et sa validation. Pour ce faire, l’équipe SAMAR mène des expérimentations sur la totalité des dépêches arabes produites jusqu’ici par l’AFP, soit environ un million de dépêches (150 millions de mots), mais aussi sur un ensemble de flux radio et télévisuels arabes.
Le défi de la langue arabe
La complexité de la langue arabe est un vrai défi et pour mener à bien ce projet ambitieux, un nombre important de verrous techno-linguistiques devront être levés tels que :
- La voyellation de l’arabe dans les textes pour la recherche
- La transcription de la parole en arabe sachant qu’il existe plusieurs dialectes à retranscrire de façon homogène.
- L’appariement français-arabe d’entités nommées
- Etc…
La réunion des meilleurs experts
Le projet SAMAR réunit plusieurs partenaires stratégiques complémentaires, issus des métiers de la reconnaissance vocale, et de la linguistique :
- AFP, fournisseur des flux multimédia AFP et des flux radio et télévisuels arabes
- VECSYS, spécialiste de l’extraction de texte à partir de contenus audiovisuels (speech to text)
- VECSYS RESEARCH, expert du traitement de l’arabe parlé littéraire et dialectal
- TEMIS, spécialiste de l’extraction de connaissance à partir de textes, de la catégorisation d’information et de l’analyse d’informations stratégiques
- NUXEO, spécialiste de la gestion de contenu multimédia
- ANTIDOT, expert en recherche cross-lingue (français<->arabe; anglais<->arabe)
- MONDECA, expert en gestion des ontologies et des référentiels métiers.
- CNRS LLACAN (Langage, langues et cultures d’Afrique noire), expert en analyse de l’arabe littéraire et de l’arabe dialectal
- LIMSI, spécialiste de la modélisation de traduction sur base d’apprentissage
- INALCO CERMOM (CEntre de Recherche Moyen-Orient et Méditerranée), expert en langue arabe et en validation des modèles et des résultats
- GREYC UMR CNRS 6072, spécialiste de la traduction automatique (arabe-anglais ; arabe-français)
TEMIS, analyseur de la langue arabe écrite
Dans le cadre de ce projet, TEMIS met toute son expertise en Text-Mining au service de l’analyse de contenu. Le logiciel Luxid® de TEMIS analyse les structures grammaticales des contenus en arabe pour extraire les entités et les relations pertinentes. Il enrichit également les contenus en leur associant des métadonnées afin de rendre la recherche d’information plus précise. L’analyse fournie par Luxid® est rendue possible grâce à l’activation d’annotateurs spécifiques à un thème et à une langue. Pour le projet SAMAR, TEMIS utilise des annotateurs précis et efficaces résultant de plusieurs années de développement.
Des marchés dans l’expectative
Plusieurs applications se profilent déjà à l’issue du projet. Cette plateforme pourra en effet être utilisée par l’ensemble des médias arabisants de la bordure méditerranéenne et du Moyen-Orient pour l’organisation, la gestion et l’exploitation de leurs flux d’information.
La nouvelle plateforme fédérant des contenus en arabe représentera également un vivier organisé d’informations stratégiques pour les entreprises développant des activités sur les marchés prometteurs du Moyen Orient et d’Afrique du Nord.
A propos de cap Digital
Cap digital est le pôle de compétitivité francilien des contenus numériques. Il a pour objectif de faire de Paris et de sa région la référence mondiale du numérique. Le développement de la R&D, la croissance des entreprises, la mise en réseau de ses adhérents et leur promotion à l’international sont autant de missions que se fixe Cap Digital pour soutenir la créativité et la compétitivité de ce secteur industriel qui représente un marché mondial de 300 milliards d'euros.
A propos de TEMIS
TEMIS édite des logiciels de Text Mining. Sa solution Luxid® optimise le traitement de l'information en transformant du texte libre en données analysables pour l'extraction de connaissance, le classement automatique de documents, l’analyse de contenu et la visualisation d’information. Luxid® joue un rôle stratégique pour les secteurs des Sciences de la Vie, de l’Industrie, de la Défense et de l’Edition & des Médias, apportant une nouvelle dimension d’analyse aux activités d’Intelligence Economique, de recherche et innovation, d’analyse d’opinion, de « voix du client » et d’édition de contenu.
Créée en 2000, la société est actuellement présente à travers ses filiales en France, en Allemagne, en Italie, et aux Etats-Unis, et au travers de ses partenaires dans le reste du monde.
La technologie innovante de TEMIS a attiré de grands groupes tels que l’Agence Française pour les Investissements Internationaux, l’Agence France-Presse, BASF, Bayer Schering Pharma, BNP Paribas, Boehringer Ingelheim, CARMA International, Convera, Editions Lefebvre-Sarrut, Elsevier, EMC, Europol, Ingenuity, Liquid Campaign, Merck Serono, le Ministère de la Défense, le Ministère des Finances, Nature Publishing Group, Novartis, Philip Morris International, PSA Peugeot-Citroën, Roche Diagnostics, Roquette, Sanofi-aventis, Solvay Pharmaceuticals, Springer Science+Business Media, The McGraw-Hill Companies, Thomson Reuters, Trinity Mirror plc.
TEMIS est un membre actif du pôle de compétitivité Cap Digital.
1 « Internet en langue arabe : espace de liberté ou fracture sociale ? », Aïta S., revue trimestrielle MAGHREB-MACHREK, n° 178, 2003-2004.

