Inria Innovation Lab
Science Kitchen Un environnement personnel de text-mining scientifique
05/10/2016
Le TDM scientifique et technique e-science : exploitation du calcul intensif pour tirer profit de volumes massifs de données scientifiques
➡
biologie, bioinformatique, génomie, physique, astronomie, sciences humaines
Pour (Hey, 2009) : le début d’une quatrième révolution scientifique où l’usage des ordinateurs permettra la création de nouveaux concepts, idées, modèle et simulations, et une “renaissance” scientifique Fouille de textes scientifiques : rendre exploitable l’information contenu dans la littérature scientifique et technique
➡ ➡ ➡
Amélioration des outils de recherche d’information, Construction de bases de connaissances, À plus long terme, production automatique d’hypothèses scientifiques (Evans, 2010)
Le TDM est à un moment clef Le marché global du TDM a été estimée à 33.7 milliards de dollars en 2014, en croissance annuelle d’environ 4%1 Mais le TDM est cher, laborieux et peu portables Impact émergeant du Machine Learning : “Machine Learning is the scientific method on steroids”2 Impact des nouvelles technologies de mise à l’échelle Loi pour une République numérique et exception TDM
➡
Vers une démocratisation possible du TDM
1. Outsell Market Snapshot, Scientific, Technical & Medical Information: 2015 Market Size, Share, Forecast, and Trend Report, 30 juillet 2015 2. Pedro Domingos
Application visée par Science Kitchen GROBID
NERD
Quantities
BEAST
KeyTerm
...
Pipeline annotation, extraction, analyse
Open Access KB
DB utilisateurs
etc.
outils web
ISTEX, CORE, DocDB
recherche sémantique
recherche de figures
contextualisation
PDF viewer enrichi & interactif
Un produit cher, laborieux et peu portable
Un produit cher, laborieux et peu portable abordable, simple et générique Entièrement automatisé - possibilité de produit d’appel Ne requiert pas de compétence en ingénierie des connaissances - produit accessible Focus sur des fonctionnalités génériques - produit pour tout chercheur et ingénieur Rend possible une grande variété de business models ➡ Mais nécessité d’un produit utilisable et de données d’utilisation pour un choix (traction rather than prediction)
Challenges techniques Minimiser le besoin d’adaptation et curation de la part de l'utilisateur Mettre en contexte du jeu de connaissance restreint apporté par l'utilisateur avec un contexte plus large de travaux scientifiques Apporter l'information issue du TDM de manière intuitive à l'utilisateur
Équipe
Aazhar
Luca Foppiano
Patrice Lopez (kermitt2)
Laurent Romary
Laurence Farhi
Equipe Inria Alpage Inria Alpage est spécialisée dans le traitement automatique des langues (TAL) Expertises clefs du groupe de Laurent Romary pour Science Kitchen:
-
modélisation de données textuelles et linguistiques (TEI) text mining : extension de GROBID open source : plateforme analytique pour les archives ouvertes dans le cadre de l’ADT anHALytics expérience acquise par Laurent Romary en information scientifique et technique
Équipe
?
science-miner Aazhar
Patrice Lopez (kermitt2)
Laurent Romary
à recruter ! Farhi Laurence
SCIENCE-MINER Fondée en juin 2015 Développement de logiciels Open Source pour le TDM : ➡ GROBID (CERN, NASA, HAL, ResearchGate, etc.) ➡ annotateurs scientifiques (INIST, NASA, CDS, ...) ➡ outils de recherche/analytique Offre de conseils en TDM (
, WIPO, ...)
Services API internet pour ses logiciels Open Sources Actuellement : autofinancé, 1 employé, ~80k€ chiffre d’affaire 2016, ~90k€ de trésorerie fin 2016
Équipe
?
science-miner Aazhar
Luca Foppiano
Patrice Lopez (kermitt2)
Laurent Romary
à recruter ! Farhi Laurence
Prolongement d’une longue collaboration GROBID : structuration automatique des publications scientifiques (depuis 2008) Premier à CLEF IP 2009 et 2010, recherche de brevets Premier à SemEval 2010, extraction de termes clefs EU CENDARI / NERD Représentation des documents scientifiques en TEI Plateforme analytique pour HAL/HAL-INRIA : ADT anHALytics ISTEX chantier d’usage
Bénéfices pour Inria et Alpage Formaliser une collaboration et des synergies déjà très fortes avec l’entreprise SCIENCE MINER et amorcer un schéma de transfert en R&D ; Enrichir le potentiel fonctionnel des plates-formes et infrastructures de l’équipe en lien avec l’ERIC DARIAH Soutien aux chercheurs de l’Inria en cohérence avec les objectifs de la politique d’Information et d’Edition Scientifique (IES) de l’Institut
Bénéfices pour SCIENCE-MINER Bénéficier de la compétence et l’attractivité de l’Inria en machine learning Exploiter ses technologies clefs en TDM dans une application directement destinée aux utilisateurs Anticiper à un besoin très important en outils et services TDM à fort potentiel économique Disposer d’une application permettant une grande variété de stratégies commerciales
SCRUM
AGILE
Plan d’activité
Contrat R&D
Année 1 : version minimale opérationnelle du service ➡ implémentation du workflow ➡ visualisation de PDF avec couche interactive dynamique ➡ intégration et l’optimisation des modules de text mining existants Année 2 : beta et tests "sur terrain" ➡ extraction automatique des quantité physiques ➡ extraction automatique d’entités biologique, de formules
➡ ➡
chimiques et d’objets astronomique ; extraction d’entités scientifiques connues par Wikipedia extraction et la recherche de figures et de tables
Année 3 : intégration avancée d'outils de text-mining ➡ service de recommandation, relation entre entitées, ...
Moyens
Infrastructure cloud (SCIENCE-MINER) Environnement de travail collaboratif (GitHub, Slack, Trello, Jira, etc.) Beta testeurs volontaires
Gouvernance & IP Comité de suivi : identifie les problèmes en amont et définie des stratégies de résolution
-
Laurent Romary (Inria, Alpage) Patrice Lopez (SCIENCE-MINER) Anne-Lise Chenet-Pflieger (Inria, Service Transfert pour l'Innovation et Partenariats)
Suivi via rapport annuel (séminaire d’une demi-journée), sprint revue (Scrum Agile), messagerie Propriété intellectuelle :
-
continuation du développement en Open Source (Apache 2) données et modèles d’apprentissage partiellement propriétaires bases de connaissance partiellement propriétaires cadre de l’exception TDM de la loi pour une République numérique
S c i e n c e
K i t c h e n
Questions Inria Innovation Lab
Demo: http://traces1.saclay.inria.fr/anHALytics
Demo: http://keyterm.science-miner.com
Demo: http://nerd.science-miner.com
Disambiguïsation de requêtes
Demo: http://quantity.science-miner.com