Science Kitchen 05.10.2016


3MB taille 21 téléchargements 386 vues
Inria Innovation Lab

Science Kitchen Un environnement personnel de text-mining scientifique

05/10/2016

Le TDM scientifique et technique e-science : exploitation du calcul intensif pour tirer profit de volumes massifs de données scientifiques



biologie, bioinformatique, génomie, physique, astronomie, sciences humaines

Pour (Hey, 2009) : le début d’une quatrième révolution scientifique où l’usage des ordinateurs permettra la création de nouveaux concepts, idées, modèle et simulations, et une “renaissance” scientifique Fouille de textes scientifiques : rendre exploitable l’information contenu dans la littérature scientifique et technique

➡ ➡ ➡

Amélioration des outils de recherche d’information, Construction de bases de connaissances, À plus long terme, production automatique d’hypothèses scientifiques (Evans, 2010)

Le TDM est à un moment clef Le marché global du TDM a été estimée à 33.7 milliards de dollars en 2014, en croissance annuelle d’environ 4%1 Mais le TDM est cher, laborieux et peu portables Impact émergeant du Machine Learning : “Machine Learning is the scientific method on steroids”2 Impact des nouvelles technologies de mise à l’échelle Loi pour une République numérique et exception TDM



Vers une démocratisation possible du TDM

1. Outsell Market Snapshot, Scientific, Technical & Medical Information: 2015 Market Size, Share, Forecast, and Trend Report, 30 juillet 2015 2. Pedro Domingos

Application visée par Science Kitchen GROBID

NERD

Quantities

BEAST

KeyTerm

...

Pipeline annotation, extraction, analyse

Open Access KB

DB utilisateurs

etc.

outils web

ISTEX, CORE, DocDB

recherche sémantique

recherche de figures

contextualisation

PDF viewer enrichi & interactif

Un produit cher, laborieux et peu portable

Un produit cher, laborieux et peu portable abordable, simple et générique Entièrement automatisé - possibilité de produit d’appel Ne requiert pas de compétence en ingénierie des connaissances - produit accessible Focus sur des fonctionnalités génériques - produit pour tout chercheur et ingénieur Rend possible une grande variété de business models ➡ Mais nécessité d’un produit utilisable et de données d’utilisation pour un choix (traction rather than prediction)

Challenges techniques Minimiser le besoin d’adaptation et curation de la part de l'utilisateur Mettre en contexte du jeu de connaissance restreint apporté par l'utilisateur avec un contexte plus large de travaux scientifiques Apporter l'information issue du TDM de manière intuitive à l'utilisateur

Équipe

Aazhar

Luca Foppiano

Patrice Lopez (kermitt2)

Laurent Romary

Laurence Farhi

Equipe Inria Alpage Inria Alpage est spécialisée dans le traitement automatique des langues (TAL) Expertises clefs du groupe de Laurent Romary pour Science Kitchen:

-

modélisation de données textuelles et linguistiques (TEI) text mining : extension de GROBID open source : plateforme analytique pour les archives ouvertes dans le cadre de l’ADT anHALytics expérience acquise par Laurent Romary en information scientifique et technique

Équipe

?

science-miner Aazhar

Patrice Lopez (kermitt2)

Laurent Romary

à recruter ! Farhi Laurence

SCIENCE-MINER Fondée en juin 2015 Développement de logiciels Open Source pour le TDM : ➡ GROBID (CERN, NASA, HAL, ResearchGate, etc.) ➡ annotateurs scientifiques (INIST, NASA, CDS, ...) ➡ outils de recherche/analytique Offre de conseils en TDM (

, WIPO, ...)

Services API internet pour ses logiciels Open Sources Actuellement : autofinancé, 1 employé, ~80k€ chiffre d’affaire 2016, ~90k€ de trésorerie fin 2016

Équipe

?

science-miner Aazhar

Luca Foppiano

Patrice Lopez (kermitt2)

Laurent Romary

à recruter ! Farhi Laurence

Prolongement d’une longue collaboration GROBID : structuration automatique des publications scientifiques (depuis 2008) Premier à CLEF IP 2009 et 2010, recherche de brevets Premier à SemEval 2010, extraction de termes clefs EU CENDARI / NERD Représentation des documents scientifiques en TEI Plateforme analytique pour HAL/HAL-INRIA : ADT anHALytics ISTEX chantier d’usage

Bénéfices pour Inria et Alpage Formaliser une collaboration et des synergies déjà très fortes avec l’entreprise SCIENCE MINER et amorcer un schéma de transfert en R&D ; Enrichir le potentiel fonctionnel des plates-formes et infrastructures de l’équipe en lien avec l’ERIC DARIAH Soutien aux chercheurs de l’Inria en cohérence avec les objectifs de la politique d’Information et d’Edition Scientifique (IES) de l’Institut

Bénéfices pour SCIENCE-MINER Bénéficier de la compétence et l’attractivité de l’Inria en machine learning Exploiter ses technologies clefs en TDM dans une application directement destinée aux utilisateurs Anticiper à un besoin très important en outils et services TDM à fort potentiel économique Disposer d’une application permettant une grande variété de stratégies commerciales

SCRUM

AGILE

Plan d’activité

Contrat R&D

Année 1 : version minimale opérationnelle du service ➡ implémentation du workflow ➡ visualisation de PDF avec couche interactive dynamique ➡ intégration et l’optimisation des modules de text mining existants Année 2 : beta et tests "sur terrain" ➡ extraction automatique des quantité physiques ➡ extraction automatique d’entités biologique, de formules

➡ ➡

chimiques et d’objets astronomique ; extraction d’entités scientifiques connues par Wikipedia extraction et la recherche de figures et de tables

Année 3 : intégration avancée d'outils de text-mining ➡ service de recommandation, relation entre entitées, ...

Moyens

Infrastructure cloud (SCIENCE-MINER) Environnement de travail collaboratif (GitHub, Slack, Trello, Jira, etc.) Beta testeurs volontaires

Gouvernance & IP Comité de suivi : identifie les problèmes en amont et définie des stratégies de résolution

-

Laurent Romary (Inria, Alpage) Patrice Lopez (SCIENCE-MINER) Anne-Lise Chenet-Pflieger (Inria, Service Transfert pour l'Innovation et Partenariats)

Suivi via rapport annuel (séminaire d’une demi-journée), sprint revue (Scrum Agile), messagerie Propriété intellectuelle :

-

continuation du développement en Open Source (Apache 2) données et modèles d’apprentissage partiellement propriétaires bases de connaissance partiellement propriétaires cadre de l’exception TDM de la loi pour une République numérique

S c i e n c e

K i t c h e n

Questions Inria Innovation Lab

Demo: http://traces1.saclay.inria.fr/anHALytics

Demo: http://keyterm.science-miner.com

Demo: http://nerd.science-miner.com

Disambiguïsation de requêtes

Demo: http://quantity.science-miner.com