A l’ère d’internet, la gestion des données est devenue une problématique à part entière. Elles circulent à toute vitesse et proviennent de toute part : clients, prospects, fournisseurs, processus internes, développements… Pour les entreprises qui arrivent à transformer ces données en informations utiles, c’est un moyen d’optimiser leurs ressources et augmenter leurs revenus. Pour les autres qui n’arrivent pas à les valoriser, cela peut rapidement devenir un soucis administratif. Entre calvaire et mine d’or, que penser de l’émergence des nouveaux outils de BI ?
Les solutions décisionnelles ne datent pas d’hier. Des outils comme MongoDB, Cassandra, ElasticSearch, ont permis d’améliorer l’agilité des organisations. Ces databases ont également permis aux développeurs de développer leurs applications plus rapidement et plus sûrement. Cependant, elles laissent derrière eux des torrents de données. Disposées dans différents silos, leurs analyses peuvent être compliquées.
Des projets Open Source qui permettent de rapprocher les sources de données
Contrairement aux logiciels de développement, les outils de BI et les méthodes d’analyses ont évolué beaucoup moins vite. La majorité des solutions d’analyses considèrent que les données se trouvent au sein du même silo. La réalité est bien différente. Les silos de données se multiplient et les connexions entres elles sont faibles.
Heureusement, de nouveaux projets Open Source voient le jour. Nous pouvons citer Amazon Athena, Google BigQuery, Presto ou encore Dremio.
Leur rôle est de rapprocher les sources de données des différents outils BI et des plateformes de data science.
Presto, le moteur d’exécution de requêtes grand format
Moteur d’exécution de requêtes créé en 2012 par Facebook, c’est un outil conçu pour interroger de grandes quantités de données à l’aide de requêtes SQL. Son usage fonctionne sur plusieurs types de sources de données, comme MySQL, Cassandra, etc.
Il est performant et efficace sur des quantités de données très importantes. Le logiciel est aujourd’hui utilisé par de grandes entreprises, traitant une quantité de données très vaste. On retrouve dans la liste AirBnb, Netflix ou encore Dropbox.
Dremio, le couteau suisse des outils de BI
Dremio pousse le bouchon un peu plus loin que Presto. Il intègre des fonctions qui permettent l’accélération des requêtes, la conservation des données, le catalogage des données… L’idée derrière ce projet est de diminuer l’attente avant de pouvoir analyser les données.
Amazon Athena, un service prometteur
Amazon Athena est un service de requête interactif qui permet d’analyser directement les données qui émanent d’Amazon S3. Il opère de la même manière qu’une database SQL. Petit plus, Amazon Athena est constitué sans serveur. Cela signifie qu’il n’y a aucune infrastructure, serveur, entrepôt de données à gérer.