Paste your Google Webmaster Tools verification code here

Big Data

Tribune : Big Data, les tendances de l’année

on


En 2016, beaucoup d’organisations ont stocké et exploité leurs données. Cette année, les systèmes traitant de grandes quantités de données, structurées ou non, continuent à se développer.

Une réflexion orientée services plus que technologies

Nos clients mettent en œuvre Hadoop pour tester la technologie et traiter les premiers cas d’usage exprimés par les métiers. Cette approche agile est bonne, à condition de l’associer à une réflexion orientée services. En effet on peut se contenter de simplement déposer des flux de données brutes sur un Datalake, comme on peut y associer des services de traitement de données (contrôles, mise en qualité, rapprochements, dédoublonnage, calculs, agrégations, …), services analytiques, et évidemment services de traçabilité.

Cette approche services est essentielle et met en évidence que l’écosystème Hadoop est insuffisant sur certains points, et que la quantité de flux de données traitée requiert une approche industrielle pour garantir la pérennité du Datalake.

Les plateformes assurent la gouvernance et la sécurité du Big Data en donnant aux utilisateurs des moyens d’analyse. Une fois matures, elles s’intègrent aux systèmes et normes informatiques des entreprises.

Le Big Data devient rapide et accessible

Il est possible de mettre en œuvre du machine learning et de réaliser des analyses de sentiments sur Hadoop, mais quelle est la performance du SQL interactif ? SQL reste le moyen dont dispose l’utilisateur métier pour utiliser les données dans Hadoop à des fins d’analyses exploratoires rapides ou de tableaux de bords de pilotage réutilisables. Les possibilités pour accélérer Hadoop vont se multiplier. Ce changement a déjà commencé, l’adoption de bases de données hautes performances (Exasol, MemSQL), de technologie de stockage (Kudu), ou d’autres produits permettant l’activation d’exécution de requêtes rapides en témoigne.

Le Big Data ne se limite plus à Hadoop

Plusieurs technologies se sont développées avec le Big Data pour couvrir le besoin d’analyses sur Hadoop. Mais pour les entreprises aux environnements complexes, les sources sont multiples. Bientôt, les plateformes agnostiques face aux données se développeront, tandis que celles conçues pour Hadoop ne pourront être déployées partout et seront oubliées (Platfora par exemple).

L’exploitation des lacs de données

Un lac de données est comme un réservoir artificiel. Il faut construire un barrage (un cluster), puis le laisser se remplir (de données). Ensuite, on utilisera les données à des fins d’analyse prédictive, Machine Learning, cybersécurité, etc. Jusqu’à présent, le remplissage constituait une finalité. Désormais, pour obtenir des réponses, les entreprises voudront utiliser leur lac d’une manière agile et reproductible. Cela évoluera avec l’adoption d’Hadoop.

Les architectures matures permettent d’abandonner les frameworks universels

Hadoop est une technologie multi-usage pour faire de l’analyse ad hoc. Elle est même utilisée pour du reporting opérationnel (d’habitude géré via des entrepôts de données). Bientôt, les entreprises tiendront compte de ces besoins en favorisant l’architecture adaptée à chaque usage. Elles étudieront plusieurs facteurs (profils utilisateurs, volumes, fréquence d’accès, etc.) avant de s’engager sur une stratégie de données qui combinera les outils de préparation en self-service, le Core Hadoop, et les plateformes d’analyse des utilisateurs finaux, pour que ceux-ci puissent les reconfigurer selon leurs besoins.

La variété entraîne les investissements dans le Big Data

Gartner définit le Big Data par 3V : Volume, Vélocité, Variété des données. La Variété s’impose comme le moteur des investissements dans le Big Data. Les entreprises veulent y intégrer davantage de sources et se concentrent sur le long terme. Des fichiers JSON sans schéma prédéfini aux types imbriqués dans d’autres bases de données (relationnelles et NoSQL) en passant par les données non plates (Avro, Parquet, XML), les formats de données se multiplient et les connecteurs natifs deviennent indispensables.

Spark et le Machine Learning rendent évident le Big Data

Dans un sondage mené auprès de Data Architect, de responsables informatiques et d’analystes, 70% ont privilégié Apache Spark à MapReduce, qui est orienté batch et ne se prête ni aux applications interactives ni au traitement de flux en temps réel. Ces capacités de traitement sur des environnements Big Data ont fait évoluer ces plateformes vers des utilisations de calculs intensifs pour du Machine Learning, de l’IA, et des algorithmes de graphe. Microsoft Azure ML a décollé grâce à sa facilité de mise en œuvre et son intégration avec les plateformes Microsoft. L’ouverture du ML conduira à la création de modèles et d’applications qui généreront des peta-octets de données. Tous les regards seront tournés vers les éditeurs de logiciels en self-service pour voir comment ils vont rendre ces données aux utilisateurs.

La convergence de l’IoT, du Cloud et du Big Data créée de nouvelles opportunités

Les données provenant de l’IoT sont hétérogènes et stockées dans des systèmes relationnels ou non. Alors que les innovations en matière de stockage et de services intégrés ont accéléré la capture de l’information, comprendre la donnée reste un défi. La demande augmente donc de plus en plus pour les outils analytiques qui se connectent nativement et combinent différentes sources de données Cloud.

La préparation des données en self-service se démocratise

L’ascension des plateformes analytiques self-service a amélioré l’accessibilité de Hadoop aux utilisateurs métier. Mais ceux-ci veulent encore réduire la complexité de préparation des données pour l’analyse. Les outils de préparation de données self-service agiles permettent aux données Hadoop d’être préparées à la source mais aussi de les rendre accessibles instantanément pour une exploration rapide. Nous avons vu beaucoup d’innovations dans cet écosystème, faite par des sociétés spécialisées dans la préparation de données pour des environnements Big Data réalisée par l’utilisateur final (Alteryx, Trifacta et Paxata), réduisant les barrières à l’adoption.

Le Big Data grandit : Hadoop vient s’ajouter au standard de l’entreprise

Hadoop devient une partie centrale du paysage IT de l’entreprise. Cette année, nous verrons davantage d’investissements dans la sécurité et la gouvernance entourant les systèmes d’entreprise. Apache Sentry fournit un système d’autorisations très fines d’accès à la donnée, basé sur les rôles et les métadonnées stockées dans un cluster Hadoop. Apache Atlas permet aux organisations d’appliquer une classification uniforme des données sur l’ensemble de l’écosystème. Apache Ranger fournit une administration centralisée de gestion de la sécurité pour Hadoop. Ces capacités, au premier plan des technologies Big Data émergeantes, éliminent également une barrière à l’adoption.

L’augmentation des catalogues de métadonnées aide à la sélection des données

Les sociétés ont longtemps jeté leurs trop nombreuses données. Avec Hadoop, elles peuvent en traiter plus, mais la donnée n’est pas facile à trouver. Les catalogues de métadonnées aident à comprendre les données pertinentes grâce aux outils d’analyse self-service. Cela aide à la fois les consommateurs et les administrateurs de données à réduire le temps pour faire confiance, trouver et requêter avec précision les données. Nous verrons bientôt une plus grande sensibilisation et une demande pour la découverte en mode self-service, qui deviendra une extension naturelle à l’analyse self-service.

 

Tribune d’Edouard Beaucourt – Head of France & Southern Europe chez Tableau

Commentaires

commentaires

About Thomas Graindorge

Fan de nouvelles technologies, je suis co-fondateur du site After the Web. N'hésitez pas à me contacter pour devenir à votre tour rédacteur sur le site.

Recommended for you

You must be logged in to post a comment Login