De nos jours, des données sont recueillies partout sur le Web. Par exemple, lorsque vous soumettez vos renseignements personnels sur un site Web pendant que vous achetez un produit en ligne, ce site Web a déjà recueilli des données à votre sujet sous la forme de vos nom, courriel, numéro de téléphone et adresse. Si ce site Web est si populaire qu’il est capable de vendre un produit presque toutes les secondes ou même toutes les minutes, alors les données (renseignements personnels des clients) qu’il recueille sont en grand volume, vitesse et variété. De telles données sont souvent qualifiées de grandes données.
D’autres exemples pourraient être les chemins de fer et les vols, où les billets sont réservés en ligne presque toutes les secondes. En contreéquence, les systèmes ferroviaires et les systèmes de réservation de vols collectent des données numériques à un rythme très rapide et en quantité énorme ; c’est ce qui rend ” Big Data ” différent des données normales. La principale différence réside dans les cinq V, comme nous l’avons mentionné plus en détail ici.
Les données normales sont collectées à un rythme très lent sur une longue période de temps, et sont donc faciles à gérer dans différents formats comme les feuilles de calcul, les bases de données MySQL, etc. Ce n’est généralement pas le cas avec Big Data, cependant, car il est souvent de taille téraoctets et si difficile à manipuler et à traiter à l’aide des applications/outils traditionnels.
Hadoop est le système de gestion de base de données traditionnel pour le stockage et le traitement des grandes données. Une grande quantité de données brutes est stockée dans HDFS, le composant principal de Hadoop, mais les données agrégées/sommées sont envoyées à MySQL pour analyse.
Votre entreprise a-t-elle besoin de l’analyse des données ?
Beaucoup d’entreprises n’ont pas vraiment ” besoin ” de Hadoop, à moins qu’elles ne traitent réellement avec Big Data. Si votre flux de données est lent, une base de données MySQL peut facilement faire le travail. Lorsque vous achetez un pack d’hébergement web pour votre site web d’entreprise, qu’il s’agisse d’un serveur mutualisé ou dédié, vous obtenez déjà la base de données – vous pouvez y accéder via PHPMYADMIN dans le panneau de configuration de votre hébergement web. Il est possible d’embaucher un programmeur PHP (un langage de programmation) qui peut développer des scripts pour stocker vos données dans une base de données MySQL et ensuite effectuer l’analyse des données, selon les exigences de votre entreprise. L’analyse des données n’est rien d’autre que d’analyser les données comme on le souhaite et de les trier ensuite pour en tirer profit d’une manière ou d’une autre. Supposons que vous exploitez un site Web de commerce électronique pour vendre vos produits en ligne. Supposons que vous recevez en moyenne quatre à cinq commandes par jour. Comme vous recevez un très faible nombre de commandes quotidiennes, votre flux de données, sous forme d’informations clients, sera également lent, ne nécessitant donc pas Hadoop ; une simple base de données MySQL fera l’affaire.
Comment se déroule la collecte de données ?
Maintenant, si vous collectez des données à ce rythme depuis deux ans et que vous avez besoin d’effectuer des analyses, alors il s’agira toujours d’analyses de données et non de Big Data analytics, car les requêtes MySQL peuvent toujours fonctionner pour de si petites données. Hadoop n’est nécessaire que lorsque les requêtes MySQL ne permettent pas d’analyser l’énorme quantité de données collectées au fil des ans (disons cinq à dix ans), ou lorsque l’afflux de données se fait à un rythme rapide. Dans ce cas, vous devez passer à l’analyse de grandes données. Supposons que la requête contreiste à trouver le produit qui reçoit le nombre maximum de commandes d’une ville donnée. Si vous avez besoin d’effectuer cette requête sur des téraoctets de données, MySQL peut ne pas être en mesure d’effectuer la requête et dans ce cas, vous aurez besoin de l’aide du système plus avancé, Hadoop, qui est conçu pour l’analyse de grandes données.
Si vous êtes à la phase de démarrage de votre entreprise, vous devriez d’abord contreidérer la base de données MySQL pour vos besoins d’analyse de données ; au fur et à mesure que vous progressez, et lorsque MySQL ne sera plus en mesure de traiter vos requêtes ou flux de données, vous pourrez alors prendre la décision de passer au système Big Data.