Bienvenue à SZ Reaching Tech Limited

La première étape pour déterminer l‘efficacité de l‘intelligence artificielle et de l‘apprentissage automatique

:2021-05-27 :2082
Une fois le pipeline automatisé construit, les algorithmes qu‘il contient ont été en mesure de terminer la plupart du travail et il n‘est presque pas nécessaire de mettre à jour le processus de collecte de données. Mais veuillez noter que l‘achèvement du pipeline ne signifie pas qu‘il peut fonctionner indéfiniment une fois pour toutes. Nous devons continuellement explorer et analyser les données sous-jacentes au fil du temps, en nous concentrant sur les modes de dérive qui érodent constamment les performances des pipelines.
La bonne nouvelle est que l‘équipe de données est pleinement capable de réduire ce risque d‘érosion, mais le coût est le temps et les efforts nécessaires. Afin de maintenir l‘efficacité d‘exécution du pipeline automatisé, nous devons régulièrement effectuer une analyse exploratoire des données (EDA) pour nous assurer que l‘ensemble du système fonctionne toujours avec précision.
Qu‘est-ce que l‘analyse exploratoire des données?
L‘EDA est la première étape vers la réalisation réussie de l‘IA et du ML. Avant d‘analyser l‘ontologie de l‘algorithme, nous devons d‘abord comprendre le contenu des données. La qualité des données déterminera finalement l‘effet réel des pipelines d‘analyse en aval. Après l‘effet correct, EDA aidera les utilisateurs à identifier les modèles et le bruit inutiles dans les données, et en même temps guidera les entreprises à sélectionner plus précisément les algorithmes appropriés.
Au stade EDA, nous devons interroger activement les données pour nous assurer que les modèles de comportement sont conformes aux attentes. Tout d‘abord, commencez par les dix questions importantes suivantes qui nécessitent une analyse complète:
1.Avez-vous suffisamment de points de données?
2. La mesure du centre de données et de la dispersion répond-elle aux attentes?
3. Combien de points de données sont de bonne qualité et peuvent être utilisés pour une analyse réelle?
4. Y a-t-il des valeurs manquantes? Ces mauvaises valeurs constituent-elles une partie importante des données?
5. Quelle est la distribution empirique des données? Les données sont-elles conformes à la distribution normale?
6. Y a-t-il des clusters ou des groupements spéciaux dans la valeur?
7. Y a-t-il des valeurs aberrantes? Comment gérer ces valeurs aberrantes?
8. Y a-t-il des corrélations entre les différentes dimensions?
9. Est-il nécessaire d‘effectuer la conversion des données par le reformatage et d‘autres moyens d‘analyse et d‘interprétation en aval?
10. Si les données sont de grande dimension, la dimensionnalité peut-elle être réduite sans perdre trop d‘informations? Certaines dimensions sont-elles du bruit?
Ces problèmes donneront lieu à davantage de problèmes. Ce n‘est pas une liste complète de questions, mais juste le début de la réflexion. Au final, j‘espère que chacun pourra établir une meilleure compréhension du modèle de données existant, puis traiter correctement les données et choisir l‘algorithme de traitement le plus adapté.
  •   2022/11/22
  • Si l‘IA a un sens de l‘odorat, que peut-elle faire?  2021/05/27