Au cours des dix dernières années, l'intelligence artificielle s'est développée en se nourrissant principalement de la même ressource.Au cours des dix dernières années, l'intelligence artificielle s'est développée en se nourrissant principalement de la même ressource.

Données Frontalières et IA Physique : la nouvelle ruée vers l'or de l'intelligence artificielle (et pourquoi la blockchain devient indispensable)

2025/12/04 02:00

Au cours de la dernière décennie, l'intelligence artificielle s'est développée en se nourrissant principalement de la même ressource : les données web publiques. Textes, images, documents, forums, actualités, blogs, dépôts... une énorme quantité de matériel que les modèles ont absorbé pour construire leurs capacités linguistiques et cognitives. Mais cette phase est sur le point de se terminer.

Selon les projections citées par Messari, la quantité totale de texte public disponible pour l'entraînement des modèles — environ 300 billions de tokens — pourrait être complètement épuisée entre 2026 et 2032. Cela signifie que les grands modèles ont "dévoré l'internet", et maintenant ils ont besoin d'autre chose. La prochaine frontière pour l'IA ne sera plus le web : ce sera le monde réel.

Et c'est là qu'intervient le concept de données frontières, la ressource qui définira la compétitivité des modèles futurs. Vidéo, audio, données sensorielles, motrices, robotiques, données d'action, données générées par l'interaction avec le monde physique ou des interfaces numériques complexes. Des données qui ne peuvent pas simplement être téléchargées : elles doivent être collectées, coordonnées, vérifiées et, surtout, incitées.

Pour cette raison, la blockchain n'est pas un détail ou un ajout marginal : c'est l'infrastructure qui permet l'orchestration de cette nouvelle économie de données.


La fin du "Web Scraping" et le début des données à haute valeur

Les modèles les plus avancés de 2025 — non seulement linguistiques mais aussi multimodaux, centrés sur l'intention et orientés vers le raisonnement — ne s'améliorent plus avec le simple ajout d'ensembles de données textuelles génériques. Ils nécessitent quelque chose de beaucoup plus spécifique et beaucoup plus coûteux à collecter : des données qui reflètent les actions, les intentions, le mouvement, l'interaction, la manipulation, le contexte.

C'est le cas, par exemple, des agents d'utilisation d'ordinateur, des IA capables d'interagir directement avec l'ordinateur comme le ferait un humain. Pour entraîner ces systèmes, les descriptions textuelles ne suffisent pas : il faut des "trajectoires", qui sont des enregistrements réels de personnes effectuant des tâches sur l'écran.

Un protocole comme Chakra, mentionné dans le rapport, a développé une extension qui permet aux utilisateurs d'enregistrer leur écran tout en effectuant des tâches quotidiennes : naviguer dans un système de gestion, préparer un document Excel, éditer des images, utiliser un logiciel professionnel. Ces enregistrements deviennent un matériel inestimable pour l'entraînement de modèles comme GLADOS-1, le premier modèle d'utilisation d'ordinateur construit presque entièrement sur des données crowdsourcées.

Et c'est précisément le point : ces données n'existent pas tant que quelqu'un ne les produit pas. Et elles doivent être payées. Tout comme l'énergie ou l'inférence est payée.


La valeur croissante des paires Gameplay-Action

Un autre exemple frappant vient du monde du jeu. Une plateforme comme Shaga, née en tant que réseau de cloud gaming décentralisé, produit un sous-produit extrêmement précieux : les soi-disant Gameplay-Action Pairs (GAP), qui sont des paires synchronisées de ce qui se passe à l'écran et des commandes que le joueur émet.

Ce sont des données qui ne peuvent pas être récupérées simplement en regardant des vidéos sur YouTube : elles doivent être capturées à la source, sur l'appareil du joueur. Et ce type d'ensemble de données, selon les estimations rapportées par Messari, peut valoir jusqu'à 50 à 100 dollars par heure de gameplay.

Pour mettre cela en contexte : Shaga a déjà accumulé plus de 259 000 heures de gameplay, avec une valeur estimée à plus de 26 millions de dollars. Et ce n'est pas un hasard si OpenAI, un an plus tôt, a offert un demi-milliard pour acquérir Medal, une plateforme similaire spécialisée précisément dans l'enregistrement de gameplay.

Ces données sont utilisées pour entraîner des modèles du monde, des modèles qui n'interprètent pas simplement le langage mais simulent la physique, la causalité et l'interaction agent-environnement. Ce sont les modèles qui permettront des robots plus intelligents, des agents autonomes, des systèmes de prévision avancés et des IA capables de "se déplacer" dans des environnements complexes.


IA physique : l'intelligence entrant dans le monde physique

Et c'est précisément là que nous arrivons à la deuxième grande vague de données frontières : les données robotiques.

L'IA du futur ne résidera pas seulement dans les centres de données. Elle vivra dans les robots, les drones, les voitures autonomes, les capteurs distribués et les appareils domestiques intelligents. Chaque robot aura besoin de données pour apprendre à se déplacer, identifier des objets, prendre des décisions et manipuler des environnements. Et cette collecte de données est incroyablement coûteuse : elle nécessite du matériel physique, des opérateurs humains pour la téléopération, une maintenance continue et une coordination.

Des projets comme PrismaX, BitRobot, GEODNET et NATIX commencent à utiliser des mécanismes incitatifs typiques du Web3 pour répartir ce coût sur un réseau mondial de contributeurs. Au lieu d'avoir une seule entreprise collectant des données robotiques, des milliers d'utilisateurs peuvent le faire de manière coordonnée, recevant une compensation directe.

C'est la même logique que le mining : mais au lieu de la puissance de calcul, ici la contribution est les données réelles.


Coordination machine à machine : quand l'IA agit dans le monde réel

Si les robots et les agents d'IA commencent vraiment à interagir avec le monde physique, un niveau de coordination complètement nouveau est requis. Les robots devront :

  • s'identifier mutuellement,
  • effectuer des paiements,
  • acheter des services,
  • consommer des données,
  • exécuter des tâches de manière vérifiable,
  • démontrer avoir effectué une action,
  • s'appuyer sur des registres partagés d'identité et de réputation.

C'est là que des initiatives comme OpenMind et Peaq émergent, tentant de construire une infrastructure on-chain dédiée à la communication et à l'identité des robots. Un équivalent du DNS, mais pour les machines. Un système où les drones, les voitures autonomes, les bras robotiques ou les systèmes industriels peuvent signaler leur présence, certifier leurs actions, payer d'autres systèmes et échanger des services.

C'est le début de l'économie des machines, une économie peuplée d'entités non humaines qui interagissent de manière autonome sur des réseaux décentralisés.


Données réelles certifiées : le rôle d'IoTeX et des réseaux DePIN

Le rapport met également l'accent sur IoTeX, un protocole qui, ces dernières années, a transformé son infrastructure en une plateforme complète pour la collecte, la certification et l'orchestration de données du monde réel.

IoTeX permet la connexion de capteurs, d'appareils IoT, de systèmes domestiques et d'équipements industriels, fournissant :

  • une identité on-chain vérifiée pour chaque appareil,
  • un système d'agrégation de données,
  • un niveau d'attestation cryptographique via ZK,
  • des API qui permettent aux agents d'IA d'utiliser ces données en temps réel.

Aujourd'hui, IoTeX coordonne plus de 16 000 appareils et des dizaines de projets verticaux, offrant aux agents d'IA la capacité d'accéder à des données vérifiées du monde réel. Une différence significative par rapport au simple scraping.


Le point final : les données comme actif financier

Selon Messari, la trajectoire est claire : les données deviennent un actif financier à part entière. Tout comme aujourd'hui on peut investir dans le calcul, les GPU et la colocation, à l'avenir il sera possible d'investir dans des "flux de données", d'acheter des droits d'utilisation, de soutenir des réseaux qui collectent des données frontières et, en retour, de recevoir des rendements économiques.

C'est une évolution presque inévitable : si les données deviennent rares, précieuses et difficiles à produire, elles auront alors un marché, un prix, une demande et une offre.

La blockchain, une fois de plus, est la couche idéale pour :

  • coordonner cette économie,
  • vérifier son intégrité,
  • tracer la provenance,
  • distribuer les compensations,
  • protéger les utilisateurs,
  • soutenir la scalabilité mondiale.

Conclusion

L'IA n'avancera pas grâce à des modèles de plus en plus grands, mais grâce à des données plus riches, provenant du monde réel et collectées via des réseaux mondiaux de contributeurs. C'est la plus grande ruée vers l'or de la prochaine décennie : non pas celle des puces, mais celle des données.

Les protocoles Web3 ne sont pas un simple détail : ils sont la plateforme naturelle pour collecter, vérifier, distribuer et rémunérer ceux qui fournissent ces données. Si le web était la matière première de la première vague d'IA, le monde réel sera la matière première de la seconde.

Et cette fois, pour la première fois, la collecte ne sera pas contrôlée par quelques géants, mais par les réseaux.

Réseaux ouverts, incitatifs, décentralisés : la nouvelle infrastructure des données frontières.

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter [email protected] pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.