En la última década, la inteligencia artificial ha crecido alimentándose principalmente del mismo recurso: datos web públicos. Textos, imágenes, documentos, foros, noticias, blogs, repositorios... una enorme cantidad de material que los modelos han absorbido para construir sus capacidades lingüísticas y cognitivas. Pero esta fase está a punto de terminar.
Según las proyecciones citadas por Messari, la cantidad total de texto público disponible para el entrenamiento de modelos —aproximadamente 300 billones de tokens— podría agotarse completamente entre 2026 y 2032. Esto significa que los grandes modelos han "devorado internet", y ahora necesitan algo más. La próxima frontera para la IA ya no será la web: será el mundo real.
Y aquí es donde entra en juego el concepto de datos frontera, el recurso que definirá la competitividad de los modelos futuros. Video, audio, datos sensoriales, motores, datos robóticos, datos de acción, datos generados de la interacción con el mundo físico o interfaces digitales complejas. Datos que no pueden simplemente descargarse: deben ser recolectados, coordinados, verificados y, sobre todo, incentivados.
Por esta razón, la blockchain no es un detalle o una adición marginal: es la infraestructura que permite la orquestación de esta nueva economía de datos.
Los modelos más avanzados de 2025 —no solo lingüísticos sino también multimodales, centrados en la intención y orientados al razonamiento— ya no mejoran con la mera adición de conjuntos de datos textuales genéricos. Requieren algo mucho más específico y mucho más costoso de recopilar: datos que reflejen acciones, intenciones, movimiento, interacción, manipulación, contexto.
Este es el caso, por ejemplo, de los agentes de uso de computadora, IA capaz de interactuar directamente con la computadora como lo haría un humano. Para entrenar estos sistemas, las descripciones textuales no son suficientes: se necesitan "trayectorias", que son grabaciones reales de personas realizando tareas en la pantalla.
Un protocolo como Chakra, mencionado en el informe, ha desarrollado una extensión que permite a los usuarios grabar su pantalla mientras realizan tareas diarias: navegar por un sistema de gestión, preparar un documento Excel, editar imágenes, usar software profesional. Estas grabaciones se convierten en material invaluable para entrenar modelos como GLADOS-1, el primer modelo de uso de computadora construido casi en su totalidad con datos obtenidos por crowdsourcing.
Y este es precisamente el punto: estos datos no existen hasta que alguien los produce. Y hay que pagarlos. Al igual que se paga por la energía o la inferencia.
Otro ejemplo sorprendente proviene del mundo de los juegos. Una plataforma como Shaga, nacida como una red descentralizada de juegos en la nube, produce un subproducto extremadamente valioso: los llamados Pares de Acción de Gameplay (GAP), que son pares sincronizados de lo que sucede en la pantalla y los comandos que emite el jugador.
Estos son datos que no pueden recuperarse simplemente viendo videos en YouTube: necesitan ser capturados en la fuente, en el dispositivo del jugador. Y este tipo de conjunto de datos, según estimaciones reportadas por Messari, puede valer hasta $50–$100 por hora de gameplay.
Para ponerlo en contexto: Shaga ya ha acumulado más de 259,000 horas de gameplay, con un valor estimado de más de 26 millones de dólares. Y no es coincidencia que OpenAI, un año antes, ofreciera medio billón para adquirir Medal, una plataforma similar especializada precisamente en la grabación de gameplay.
Estos datos se utilizan para entrenar modelos de mundo, modelos que no solo interpretan el lenguaje sino que simulan la física, la causalidad y la interacción agente-entorno. Estos son los modelos que permitirán robots más inteligentes, agentes autónomos, sistemas de pronóstico avanzados e IA capaz de "moverse" en entornos complejos.
Y aquí es precisamente donde llegamos a la segunda gran ola de datos frontera: datos robóticos.
La IA del futuro no solo residirá en centros de datos. Vivirá en robots, drones, automóviles autónomos, sensores distribuidos y dispositivos domésticos inteligentes. Cada robot necesitará datos para aprender a moverse, identificar objetos, tomar decisiones y manipular entornos. Y esta recopilación de datos es increíblemente costosa: requiere hardware físico, operadores humanos para teleoperación, mantenimiento continuo y coordinación.
Proyectos como PrismaX, BitRobot, GEODNET y NATIX están comenzando a utilizar mecanismos incentivados típicos de Web3 para distribuir este costo a través de una red global de contribuyentes. En lugar de tener una sola empresa recopilando datos robóticos, miles de usuarios pueden hacerlo de manera coordinada, recibiendo compensación directa.
Es la misma lógica que la minería: pero en lugar de potencia computacional, aquí la contribución son los datos reales.
Si los robots y los Agentes de IA realmente comienzan a interactuar con el mundo físico, se requiere un nivel completamente nuevo de coordinación. Los robots necesitarán:
Aquí es donde surgen iniciativas como OpenMind y Peaq, que intentan construir una infraestructura en cadena dedicada a la comunicación e identidad de los robots. Un equivalente de DNS, pero para máquinas. Un sistema donde drones, automóviles autónomos, brazos robóticos o sistemas industriales pueden señalar su presencia, certificar sus acciones, pagar a otros sistemas e intercambiar servicios.
Es el comienzo de la economía de máquinas, una economía poblada por entidades no humanas que interactúan de forma autónoma en redes descentralizadas.
El informe también pone un enfoque significativo en IoTeX, un protocolo que en los últimos años ha transformado su infraestructura en una plataforma integral para la recopilación, certificación y orquestación de datos del mundo real.
IoTeX permite la conexión de sensores, dispositivos IoT, sistemas domésticos y equipos industriales, proporcionando:
Hoy, IoTeX coordina más de 16,000 dispositivos y docenas de proyectos verticales, proporcionando a los Agentes de IA la capacidad de acceder a datos verificados del mundo real. Una diferencia significativa en comparación con el simple scraping.
Según Messari, la trayectoria es clara: los datos se están convirtiendo en un activo financiero en todos los aspectos. Así como hoy se puede invertir en computación, GPU y colocación, en el futuro será posible invertir en "flujos de datos", comprar derechos de uso, apoyar redes que recopilan datos frontera y, a cambio, recibir retornos económicos.
Es una evolución casi inevitable: si los datos se vuelven escasos, valiosos y difíciles de producir, entonces tendrán un mercado, un precio, demanda y oferta.
Blockchain, una vez más, es la capa ideal para:
La IA no avanzará a través de modelos cada vez más grandes, sino a través de datos más ricos, obtenidos del mundo real y recopilados a través de redes globales de contribuyentes. Es la mayor fiebre del oro de la próxima década: no la de los chips, sino la de los datos.
Los protocolos Web3 no son un mero detalle: son la plataforma natural para recopilar, verificar, distribuir y compensar a quienes proporcionan estos datos. Si la web fue la materia prima de la primera ola de IA, el mundo real será la materia prima de la segunda.
Y esta vez, por primera vez, la recopilación no estará controlada por unos pocos gigantes, sino por las redes.
Redes abiertas, incentivadas, descentralizadas: la nueva infraestructura de datos frontera.


