Saluden al tokenmaxxing que se va

La incitación al uso de tokens para demostrar el trabajo que se hace llevó un gasto enorme sin que se puedan reconocer mejoras en lo que se brinda a los usuarios.

Saluden al tokenmaxxing que se va
Photo by Andrey Matveev / Unsplash

Jensen Huang, CEO de NVIDIA, la principal empresa que produce los chips que se utilizan para entrenar y hacer funcionar a los agentes de Inteligencia Artificial Generativa, con una fortuna cercana a 125 mil millones de dólares, dijo en un podcast[1], allá por marzo de este año, que si sus mejores empleados no gastaban el equivalente a la mitad de su sueldo anual en tokens de IA, estaría muy decepcionado. De hecho, pensaba que parte de las compensaciones del sueldo debían darse en tokens para uso de las IAs generativas. Además de Jensen, otros CEOs de grandes compañías alentaron el uso masivo de las IA generativas para el desarrollo en sus empresas. Por poner algunos ejemplos, el CEO de Microsoft, Satya Nadella, dijo que el 30% de Windows 11 estaba creado con IAs, y por la misma fecha del podcast de Jensen, Dario Amodei, CEO de Anthropic dijo que en 6 meses el 90% del software iba a estar escrito por IAs. Es necesario aclarar que los tres están muy interesados en convencer a los inversores y empresarios, que es esencial para la mejora de las empresas que utilicen cada vez más las herramientas de IA que ellos producen (caso de Microsoft y Anthropic) o de las que dependen sus enormes ganancias (en el caso de NVIDIA).

A partir de estos discursos se creó el concepto del título: tokenmaxxing, una forma de medir el rendimiento de los trabajadores/programadores por el uso que hacen de los tokens de IA. Antes de avanzar, ¿qué es un token en el ámbito de la IA generativa? En general, se dice que los grandes modelos de lenguaje crean relaciones matemáticas entre palabras representadas por vectores en un espacio multidimensional, pero lo que hacen es dividir las palabras en partes (los tokens, que no necesariamente son sílabas) y relacionar esos tokens. Por ejemplo, si yo escribo en la ventana de ChatGPT o Claude "¿Cuántas erres hay en la palabra frutilla?", estoy usando siete palabras. Pero el modelo lo divide en tokens, con lo que esa frase podría representar 15 tokens[2].

Las empresas que brindan el servicio de los chats con los modelos de lenguaje tienen dos formas de cobrar: 1) una tarifa plana por mes que incluye X cantidad de tokens o 2) cobrar por los tokens que usamos (en general en fracciones de centavos de dólar). El precio del token es diferente por modelo que usemos y, además, es diferente entre tokens de entrada (los que enviamos con cada pregunta) y los tokens de salida (lo que nos responde el modelo)[3]. En algunos casos tenemos un servicio gratuito que incluye una cantidad pequeña de tokens. En el caso de los servicios en línea, para gastar muchos tokens tenemos que interactuar mucho tiempo (en el modelo pregunta/respuesta). Pero con la aparición de los agentes autónomos y las aplicaciones como Claude Code o Codex, el consumo de tokens se acelera enormemente, porque el agente se pregunta y responde hasta conseguir la respuesta adecuada (acá estoy humanizando a los complejos algoritmos). Como ejemplo, una pequeña tabla de precios en OpenRouter[4] al 30 de mayo:

Modelo Costo Entrada Costo Salida
Opus 4.8 (Anthropic) $5 Mtok[5] $25 Mtok
Haiku 4.5 $1 Mtok $5 Mtok
GPT 5.5 (OpenAI) $10 Mtok $30 Mtok
Nemotron 3 (NVIDIA) $0,09 Mtok $0,45 Mtok
Deepseek 4 (Deepseek) $0,7605 Mtok $1,521 Mtok

Otro de los problemas es que es muy difícil calcular cuánto va a costar un proyecto, porque no sabemos cuántos tokens va a terminar usando el agente o sistema. Y el otro problema relacionado con esto es cómo medir la eficiencia de lo que se está usando, cómo saber cuánto ha mejorado el proceso con el uso de las IAs generativas. Y así llegamos al problema que la semana pasada se reconoció con el tokenmaxxing a partir de varias noticias relacionadas. Una de ellas era sobre Uber, donde el jefe del equipo tecnológico de dijo que se habían gastado el presupuesto en Claude Code del año en tan solo cuatro meses, y estos últimos días el CEO agregó que, para peor, no se puede ver cómo ese gasto mejoró el desarrollo en la empresa:

"Esa relación no está ahí todavía, ¿no?", dijo. "Creo que, quizás, implícitamente se están haciendo más cosas, pero es muy difícil dibujar una línea entre una de esas estadísticas y decir 'OK, ahora estamos produciendo un 25% más de funcionalidades para el cliente'".

La misma semana, se filtró que Microsoft anunció que daría de baja las cuentas de sus desarrolladores en Claude Code, y aunque la excusa fue que se le daría prioridad a su propia herramienta (Copilot CLI) también se mencionaron razones de lo que habían pagado por el uso de esta herramienta por parte de sus trabajadores.

Y eso que sabemos que el costo de estas herramientas está subsidiado para que más gente las use, es decir, que pagamos mucho menos de lo que cuesta el servicio. ¿Y por qué estas empresas pueden seguir dando miles de millones de dólares en pérdida? Porque es una apuesta por conquistar la Inteligencia Artificial General y, porque si hubiera que pagar lo que vale, seguramente se usaría mucho menos y sería difícil justificar que se sigan construyendo enormes centros de datos.

Una pregunta abierta es qué pasará con todo ese código generado por IAs cuando los tokens dejen de estar subsidiados, quién tendrá que entender lo que generaron esos algoritmos para poder modificarlo/mejorarlo, o si habrá que empezar de nuevo. Seguramente no está dentro del rango de preocupaciones de Jensen Huang. Como mucho, su preocupación estará en el destino de los chips de procesamiento que se acumularán en los almacenes de NVIDIA.

Recomendación

Breve historia de la IA es un libro muy interesante como resumen de la historia de esta disciplina. No es su objetivo, pero para mi le falta algo de la problemática del estado actual de la IA generativa. Fuera de eso, es muy interesante para conocer los distintos problemas a los que se enfrentaron y las soluciones encontradas.


  1. https://www.youtube.com/watch?v=gwW8GKwHB3I ↩︎

  2. Cada modelo tiene su propia división de tokens, así que no se sabe exactamente en cuántos tokens cada modelo divide las frases ↩︎

  3. Agregar algunos precios ↩︎

  4. OpenRouter es una especie de mayorista de modelos, uno les paga a ellos y después puede elegir qué modelo usar de todos los disponibles. ↩︎

  5. La unidad de medida es millones de tokens, eso quiere decir que cada pregunta/respuesta consume bastante menos de esos 5 dólares. ↩︎