Cuando usas herramientas como Claude Code, todo lo que escribes y todo lo que recibes como respuesta se convierte en tokens. Son pequeñas partes de texto que la IA procesa para poder entenderte y contestar.
Hay que tener en cuenta que la IA no cuenta solo el mensaje que envías en ese momento. Cada vez que escribes algo, la herramienta tiene en cuenta toda la conversación anterior para poder responder con sentido. Eso hace que, sin darte cuenta, el número de tokens crezca rápido, sobre todo si el chat es largo o si mezclas varios temas en una misma conversación.Y cuantos más tokens hay, más trabajo hace el sistema y más se paga por ese uso. Por eso, traemos algunas acciones que puedes implementar para optimizar los tokens.
Cambios pequeños que reducen mucho el consumo
Uno de los ajustes más fáciles es escribir sin rodeos. Cuanto más directo seas, menos tokens usas. Usa frases cortas, sin adornos ni introducciones largas. Otro punto importante es limpiar el contexto. Opta por el llamado “modo Caveman”, que hace que la IA responda eliminando artículos y texto innecesario. El resultado son respuestas mucho más cortas, pero igual de útiles.
Si cambias de tema, lo mejor es empezar una conversación nueva para evitar que todo lo anterior siga sumando coste. Prueba a usar “ /clear “ para empezar de cero. También ayuda pedir respuestas más breves, ya que no siempre se necesitan explicaciones largas. Si reduces la cantidad de texto que devuelve la IA, reduces también el gasto.
Menos carga y mejor uso en tareas grandes
Cuando el uso es más intensivo, entran en juego otros ajustes claves. Uno de ellos es el uso de caché en las instrucciones. Si trabajas siempre con un mismo contexto largo, no hace falta enviarlo completo cada vez. Esto se hace añadiendo en la configuración «cache_control»: {«type»: «ephemeral»}. Se puede guardar y reutilizar, de forma que solo pagas el coste completo una vez y después mucho menos en cada uso.
Otra opción es separar el trabajo pesado usando subagentes. En lugar de analizar grandes cantidades de información dentro del mismo chat, puedes hacerlo en otro proceso y traer solo un resumen corto. Así evitas llenar tu conversación principal con miles de tokens
Y si haces tareas grandes o repetitivas, puedes usar la Batch API. Este sistema permite procesar trabajos por bloques, con un coste más bajo y mejores resultados en tareas complejas, porque la IA no tiene que responder al momento y puede dedicar más tiempo a cada análisis.
El objetivo es entender cómo funciona el sistema. Con pequeños cambios en cómo escribes y organizas el trabajo, puedes reducir mucho el gasto sin dejar de usar la herramienta igual que antes.

