Reduce el coste de la IA x10: Técnicas de prompt caching y errores comunes

Name: Reduce el coste de la IA x10: Técnicas de prompt caching y errores comunes
Uploaded: 2026-02-24 17:33:03.707964
Description: Análisis y extracción de conocimiento del video 'Reduce el coste de la IA x10: Técnicas de prompt caching y errores comunes'

una captura de imagen esta mañana para poderla debatir ahora también y es que dice esto, por ejemplo, es el panel de usage, el dashboard de uso de eh la cuenta de cloud de cursor que tenemos en a nivel de empresa en Codel. Entonces ahí tú ves cada interacción, ¿no?, que se hace con cursos de cada miembro del equipo. Entonces, ves cuántos tokens ha usado y qué coste ha tenido. En este caso, estamos viendo una llamada que ha gastado 3,illon y 600,000 tokens y ha costado $ y pico. Eh, una llamada y dices, "Hostia, 3,illones y medio de tokens así del tironazo. Javi, pero qué mierda has hecho! Ojo, de input hay bastante, ¿eh? De input hay 326,000. Pero representativamente en los 3 m000ones es un porcentaje muy bajo. Donde está la madre del cordero es en los casi 3 millones que se lleva ya cacher reit. Esto es lo clave para entender cómo poder reducir el coste y optimizar el uso que hagas, eh, porque no solo es una cuestión de coste, también es de eficiencia en el uso de la IA a la hora de programar. Entonces, [música] cuando vemos estos 3,6 millones de tokens, que no es lo mismo que ves en tu cursor cuando ves ahí el circulito de contexto, ahí solo ves lo del input. Entonces, cuando ves esto en el panel de uso, eh, ves el desglose incluso, ¿no? Y ves esto de cacherry, dices, "Hostia, casi 3 millones [música] de tokens que ha leído de la caché para un promp que era relativamente, vamos a decir, sencillo. ¿Qué pasa? ¿Qué entra de esto de caché? Si era el primer mensaje que le envío. Pues dentro de la caché, ni más ni menos, queridos amigas, queridos amigos, lo que entra es también el código que tiene indexado Cursor. Cursor lo que hace es indexar toda tu base de código del repositorio para que cuando la necesite buscar ahí y eh traérsela al contexto de el modelo para que este ahora sí pueda dar una mejor respuesta. Entonces entran cosas como eso, entran cosas como las herramientas de sistema de tools que le dé ya cursor, las tools que tú le hayas dado a nivel de MCP, a nivel de las descripciones, ojo, todo eso eh entra en la cache, con lo cual lo que optimicemos de eso, pues será coste y eficiencia, eh porque recordemos está por un lado la ventana de contexto y por otro lado está la ventana de atención. Todo lo que engordemos el contexto con cosas innecesarias que provoquen ruido, pueden despistar a la gente y provocar que las respuestas que dé sean peores que las que nos daría sin a lo mejor ese servidor MCP con 28 herramientas que tienes ahí metido José Luis, que lo sabemos y no lo usan nunca. Entonces, ¿esto a dónde me lleva? analizar los costes de cursor eh por token. Entonces, aquí en esta página de la documentación tienes los modelos, que es la primera tabla de capacidades que tiene, pero la segunda tabla es la interesante que son el pricing. Y aquí es un momento revelador que puede suponer el el divagar o el entender estas cosas. Y es que los precios a los que Cursor te ofrece eh los distintos modelos son los mismos precios que si fueras directamente a través de la API. Es decir, si yo me voy a la página de pricing de Antropic de cloud.com pricing y veo aquí cuánto cuesta el modelo Opus 4.6, vemos que de input tiene $ por millón de tokens. Si me voy a la de cursor que veíamos y vemos Opus 46 por millón de tokens, entonces aquí pasa algo interesante y es, hostia, cursor realmente no está sacando pasta de esto porque va a través de API. Entonces, a nivel de precio, cursor lo que te da es, oye, eh todos los planes tienen una cuota eh de uso de tokens incluida. Por ejemplo, el plan de $20, el Pro creo que se llama, pues tiene eh eh tiene incluido $20 de uso de esto. El plan Teams, ojo, cuidado que aquí sí que hay diferencia para empresas, es $40 por usuario al mes y te incluye $20 de uso, todo lo demás lo pagas. Y además hay algo que no lo ponen en esta página, pero sí en la de empresas, [música] y es que ellos te cobran 25 céntimos de dólar por cada millón de tokens adicional, solo si tienes una cuenta de Teams. Con lo cual, si tienes una cuenta individual, eso no lo pagas. Con lo cual pagas lo mismo que si tuvieras la suscripción a Cloud Code y tu hubieras acabado el uso que te incluye la suscripción. Entonces, [música] eh eso sí también diferencia el si seleccionas auto que deje que él selecione el modelo, el precio es fijo y lo determina en base a pues la disponibilidad, la demanda actual y toda la mierda esta, pero que resuben aquí, no nos olvidemos, la banca siempre gana, es decir, no te van a estar dando Opus 46 al precio de cursor uno, entonces tampoco seamos ingenuos. Entonces, eso ya lo hicieron en cursor al principio de de hace un año, justo hace un año, lo hicieron y dejaron de hacerlo porque le salía muy caro y estaban quemando mucho dinero. A aquí todo hasta ahora han sido datos. Esto que he dicho yo de la vaca sin pregana, eso es especulación, lo admitimos. mea culpa si queréis, pero mi opinión por algún lado al final se acaba colando. Entonces, por ir acotando el tema y convergiendo en algo interesante, primero eh estamos hiperchetados, es decir, estamos hipersubvencionados con las suscripciones de Cloud Code en el momento en el que las suscripciones eh que tienen un uso hiperetéreo, o sea, tú te vas a mirar el modelo de precios, que es lo que hemos hecho esta semana y tal, así en detalle, que esto se traducirá en cursos para, bueno, pues al final eh también poderle sacar un rendimiento por nuestra parte. Entonces, si queréis apoyar a que os traigamos estas cosas, eh, pero más cuidadas y con mejor todo, pues podéis suscribir a Codel Pro. Entonces, eh, esta semana es como, hostia, claro, es que la suscripción de Cursor es No, la Pro es seis veces25 el uso de la estándar de la la de empresas estándar es seis veces eh, coma 25 por el uso incluido en la suscripción pro. dices, "Ah, vale, la referencia es la Pro, voy a verme la Pro." "Vas a ver la Pro." Y dice, "No, esto es, no sé, otro multiplicador de la versión gratis." Dices, "Ah, vale, que la referencia es la gratis. Me voy a verla gratis." Te vas a verla gratis. Uso que te incluye. Bueno, sí, te incluimos ahí unos cuantos tokens. Dices, "Ah, vale, de puta madre." Pues pues ya está, ¿no? O sea, bajo demanda tú vas a cambiar esto cuando veas que tienes una cuota de mercado que te permita hacer patapam y ya está, porque es lo que está pasando y a partir de ese momento todo el mundo a pagar por API igual que pagas a día de hoy en cursos. [música] Entonces, esto es un poco toda la movida y por eso es tan importante el modelo de precio, entender el modelo de precio, porque veíamos aquí que, por ejemplo, estábamos hablando de $ por millón de token en el [música] caso de eh Opus eh Opus 46, ¿no? Y eso era de input. Pero ojo importante, si nos vamos a mirar cacher readit [música] es solo 50 céntimos de dólar. O sea, hemos saltado un orden de magnitud, con lo cual es 10 veces menos, es 10 veces más barato, con lo cual me interesa muchísimo que pasen cosas de tokens [música] en catch rit y no en input, porque un cache hit, hostia, me divide por 10 el precio. Con lo cual es interesante entender este artículo a pesar de que sea de cloud code porque las técnicas que aplican en cursos son tremendamente similares, ¿no? Entonces, habla del orden en el que poner las cosas para permitir más cacheo. Habla de un poco cómo compactar para eh o lo que pasa cuando, por ejemplo, tú usas subagentes. Cuando usas subagentes, el agente principal hace una compactación del contexto y se la pasa al subagente para que este pueda reutilizar la caché que ya haya de cosas que ya haya consultado el agente principal. Pero cuando tú estás en una sesión, y vuelvo a lo que comentabas, Raf, y en una misma sesión, en una misma conversación cambias el modelo porque dices, "Hostia, he programado todo esto con Opus 46 y ahora solo le quiero hacer una pregunta de por qué ha decidido hacer esta implementación así y no hacerlo con esta otra cosa, que es como lo habría hecho yo." La típica pregunta esa que dice, "Vale, pues para esto selecciono Haiku, que ya me lo va a poder explicar. Cagadita Pasturet. Cagada Pasturet." ¿Por qué? Porque en ese momento que tú has seleccionado otro modelo, ese modelo no tiene contexto y no tiene la caché, o sea, tiene que reconstruir el contexto de toda la conversación. Por lo tanto, no va a ser tanto eh no va a ser tan elevado el hit rate como si directamente se lo preguntas a Oppus 46, que puede que te salga más barato. Entonces, la pregunta aquí es, Rafa, ¿esto se publica anoche? Anoche yo me empapo, entiendo cómo funciona todo esto. Antes de ayer publicábamos el artículo de lo que acabas de comentar de Opus para planear, que es algo que veníamos diciendo, es algo que va y viene. Eh, hace un año era santo, palabrita de Niño Jesús, ¿no? De opus para planificar, Sonet para ejecutar. Luego se abarataron las costes, las diferencias y era Sonet para todo. Ahora vuelve a haber diferencias y dices, hostia, no. El modo Opus Plan es lo que recomendamos. [música] Y la pregunta es, si hacemos eso, ¿no estamos incurriendo en esto que hablamos? Cloud Code hace cosa de un mes, mes y medio cambió también una cosa que es cuando haces el modo plan y le vas a ejecutar. La opción por defecto no es ejecutar el modo plan, es limpiar el contexto y ejecutar. Entonces, claro, de limpiar el contexto y ejecutar a cambio el modelo que se va a limpiar el contexto de todas formas, si voy a ejecutar como mucho está esa parte de caché que puede utilizar o no, pero no sé si al limpiar el contexto ya deja de usar esa caché también porque es como una nueva conversación que le pasa el contexto. Es interesante, queridos amigos, porque eh ahora dicho esto y me has triguereado. Claro, la respuesta está directamente en el post y es que el cambio ese que hicieron era que en vez de entrar al modo plan y limpiar o otro cambio que hicieron después, no lo sé, pero a día de hoy el modo plan no parte de cero en el contexto, sino que en verdad es ejecutar una tool de enter plan mode y exit mode, con lo cual realmente estás en esa misma sesión, pero has ejecutado esa tool, con lo cual Sí que presumiblemente el ese cambio de modelo dentro de ese uso en particular sí que aprovecharía toda la caché que se hubiera generado porque se está haciendo a través de estas tool de enter y exit mode, ¿no? Entonces el cambio si si se aprovecha pierde el sentido, sí, 100% porque saldría más barato con opus. Y también caba decir depende el plan que tengas si tienes un plan de max eh por cinco donde ya no llegas al límite tira todo con opus porque va a ir mejor. Cuando tienes menos pasta, ahí es cuando tienes que ir jugando y probando ver qué es lo más óptimo y qué es lo que más te hace durar tus tokens. Es un poco mierder todo esto porque esto sería como sumamente fácil de validar, ¿no? De decir, "Bueno, pues haces la prueba, ves qué contexto ha usado, que no, pero el problema es que lo máximo que tienes es el barractext, eh, la tuash command este de barra context, que sí te dice lo que tienes en contexto, pero no te dice estadísticas de hit rate y mierdas así a ese nivel. Y en el caso de cursor te lo desglosa un poco, pero te lo desglosa por petición, con lo cual tampoco acabo de poder hacer esto, ¿no?, que decimos. Con lo cual eh, ah, qué rabia, tío, no poder ver estas cosas. Si se ocurre eh forma, pues eh encantados. Cusat que te dice alguna cosa, pero te la agrupo por día, no es no es quiero analizar esta conversación, que es lo que ha pasado. Sí, sí. Así que totalmente abiertos a a que nos digáis cosas. Y encima estuve mirando también los hooks para ver si a través de hooks podíamos tener reporting de esto. Y hay una feiture request en la community de Cursor que buena suerte porque creo que el primer voto que se le daba era el mío, entonces dudo mucho que hagan nada porque haya esa feiture request, que es que eh eso el hook de que ha acabado una interacción tuviera el análisis de cuántos tokens ha leído de caché, cuánto y con eso ya te enganchas a ese hook y haces lo que sea, permites hacer herramientas de análisis, mierdas así, pero de momento no lo tenía. Eh, se me ha ido esta noticia de madres más parecida a un eh vídeo de Codeli más que noticia del café con Codeli. Decidnos qué os ha parecido en los comentarios y eh seguramente haremos un corte para publicarlo como vídeo porque creo que hay eh muchas lecturas interesantes. También el autocatching es algo, por destacar también algo de todos estos artículos, es algo que ahora como se establece es así, es decir, tú tienes toda la cadena de mensajes de roll user asistan y tal y lo que hace Cloudco por debajo es simplemente a la hora de interaccionar con el modelo es pasarle este cache controlemal, pero antes es algo que también hacía en Cloud Code, el tema de la caché venía ya estando, no decimos que se haya implementado ahora la caché, lo que decimos es que es nuevo y que la forma de hacerlo antes era a través de eh break points que eh aquí le ponías el cache control en el mensaje y tenías tú desde el cliente, desde la gente que ir moviendo este cache control, ¿no? Por así decirlo. Entonces eh ahora como que se simplifica todo eso mucho más y bueno, pues lo tenemos ahí. Siguiente noticia. Rafincho. Yo entiendo 100% que Cloud Code no quiera que usen su subvención en otros sitios. O sea, oye, estamos teniendo Cloud Code con una subvención muy grande, o sea, puedes usar mucho más tokens que si vas por la API directamente, pues entiendo que no quieras que un Open Code use por detrás tu suscripción. Oye, no, si es por Open Code, tú pagas por token, por uso, porque esto aquí es para mi herramienta que le estamos dando cariño, le estamos dando forma y porque queremos que te vicies en nuestro ecosistema y acabes también pagando la parte B2B, que es donde sacan más pasta. Tanto aquí como ahora pasa mucho, ¿no?, que ha habido el ruido de de oye, Cloud Code solo se puede usar en Cloud Code, ya han hecho oficial, no se puede usar en open crow. Ya ya ahí ya no se puede. Ahí ya tenemos que ahí se quita porque mucha gente está usando una suscripción solo para eso vamos a banear esas cuentas. Entonces eso puede pasar. Esto es sentido, o sea, he visto mucha entiendo. Esto es la palabra de mod, el agent harness, ¿no? Que es como toda esa cáscara que es el que provee el el agente, ¿no? Eh, a la hora de interaccionar con un determinado modelo, ¿no? Por eso es diferente interaccionar con un Opus 46 desde cursor que interaccionar con ese mismo Opus 46 desde Cloud Code, ¿no? que pues, por ejemplo, lo que hablamos de que cursor indexa toda la base de código, esa lo hará de forma diferente Cloud Code. Entonces tiene sentido lo que planteas. Veremos a ver cómo evoluciona todo. Lo que es guay es que tengamos la suerte de que haya competencia entre pues un Open AI, un Antropic, un [música] quien sea, ¿no? Eh, así que y uno que nos olvidamos que ahora te lo enseño. Vale, perfecto. Pues gente, sillas si os interesan estas cosas ya sabéis, intentamos traeros noticias frescas y calidad que aprendamos todos. Codel y enseña, entretiene que decimos. Así que eh si os gusta pues recomendamos y agradecemos más que recomendamos, agradecemos enormemente si pasáis el enlacito de oye, mirad este café con Codel y que hoy han hablado de esto que en el curro creo que pues nos ayudaría a reducir el gasto o creo que son cosas que no estamos teniendo en cuenta a la hora de usar la IA. Eh, mírate este minuto cuando empiezan a hablar del tema de la caché y de los distintos eh tokens que al final estamos consumiendo y que no tenemos visibilidad directamente desde el cliente, por ejemplo, en el caso de cursor o cosas así, pues se agradece enormemente porque así más gente se podrá suscribir, como te animábamos a que lo hagas al eh al canal de YouTube y pues poco a poco hacer girar la rueda de la fantasía. Rafa te pincho, cuéntame. Tú esta web la reconoces, ¿no? Solo viendo este cachito aquí. Hostia, sí. Google Trench. ¿Cuál crees que gana? Últimos 12 meses. Café con Codeti, nuestro espacio matinal con las últimas noticias sobre tecnología, programación y cómo no, entretenimiento. [música]

Reduce el coste de la IA x10: Técnicas de prompt caching y errores comunes

Hacer Pregunta

Respuesta:

Historial de Preguntas

Análisis

RESUMEN

IDEAS PRINCIPALES

INSIGHTS

Sabiduría

RESUMEN

IDEAS

INSIGHTS

CITAS

HÁBITOS

HECHOS

REFERENCIAS

CONCLUSIÓN EN UNA FRASE

RECOMENDACIONES

Reduce el coste de la IA x10: Técnicas de prompt caching y errores comunes

Hacer Pregunta

Respuesta:

Historial de Preguntas

Análisis

RESUMEN

IDEAS PRINCIPALES

INSIGHTS

Sabiduría

RESUMEN

IDEAS

INSIGHTS

CITAS

HÁBITOS

HECHOS

REFERENCIAS

CONCLUSIÓN EN UNA FRASE

RECOMENDACIONES

Transcripción

Otros