Cartesia enfrenta a ElevenLabs con Sonic-3, su modelo de voz con IA más rápido y emocional hasta la fecha

Cartesia

La competencia en el terreno de las voces generadas por inteligencia artificial se ha vuelto más intensa. La startup Cartesia ha presentado Sonic-3, su nuevo modelo de text-to-speech (TTS) que busca combinar naturalidad, rapidez y una expresividad poco habitual en este tipo de sistemas. 

Su capacidad para reproducir emociones —incluida la risa— y responder con tiempos inferiores a los de una persona real sitúan a la empresa en el centro del debate sobre el futuro del audio sintético. El movimiento también reaviva la comparación con ElevenLabs, hasta ahora la referencia del sector.

Velocidad y emoción como nuevo estándar

Cartesia asegura que Sonic-3 alcanza una latencia total de 190 milisegundos, por debajo del umbral de respuesta humana y notablemente más veloz que la mayoría de sus competidores. En su versión comercial, denominada Sonic 3’s AI, el sistema ofrece respuestas en apenas 40 milisegundos, frente a los 130ms de ElevenLabs. Esa diferencia de tiempo, unida al control en tiempo real de volumen y velocidad, permite mantener conversaciones fluidas, con un ritmo natural y sin la rigidez típica de los agentes automatizados.

El modelo no solo habla: también modula emociones complejas —desde entusiasmo hasta tristeza— y genera sonidos no verbales como risas o suspiros. Este tipo de matices amplía el potencial de los asistentes virtuales y acerca la experiencia al diálogo humano.

La clave técnica: los State Space Models

El avance de Cartesia se apoya en una arquitectura distinta a la de los tradicionales Transformers: los State Space Models (SSM). Mientras los Transformers reevalúan todo el contexto antes de generar cada palabra, los SSM retienen solo la información esencial sobre el tema y el tono de la conversación. El resultado es una mayor eficiencia computacional, lo que se traduce en respuestas más rápidas y voces más expresivas.

Este planteamiento proviene de los trabajos desarrollados por los cofundadores de Cartesia en el Stanford AI Lab, y apunta a un modelo más escalable y adaptable para aplicaciones de voz en tiempo real.

Escalabilidad y ambición global

Sonic-3 está diseñado para uso empresarial a gran escala. Soporta 42 idiomas, interpreta acrónimos con precisión y permite clonado de voz instantáneo o profesional. Según la compañía, ya gestiona millones de conversaciones mensuales y colabora con clientes como ServiceNow y Cresta.

Como gesto de confianza, Cartesia ha lanzado un desafío público: si su tecnología no supera el sistema de voz de una empresa interesada, donará 5.000 dólares a una organización benéfica elegida por esa compañía.

Con esta apuesta, Cartesia busca consolidar a Sonic-3 como un nuevo referente en generación de voz con inteligencia artificial: rápido, emocional y escalable. La carrera por lograr la voz más humana del mercado acaba de subir de nivel, y ElevenLabs ya no compite sola.

No hay comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *