Claude Platform Docs
  • Mensajes
  • Agentes gestionados
  • Administración

Search...
⌘K
Casos de uso
Descripción generalEnrutamiento de ticketsAgente de atención al clienteModeración de contenidoResumen legal
Ingeniería de prompts
Descripción generalMejores prácticas de promptsPrompts para Claude Fable 5Prompts para Claude Opus 4.8Prompts para Claude Sonnet 5Herramientas de prompts de la Consola
Probar y evaluar
Definir el éxito y crear evaluacionesUso de la herramienta de evaluación en la ConsolaReducir la latencia
Reforzar las barreras de protección
Reducir alucinacionesAumentar la consistencia de salidaMitigar jailbreaksReducir la filtración de prompts
Referencia
Glosario

Log in
Reducir la latencia
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Mejores prácticas/Probar y evaluar

Reducir la latencia

La "latency" (latencia) se refiere al tiempo que tarda el modelo en procesar un prompt y generar una salida. La latencia puede verse influenciada por varios factores, como el tamaño del modelo, la complejidad del prompt y la infraestructura subyacente que soporta el modelo y el punto de interacción.



Siempre es mejor diseñar primero un prompt que funcione bien sin restricciones de modelo o de prompt, y luego probar estrategias de reducción de latencia. Intentar reducir la latencia de forma prematura podría impedirte descubrir cómo se ve el máximo rendimiento.


Cómo medir la latencia

Al hablar de latencia, es posible que encuentres varios términos y mediciones:

  • Latencia base: Es el tiempo que tarda el modelo en procesar el prompt y generar la respuesta, sin considerar los tokens de entrada y salida por segundo. Proporciona una idea general de la velocidad del modelo.
  • Time to first token (TTFT) (tiempo hasta el primer token): Esta métrica mide el tiempo que tarda el modelo en generar el primer token de la respuesta, desde el momento en que se envió el prompt. Es particularmente relevante cuando usas streaming (más sobre esto más adelante) y quieres proporcionar una experiencia ágil a tus usuarios.

Para una comprensión más profunda de estos términos, consulta nuestro glosario.


Cómo reducir la latencia

1. Elige el modelo adecuado

Una de las formas más sencillas de reducir la latencia es seleccionar el modelo apropiado para tu caso de uso. Anthropic ofrece una gama de modelos con diferentes capacidades y características de rendimiento. Considera tus requisitos específicos y elige el modelo que mejor se adapte a tus necesidades en términos de velocidad y calidad de salida.

Para aplicaciones donde la velocidad es crítica, Claude Haiku 4.5 ofrece los tiempos de respuesta más rápidos mientras mantiene una alta inteligencia:

Python
import anthropic

client = anthropic.Anthropic()

# Para aplicaciones sensibles al tiempo, usa Claude Haiku 4.5
message = client.messages.create(
    model="claude-haiku-4-5",
    max_tokens=100,
    messages=[
        {
            "role": "user",
            "content": "Summarize this customer feedback in 2 sentences: [feedback text]",
        }
    ],
)

Para más detalles sobre las métricas de los modelos, consulta nuestra página de descripción general de modelos.

2. Optimiza la longitud del prompt y de la salida

Minimiza la cantidad de tokens tanto en tu prompt de entrada como en la salida esperada, sin dejar de mantener un alto rendimiento. Cuantos menos tokens tenga que procesar y generar el modelo, más rápida será la respuesta.

Aquí tienes algunos consejos para ayudarte a optimizar tus prompts y salidas:

  • Sé claro pero conciso: Procura transmitir tu intención de forma clara y concisa en el prompt. Evita detalles innecesarios o información redundante, teniendo en cuenta que Claude carece de contexto sobre tu caso de uso y puede que no haga los saltos lógicos esperados si las instrucciones no son claras.
  • Pide respuestas más cortas: Pídele a Claude directamente que sea conciso. La familia de modelos Claude 3 tiene una mejor capacidad de dirección que las generaciones anteriores. Si Claude está generando una longitud no deseada, pídele que modere su verbosidad.
    
    Debido a cómo los LLMs cuentan tokens en lugar de palabras, pedir un recuento exacto de palabras o un límite de palabras no es una estrategia tan efectiva como pedir límites de párrafos o de oraciones.
  • Establece límites de salida apropiados: Usa el parámetro max_tokens para establecer un límite estricto en la longitud máxima de la respuesta generada. Esto evita que Claude genere salidas excesivamente largas.

    Nota: Cuando la respuesta alcanza max_tokens tokens, la respuesta se cortará, quizás a mitad de una oración o de una palabra, por lo que esta es una técnica poco refinada que puede requerir posprocesamiento y suele ser más apropiada para respuestas de opción múltiple o respuestas cortas donde la respuesta aparece justo al principio.

  • Experimenta con la temperatura: El parámetro temperature controla la aleatoriedad de la salida. Valores más bajos (por ejemplo, 0.2) a veces pueden producir respuestas más enfocadas y cortas, mientras que valores más altos (por ejemplo, 0.8) pueden resultar en salidas más diversas pero potencialmente más largas.

Encontrar el equilibrio adecuado entre la claridad del prompt, la calidad de la salida y el recuento de tokens puede requerir algo de experimentación.

3. Aprovecha el streaming

El streaming es una función que permite al modelo comenzar a enviar su respuesta antes de que la salida completa esté terminada. Esto puede mejorar significativamente la capacidad de respuesta percibida de tu aplicación, ya que los usuarios pueden ver la salida del modelo en tiempo real.

Con el streaming habilitado, puedes procesar la salida del modelo a medida que llega, actualizando tu interfaz de usuario o realizando otras tareas en paralelo. Esto puede mejorar enormemente la experiencia del usuario y hacer que tu aplicación se sienta más interactiva y ágil.

Visita streaming de Messages para aprender cómo puedes implementar streaming para tu caso de uso.

Was this page helpful?

  • Cómo medir la latencia
  • Cómo reducir la latencia
  • 1. Elige el modelo adecuado
  • 2. Optimiza la longitud del prompt y de la salida
  • 3. Aprovecha el streaming