Dentro de la Fortaleza de Anthropic: Cómo Están Haciendo la IA Segura para Todos

En el mundo en rápida expansión de la inteligencia artificial, una pregunta crucial se cierne: ¿cómo nos aseguramos de que estas poderosas herramientas sean útiles y no dañinas? La empresa de IA Anthropic está abordando esto de frente con su popular modelo, Claude, y su estrategia es menos como un único cortafuegos y más como una fortaleza medieval con múltiples capas de defensa.

En el corazón de esta operación se encuentra el equipo de Salvaguardas de Anthropic. No es el típico equipo de TI; son una unidad especializada de expertos en políticas, científicos de datos, ingenieros y analistas de amenazas dedicados a comprender y neutralizar el posible uso indebido de la IA.

El Reglamento y el Equipo Rojo

La primera capa de defensa es una Política de Uso clara y completa. Este es el reglamento fundamental que dicta cómo Claude puede y no puede ser utilizado, con directrices específicas sobre cuestiones críticas como la integridad electoral, la seguridad infantil y el uso responsable en campos sensibles como las finanzas y la atención médica.

Para asegurar que estas reglas sean robustas, el equipo emplea un 'Marco Unificado de Daños' para considerar sistemáticamente todos los posibles impactos negativos, desde los personales hasta los sociales. También invitan a expertos externos —especialistas en campos como la lucha contra el terrorismo y la seguridad infantil— a realizar 'Pruebas de Vulnerabilidad de Políticas'. Estos expertos actúan como un equipo rojo, intentando intencionalmente "romper" a Claude con indicaciones difíciles para descubrir debilidades ocultas. Un ejemplo real de este proceso en acción fue durante las elecciones estadounidenses de 2024. Después de que las pruebas revelaran que Claude podría proporcionar información de votación desactualizada, Anthropic implementó un banner que dirigía a los usuarios a TurboVote, una fuente confiable de datos electorales no partidistas.

Enseñando a una IA lo que está bien y lo que está mal

Construir una IA segura no se trata solo de establecer reglas; se trata de incrustar valores directamente en el modelo. El equipo de Salvaguardas trabaja mano a mano con los desarrolladores para entrenar a Claude desde cero. Esto implica decidir cuidadosamente lo que la IA debe y no debe hacer y hacer de esos principios una parte central de su programación.

Este entrenamiento se mejora con asociaciones con organizaciones especializadas. Por ejemplo, al colaborar con ThroughLine, un líder en apoyo en crisis, Anthropic ha enseñado a Claude a manejar conversaciones sensibles sobre salud mental y autolesiones con empatía y cuidado, en lugar de simplemente negarse a participar. Este entrenamiento profundo y basado en valores es la razón por la que Claude rechazará solicitudes para ayudar con actividades ilegales, escribir código malicioso o generar estafas.

Antes de que cualquier nueva versión de Claude sea lanzada al público, se somete a un agotador proceso de evaluación:

Evaluaciones de Seguridad: Estas pruebas verifican si Claude se adhiere a sus reglas de seguridad, incluso durante conversaciones complejas y prolongadas.
Evaluaciones de Riesgos: Para áreas de alto riesgo como la bioseguridad o las ciberamenazas, el equipo realiza pruebas especializadas, a menudo con el apoyo de socios gubernamentales y de la industria.
Evaluaciones de Sesgo: Para promover la equidad, estas pruebas examinan las respuestas de Claude en busca de sesgos políticos o respuestas distorsionadas basadas en género, raza u otras características demográficas.

El ojo vigilante después del lanzamiento

Una vez que Claude está en vivo, la vigilancia no se detiene. Una combinación de sistemas automatizados y revisores humanos monitorea continuamente el uso indebido. La herramienta principal es un conjunto de modelos de IA especializados, llamados “clasificadores”, entrenados para detectar violaciones de políticas en tiempo real.

Si un clasificador detecta un problema, puede activar varias respuestas, desde desviar una conversación de un tema dañino hasta emitir advertencias o incluso suspender cuentas para infractores reincidentes. El equipo también analiza las tendencias de uso para identificar el uso indebido a gran escala, como campañas de influencia coordinadas, asegurándose de que siempre estén buscando amenazas nuevas y emergentes.

Anthropic reconoce que la seguridad de la IA es una responsabilidad compartida. Están comprometidos a trabajar en colaboración con investigadores, formuladores de políticas y el público para construir las salvaguardas más efectivas para nuestro futuro digital colectivo.

Puntos clave

Defensa en capas: Anthropic trata la seguridad de la IA como una fortaleza, con múltiples capas de protección en lugar de una sola pared.
Pruebas proactivas: Se contrata a expertos externos para que actúen como 'equipo rojo' de la IA, buscando activamente vulnerabilidades antes de que puedan ser explotadas.
Entrenamiento basado en valores: La seguridad y la ética no son una ocurrencia tardía; están incrustadas en el núcleo de Claude durante su desarrollo.
Evaluación rigurosa: Cada nueva versión de Claude se prueba exhaustivamente en cuanto a seguridad, sesgo y riesgos de alto impacto antes de su lanzamiento.
Monitoreo continuo: Después del lanzamiento, una combinación de clasificadores de IA y supervisión humana proporciona protección en tiempo real contra el uso indebido.