Dentro da Fortaleza da Anthropic: Como Eles Estão Tornando a IA Segura para Todos

No mundo em rápida expansão da inteligência artificial, uma questão crucial se impõe: como garantimos que essas ferramentas poderosas sejam úteis e não prejudiciais? A empresa de IA Anthropic está enfrentando isso de frente com seu popular modelo, Claude, e sua estratégia é menos como um único firewall e mais como uma fortaleza medieval com múltiplas camadas de defesa.No centro desta operação está a equipe de Salvaguardas da Anthropic. Esta não é a sua equipe de TI típica; eles são uma unidade especializada de especialistas em políticas, cientistas de dados, engenheiros e analistas de ameaças dedicados a entender e neutralizar o uso indevido potencial da IA.### O Livro de Regras e a Equipe VermelhaA primeira camada de defesa é uma Política de Uso clara e abrangente. Este é o livro de regras fundamental que dita como Claude pode e não pode ser usado, com diretrizes específicas sobre questões críticas como integridade eleitoral, segurança infantil e uso responsável em campos sensíveis como finanças e saúde.Para garantir que essas regras sejam robustas, a equipe emprega uma 'Estrutura Unificada de Danos' para considerar sistematicamente todos os potenciais impactos negativos, do pessoal ao social. Eles também convidam especialistas externos – especialistas em áreas como contraterrorismo e segurança infantil – para conduzir 'Testes de Vulnerabilidade de Políticas'. Esses especialistas atuam como uma equipe vermelha, tentando intencionalmente “quebrar” Claude com prompts difíceis para descobrir fraquezas ocultas. Um exemplo real desse processo em ação foi durante as eleições dos EUA de 2024. Depois que os testes revelaram que Claude poderia fornecer informações de votação desatualizadas, a Anthropic implementou um banner direcionando os usuários para o TurboVote, uma fonte confiável de dados eleitorais não partidários.### Ensinando uma IA a Distinguir o Certo do ErradoConstruir uma IA segura não é apenas sobre definir regras; é sobre incorporar valores diretamente no modelo. A equipe de Salvaguardas trabalha lado a lado com os desenvolvedores para treinar Claude desde o início. Isso envolve decidir cuidadosamente o que a IA deve e não deve fazer e tornar esses princípios uma parte central de sua programação.Este treinamento é aprimorado por parcerias com organizações especializadas. Por exemplo, ao colaborar com a ThroughLine, líder em apoio a crises, a Anthropic ensinou Claude a lidar com conversas sensíveis sobre saúde mental e automutilação com empatia e cuidado, em vez de simplesmente se recusar a interagir. Este treinamento profundo e baseado em valores é o motivo pelo qual Claude recusará solicitações para auxiliar em atividades ilegais, escrever código malicioso ou gerar golpes.Antes que qualquer nova versão de Claude seja lançada ao público, ela passa por um processo de avaliação exaustivo:1. Avaliações de Segurança: Esses testes verificam se Claude adere às suas regras de segurança, mesmo durante conversas complexas e longas.2. Avaliações de Risco: Para áreas de alto risco, como biossegurança ou ameaças cibernéticas, a equipe realiza testes especializados, muitas vezes com o apoio de parceiros governamentais e da indústria.3. Avaliações de Viés: Para promover a imparcialidade, esses testes examinam as respostas de Claude em busca de viés político ou respostas distorcidas com base em gênero, raça ou outras características demográficas.### O Olho Vigilante Após o LançamentoUma vez que Claude está ativo, a vigilância não para. Uma combinação de sistemas automatizados e revisores humanos monitora continuamente o uso indevido. A ferramenta principal é um conjunto de modelos de IA especializados, chamados de “classificadores”, treinados para identificar violações de política em tempo real.Se um classificador detecta um problema, ele pode acionar várias respostas, desde desviar uma conversa de um tópico prejudicial até emitir avisos ou até mesmo suspender contas de infratores reincidentes. A equipe também analisa as tendências de uso para identificar uso indevido em larga escala, como campanhas de influência coordenadas, garantindo que estejam sempre caçando novas e emergentes ameaças.A Anthropic reconhece que a segurança da IA é uma responsabilidade compartilhada. Eles estão comprometidos em trabalhar colaborativamente com pesquisadores, formuladores de políticas e o público para construir as salvaguardas mais eficazes para o nosso futuro digital coletivo.### Principais Pontos *Defesa em Camadas: A Anthropic trata a segurança da IA como uma fortaleza, com múltiplas camadas de proteção em vez de uma única parede. *Testes Proativos: Especialistas externos são convidados para fazer o 'red team' da IA, buscando ativamente por vulnerabilidades antes que possam ser exploradas. *Treinamento Orientado por Valores: Segurança e ética não são um pensamento posterior; elas são incorporadas ao núcleo de Claude durante seu desenvolvimento. *Avaliação Rigorosa: Cada nova versão de Claude é minuciosamente testada quanto à segurança, viés e riscos de alto impacto antes do lançamento. *Monitoramento Contínuo: Após o lançamento, uma combinação de classificadores de IA e supervisão humana oferece proteção em tempo real contra uso indevido.