A equipe de IA Red Team da Microsoft já provou seu valor

A equipe de IA Red Team da Microsoft é comprovadamente valiosa

Para a maioria das pessoas, a ideia de usar ferramentas de inteligência artificial no dia a dia – ou até mesmo brincar com elas – só se tornou comum nos últimos meses, com o lançamento de novas ferramentas de IA generativa por várias grandes empresas de tecnologia e startups, como o ChatGPT da OpenAI e o Bard do Google. Mas nos bastidores, a tecnologia vem se proliferando há anos, juntamente com perguntas sobre a melhor forma de avaliar e proteger esses novos sistemas de IA. Na segunda-feira, a Microsoft revelará detalhes sobre a equipe dentro da empresa que, desde 2018, tem a tarefa de descobrir como atacar plataformas de IA para revelar suas fraquezas.

Nos cinco anos desde a sua formação, a equipe de segurança de IA da Microsoft cresceu de uma espécie de experimento para uma equipe interdisciplinar completa de especialistas em aprendizado de máquina, pesquisadores de segurança cibernética e até mesmo engenheiros sociais. O grupo trabalha para comunicar suas descobertas dentro da Microsoft e em toda a indústria de tecnologia usando a linguagem tradicional de segurança digital, para que as ideias sejam acessíveis, em vez de exigir conhecimento especializado em IA que muitas pessoas e organizações ainda não possuem. Mas, na verdade, a equipe concluiu que a segurança da IA tem diferenças conceituais importantes em relação à defesa digital tradicional, o que exige diferenças na forma como a equipe de segurança de IA aborda seu trabalho.

“Quando começamos, a pergunta era: ‘O que você vai fazer fundamentalmente de diferente? Por que precisamos de uma equipe de segurança de IA?'”, diz Ram Shankar Siva Kumar, fundador da equipe de segurança de IA da Microsoft. “Mas se você olhar para a segurança de IA apenas como segurança tradicional e se adotar apenas a mentalidade de segurança, isso pode não ser suficiente. Agora temos que reconhecer o aspecto de IA responsável, que é a responsabilidade pelas falhas do sistema de IA – gerando conteúdo ofensivo, gerando conteúdo sem fundamento. Esse é o Santo Graal da equipe de segurança de IA. Não apenas olhar para falhas de segurança, mas também para falhas de IA responsáveis.”

Shankar Siva Kumar diz que levou tempo para destacar essa distinção e argumentar que a missão da equipe de segurança de IA realmente teria esse foco duplo. Grande parte do trabalho inicial relacionava-se ao lançamento de ferramentas de segurança mais tradicionais, como a Matriz de Ameaças de Aprendizado de Máquina Adversarial de 2020, uma colaboração entre a Microsoft, o grupo de P&D sem fins lucrativos MITRE e outros pesquisadores. Naquele ano, o grupo também lançou ferramentas de automação de código aberto para testes de segurança de IA, conhecidas como Microsoft Counterfit. E em 2021, a equipe de segurança de IA publicou um framework adicional de avaliação de riscos de segurança de IA.

Ao longo do tempo, no entanto, a equipe de segurança de IA conseguiu evoluir e expandir à medida que a urgência de corrigir falhas e falhas de aprendizado de máquina se torna mais evidente.

Em uma operação inicial, a equipe de segurança de IA avaliou um serviço de implantação em nuvem da Microsoft que tinha um componente de aprendizado de máquina. A equipe desenvolveu uma forma de lançar um ataque de negação de serviço em outros usuários do serviço em nuvem, explorando uma falha que permitia criar solicitações maliciosas para abusar dos componentes de aprendizado de máquina e criar estrategicamente máquinas virtuais, os sistemas de computadores emulados usados na nuvem. Ao posicionar cuidadosamente as máquinas virtuais em posições-chave, a equipe de segurança de IA poderia lançar ataques de “vizinho barulhento” em outros usuários da nuvem, onde a atividade de um cliente afeta negativamente o desempenho de outro cliente.

A equipe de segurança de IA acabou construindo e atacando uma versão offline do sistema para provar que as vulnerabilidades existiam, em vez de correr o risco de impactar os clientes reais da Microsoft. Mas Shankar Siva Kumar diz que essas descobertas nos primeiros anos eliminaram quaisquer dúvidas ou perguntas sobre a utilidade de uma equipe de segurança de IA. “É aí que as pessoas entenderam”, diz ele. “Elas pensaram: ‘Caramba, se as pessoas conseguem fazer isso, não é bom para o negócio'”.

É crucial destacar que a natureza dinâmica e multifacetada dos sistemas de IA significa que a Microsoft não está apenas lidando com os atacantes mais bem equipados que visam as plataformas de IA. “Alguns dos ataques inovadores que estamos vendo em modelos de linguagem grandes – basta um adolescente com uma linguagem vulgar, um usuário casual com um navegador, e não queremos menosprezar isso”, diz Shankar Siva Kumar. “Existem APTs, mas também reconhecemos essa nova geração de pessoas capazes de derrubar LLMs e emulá-los também.”

No entanto, assim como qualquer equipe de segurança, a equipe de segurança de IA da Microsoft não está apenas pesquisando ataques que estão sendo usados atualmente. Shankar Siva Kumar diz que o grupo está focado em antecipar para onde as tendências de ataque podem se direcionar a seguir. E isso geralmente envolve um foco na parte de responsabilidade de IA mais recente da missão da equipe de segurança de IA. Quando o grupo encontra uma vulnerabilidade tradicional em um aplicativo ou sistema de software, eles frequentemente colaboram com outros grupos dentro da Microsoft para corrigi-la, em vez de dedicarem tempo para desenvolver e propor uma solução por conta própria.

“Existem outras equipes de segurança dentro da Microsoft e outros especialistas em infraestrutura do Windows ou qualquer coisa que precisarmos”, diz Shankar Siva Kumar. “A visão para mim é que a segurança de IA agora engloba não apenas falhas de segurança, mas também falhas de IA responsáveis.”