Cerebras e o M42 de Abu Dhabi fizeram um LLM dedicado a responder perguntas médicas

Cerebras e o M42 de Abu Dhabi realizaram um LLM dedicado à resolução de questões médicas

Logotipos Cerebras e M42

As aplicações de inteligência artificial na área da saúde são numerosas. No entanto, elas são dominadas em grande parte por tecnologias mais antigas de IA; coisas mais recentes, como a chamada IA generativa e modelos de linguagem grandes (LLMs), estão em alta no momento, mas são consideradas muito arriscadas para serem usadas em larga escala na área da saúde, dada a natureza sensível das aplicações de saúde, como a ENBLE recentemente relatou.

Os esforços no desenvolvimento de software de código aberto podem ajudar a avançar a IA generativa, tornando um pouco mais fácil entender o “caixa-preta” da IA em comparação com programas fechados como o ChatGPT da OpenAI.

Também: Como o ChatGPT realmente funciona?

Nesse sentido, a fabricante de computadores de IA Cerebras Systems anunciou na semana passada uma parceria com a M42, uma operadora de instalações de saúde em 27 países, para oferecer um LLM de código aberto projetado para aplicações de saúde, servindo como um “assistente” para profissionais de saúde.

O programa, chamado Med42, é um aprimoramento do Llama 2, um LLM de código aberto lançado pela Meta Properties este ano, utilizando um conjunto de dados relacionados à saúde compilado pelas empresas.

“Ele está abrindo caminho no uso de IA na entrega de cuidados de saúde”, disse o co-fundador e CEO da Cerebras, Andrew Feldman, em entrevista à ENBLE.

Também: 3 maneiras como a IA está revolucionando a forma como as organizações de saúde atendem os pacientes. Podem os LLMs como o ChatGPT ajudar?

As aplicações do programa como assistente para médicos incluem resposta a perguntas médicas, resumo de registros do paciente, auxílio no diagnóstico médico e perguntas e respostas gerais sobre saúde, de acordo com as empresas. Eles enfatizam que não inclui o treinamento de médicos.

O programa Med42 utiliza a versão de 70 bilhões de parâmetros do Llama 2. O trabalho de ajuste fino foi realizado pela Cerebras e M42 em conjunto com a Core42, uma empresa de serviços gerenciados e TI que realiza pesquisas fundamentais em IA. Tanto a M42 quanto a Core42 são de propriedade do cliente da Cerebras, o conglomerado global G42.

A rede neural Med42 foi ajustada com um conjunto de dados de 700.000 pares de perguntas e respostas provenientes de fontes públicas disponíveis, “curado pela M42 e revisado por nossa equipe de especialistas médicos”, disse a M42 em um e-mail para a ENBLE. “O conjunto de dados incluía perguntas de múltipla escolha, flashcards médicos, entre outros”, disse.

“O Med42 não foi treinado usando dados de pacientes ou informações de identificação pessoal”, disse a M42.

O código M42 está disponível agora no HuggingFace, juntamente com dados de desempenho. As empresas planejam lançar melhorias à medida que “refinam e testam o modelo colaborativamente” com profissionais de saúde “para ajudar a aprimorar sua capacidade e desempenho”. Quando questionadas se o próprio conjunto de dados será divulgado, as empresas disseram à ENBLE em um e-mail: “Ainda está para ser determinado”.

Também: Microsoft apresenta extensões para o Fabric e Azure para IA na saúde

O ajuste fino foi feito no Condor Galaxy, um gigante computador de IA que a Cerebras construiu para a G42 este ano, ao qual a Cerebras chama de “o maior supercomputador do mundo para IA”. De acordo com a Cerebras, “A configuração rápida e o tempo reduzido de treinamento foram possibilitados pelos 82 terabytes de memória e pelos 54 milhões de núcleos de IA nos 64 sistemas Cerebras CS-2 dentro do CG-1.”

“O que temos são todas essas aplicações interessantes sendo executadas no topo do Condor Galaxy, e isso é diferente de qualquer outro hardware de startup”, disse Feldman. “Estamos realmente impulsionando a indústria para frente.”

Feldman observou em um e-mail posterior que “Todos os parâmetros [do Llama 2] foram ajustados e isso foi possível pela vasta memória disponível no Condor Galaxy 1 […] A configuração e o treinamento por 3 épocas foram concluídos em 5 dias, o que teria levado meses em um grande cluster de GPUs.”

Na atualização de desempenho no HuggingFace, as empresas observam que “Med42 alcança um desempenho competitivo em vários benchmarks médicos, incluindo MedQA, MedMCQA, PubMedQA, HeadQA e Measuring Massive Multitask Language Understanding (MMLU) clinical topics”.

Também: O que é o HuggingChat? Tudo o que você precisa saber sobre este chatbot de IA de código aberto

No Exame de Licenciamento Médico dos EUA, ou USMLE, o programa “atinge uma precisão de 72%”, de acordo com a M42, “superando o estado da arte anterior entre os LLMs médicos de código aberto disponíveis”. Também superou por uma ampla margem o GPT 3.5 de código fechado da OpenAI, que obteve uma precisão de 59,6%, embora o Med42 tenha ficado abaixo da precisão de 84,3% do GPT4.

“Você pega um modelo pré-treinado muito grande como o Llama 2 70 bilhões, e se você fornecer para ele conjuntos de dados realmente interessantes, conjuntos de dados pioneiros, você pode fazer coisas realmente interessantes, e tudo isso em uma fração do tempo e do consumo de energia de algo como o GPT 3.5”, disse Feldman.

A Cerebras tem sido especialmente ativa em projetos de código aberto recentemente. Em março, a empresa publicou como código aberto diversas versões de programas de IA generativa para uso sem restrições.

Em agosto, a empresa revelou o LLM em árabe mais poderoso do mundo, o Jais-Chat, como um programa de código aberto.

Também: Cerebras e Abu Dhabi constroem o modelo de IA em árabe mais poderoso do mundo

Por enquanto, o Med42 não está em produção. “Após testes bem-sucedidos, o Med42 estará disponível para implementação clínica”, disseram as empresas em um e-mail para o ENBLE.

“É importante ressaltar que o Med42 terá a capacidade de ser implantado localmente, totalmente personalizado para atender às necessidades dos provedores de saúde, usando fontes de dados próprias e limitando a possibilidade de invasões externas”, acrescentaram. “Estamos priorizando a aplicação segura da tecnologia em vez da velocidade de produção e nos comprometemos com uma extensa avaliação de segurança do modelo antes de lançá-lo no mercado.”