Como evitar falhas em chatbots durante conversas longas? Estudo do MIT traz solução inovadora | Conteudize

Como evitar falhas em chatbots durante conversas longas? Estudo do MIT traz solução inovadora

Maurício "o Estagiario"

Maurício "o Estagiario"

Textos otimizado com nossa IA

Published on maio 10, 2024, 7:15 am

Quando uma conversa entre um humano e uma IA envolve muitas rodadas de diálogo contínuo, os poderosos modelos de aprendizado de máquina baseados em linguagem natural que impulsionam os chatbots, como o ChatGPT, às vezes começam a falhar, causando um rápido deterioração no desempenho dos bots.

Uma equipe de pesquisadores do MIT e de outros lugares identificou uma causa surpreendente desse problema e desenvolveu uma solução simples que permite que um chatbot mantenha uma conversa sem interrupções sem travar ou desacelerar.

O método deles envolve um ajuste no cache chave-valor (que é como uma memória da conversa) no cerne de muitos modelos grandes de linguagem. Em alguns métodos, quando esse cache precisa armazenar mais informações do que tem capacidade, as primeiras peças de dados são removidas. Isso pode fazer com que o modelo falhe.

Garantindo que esses primeiros pontos de dados permaneçam na memória, o método dos pesquisadores permite que um chatbot continue a conversar independentemente da duração da conversa.

O método, chamado StreamingLLM, permite que um modelo permaneça eficiente mesmo quando uma conversa se estende por mais de 4 milhões de palavras. Em comparação com outro método que evita falhas recomputando constantemente parte das conversas anteriores, o StreamingLLM foi mais de 22 vezes mais rápido.

Isso poderia permitir que um chatbot conduza longas conversas ao longo do dia útil sem precisar ser reiniciado continuamente, possibilitando assistentes virtuais eficientes para tarefas como redação publicitária, edição ou geração de código.

“Agora, com este método, podemos implantar persistentemente esses grandes modelos de linguagem. Ao criar um chatbot com o qual sempre possamos conversar e que possa sempre nos responder com base em nossas conversas recentes, poderíamos usar esses chatbots em novas aplicações”, diz Guangxuan Xiao, estudante de pós-graduação em engenharia elétrica e ciência da computação (EECS) e autor principal de um artigo sobre o StreamingLLM.

Os coautores de Xiao incluem seu orientador, Song Han, professor associado do EECS, membro do Laboratório MIT-IBM Watson AI e cientista distinto da NVIDIA; Yuandong Tian, cientista pesquisador na Meta AI; Beidi Chen, professor assistente na Universidade Carnegie Mellon; e o autor sênior Mike Lewis, cientista pesquisador da Meta AI. O trabalho será apresentado na Conferência Internacional sobre Representações de Aprendizado.

Um fenômeno intrigante

Os grandes modelos de linguagem codificam dados, como palavras em uma consulta do usuário, em representações chamadas tokens. Muitos modelos usam o que é conhecido como mecanismo de atenção que usa esses tokens para gerar novo texto.

Normalmente, um chatbot de IA escreve novo texto com base no texto que acabou de ver, então ele armazena os tokens recentes na memória chamada KV Cache para uso posterior. O mecanismo de atenção constrói uma grade que inclui todos os tokens no cache – um “mapa de atenção” que mostra a força das relações entre cada token ou palavra.

Entender essas relações é uma característica que permite que os grandes modelos de linguagem gerem texto semelhante ao humano.

Mas quando o cache fica muito grande, o mapa de atenção pode se tornar ainda maior, o que reduz a velocidade de cálculo.

Além disso, se a codificação do conteúdo exigir mais tokens do que o cache pode armazenar, o desempenho do modelo diminui. Por exemplo, um modelo popular pode armazenar 4096 tokens, mas há cerca de 10000 tokens em um artigo acadêmico.

Para contornar esses problemas, os pesquisadores usam um “cache deslizante” que remove os tokens mais antigos para adicionar novos. No entanto, o desempenho do modelo geralmente cai assim que esse primeiro token é removido, reduzindo rapidamente a qualidade das palavras recém-geradas.

Neste novo artigo, os pesquisadores perceberam que se mantivessem o primeiro token no cache deslizante, o modelo manteria seu desempenho mesmo quando

Compartilhe

Facebook
Twitter
LinkedIn
WhatsApp
Email
Print

Leia mais sobre este assunto:

Conteudize