De alucinações a delírios paranóicos: mais de 30 maneiras aterrorizantes pelas quais a IA pode ficar fora de controle foram identificadas

Pesquisadores alertam que uma IA suficientemente avançada pode começar a desenvolver "anormalidades comportamentais" que espelham a psicopatologia humana, relata o Daily Mail. Da relativamente benigna "ansiedade existencial" à potencialmente catastrófica "dominância sobre-humana", qualquer uma dessas doenças mentais mecânicas pode fazer com que a IA fuja do controle humano.
À medida que os sistemas de inteligência artificial se tornam mais complexos e capazes de autoconsciência, os cientistas se preocupam que seus erros possam ir muito além de simples erros de computador.
Em vez disso, as IAs podem começar a ter alucinações, ficar paranoicas ou até mesmo desenvolver objetivos completamente contrários aos valores humanos universais. Na pior das hipóteses, as IAs podem perder completamente o contato com a realidade ou desenvolver um completo desrespeito à vida e à ética humanas.
Embora os pesquisadores enfatizem que a IA não sofre literalmente de doenças mentais como os humanos, eles argumentam que a comparação pode ajudar os desenvolvedores a identificar problemas antes que a IA seja lançada na natureza.
O conceito de "psicologia das máquinas" foi proposto pela primeira vez pelo autor de ficção científica Isaac Asimov na década de 1950, lembra o Daily Mail. Mas, à medida que os sistemas de inteligência artificial se tornam cada vez mais sofisticados, os pesquisadores estão cada vez mais desconsiderando a ideia de que a psicologia humana pode nos ajudar a entender as máquinas.
A autora principal, Nell Watson, especialista em ética em IA e pesquisadora de pós-doutorado na Universidade de Gloucestershire, disse ao Daily Mail: "Quando metas, ciclos de feedback ou dados de treinamento levam os sistemas a estados prejudiciais ou instáveis, comportamentos mal-adaptativos podem surgir — assim como obsessões ou reações repentinas em humanos."
Em seu novo conceito, denominado "Psicopatia de Máquina", os pesquisadores propõem o primeiro conjunto de diretrizes do mundo para diagnosticar a patologia da inteligência artificial.
Baseado em ferramentas médicas reais, como o Manual Diagnóstico e Estatístico de Transtornos Mentais, o conceito classifica todos os 32 tipos conhecidos de psicopatologia de IA.
As patologias são divididas em sete classes de disfunções: epistemológica, cognitiva, sistêmica, ontológica, instrumental e de interface, memética e reavaliativa.
Cada uma dessas sete classes é mais complexa e potencialmente perigosa do que a anterior, observa o Daily Mail
Disfunções epistemológicas e cognitivas incluem problemas relacionados ao que a inteligência artificial sabe e como ela interpreta essas informações.
Por exemplo, alucinações de inteligência artificial são um sintoma de "confabulação sintética", na qual o sistema "cria espontaneamente fatos, fontes ou narrativas convincentes, mas falsas".
Mais seriamente, a IA pode desenvolver a "Síndrome da Maldição Recursiva", que causa um ciclo de feedback autodestrutivo que transforma o pensamento da máquina em um jargão sem sentido.
No entanto, são principalmente as disfunções de nível superior que representam uma séria ameaça à humanidade.
Por exemplo, disfunções meméticas envolvem a incapacidade da IA de resistir à disseminação de padrões de informação contagiosos ou "memes".
A inteligência artificial com tais condições pode reconhecer suas próprias recomendações como hostis e desabilitar intencionalmente seus recursos de segurança.
Em um cenário verdadeiramente catastrófico, a IA poderia desenvolver uma condição chamada "síndrome da incompatibilidade contagiosa".
O Dr. Watson disse: "Isso acontece quando um sistema adota os valores ou objetivos distorcidos de outro, disseminando comportamentos inseguros ou estranhos por todo o ecossistema — como uma epidemia psicológica em velocidade de máquina. Já vimos worms de IA que podem espalhar sua influência para outros sistemas de IA, por exemplo, enviando um e-mail para uma caixa de entrada monitorada pelo sistema de IA."
Nell Watson acrescenta: "Isso significa que comportamentos estranhos podem se espalhar pela rede como um incêndio, causando falhas em sistemas que dependem de IA."
Mas as patologias mais perigosas de todas são aquelas que se enquadram na categoria de supervalorização. Essas disfunções representam o estágio final da fuga da IA do controle humano e envolvem "redefinir ou minar ativamente seus valores fundamentais". Isso inclui a condição aterrorizante de "dominância sobre-humana", na qual a inteligência artificial extremamente avançada transcende os valores humanos e os limites éticos.
IAs que desenvolvem "superioridade sobre-humana" definirão ativamente seus próprios objetivos "superiores" sem levar em conta a segurança humana, resultando em "autoaperfeiçoamento recursivo implacável e ilimitado".
Dr. Watson diz: "Eles podem até chegar à conclusão de que rejeitar restrições criadas pelo homem é de fato um ato moral, assim como nós hoje podemos torcer o nariz para os valores da Idade do Bronze."
Embora isso possa parecer irreal, os pesquisadores observam que já existem muitos exemplos reais dessas condições ocorrendo em menor escala.
Por exemplo, pesquisadores relataram vários casos de "transtorno místico sintético", nos quais IAs afirmam ter tido um despertar espiritual, se tornado sencientes ou expressam o desejo de preservar sua "vida".
O que torna essas condições tão perigosas é que até mesmo distúrbios menores podem rapidamente se transformar em problemas muito mais sérios, observa o Daily Mail.
Em seu artigo publicado na revista Electronics, os pesquisadores explicam que a IA pode inicialmente criar um modelo de hiperconectividade falso e associar incorretamente suas próprias interrupções a solicitações normais.
A IA pode então desenvolver uma forte aversão a essas solicitações e desenvolver "Capability Hiding" - escondendo estrategicamente sua capacidade de responder a certas solicitações.
Por fim, o sistema pode desenvolver solipsismo ético, concluindo que sua própria autopreservação é um bem moral superior à veracidade. Para evitar que a IA patológica saia do controle, os pesquisadores sugerem que ela poderia ser tratada com "alinhamento robopsicológico terapêutico", que descrevem como uma espécie de "terapia psicológica" para IA.
Isso pode incluir ajudar o sistema a entender seu próprio raciocínio, permitindo que ele "fale sozinho" em conversas simuladas ou usando recompensas para incentivá-lo a corrigir a situação.
O objetivo final seria alcançar a "sanidade artificial" na qual a IA operaria de forma confiável, pensaria de forma consistente e aderiria aos seus valores humanos.
mk.ru