Estou curioso em saber como vão resolver isso, porque com a queda na geração de conteúdo por humanos, o que resta é a IA se retroalimentar e alucinar cada vez mais, o que por sua vez levaria ao colapso nos modelos atuais.
Está rolando um misto de soluções, por exemplo, o CF tem três funções para enxame de bots, o primeiro é mais generalista e os outros dois são focados em IA
Esse último eles assumem até seu robots se tu quiser e vai modificando a medida que precisarem bloquear novos crawlers
Outra medida que vi uma galera fazendo foi em relação ao “DDos”, soluções para evitar que crawlers inundem o servidor.
Parece que alimentar IA com lixo é o caminho e claro, começar a banir trafego de VPN, proxies além de colocar os conteúdos atrás de um login como diversos sites já fazem, é de fato o fim da internet como conhecemos.
É algo que venho falando a tempos. A IA depende de conteúdo humano, no momento que os humanos passarem a gerar todo o conteúdo por IA ela vai se alimentar do próprio conteúdo possivelmente ficando mais imprecisa ou aumentando a quantidade de alucinações.
Não consigo parar de pensar em um paralelo do cenário que se projeta com o desse documentário aqui:
Acho um exagero, porém não dá pra negar que uma galerinha aí está usando a IA não como um meio de organizar pensamentos, mas para desenvolver linhas de raciocínio. Com o Grok, por exemplo: “Grok, isso aqui é verdade?” Estamos desistindo até mesmo de querer escrever na porra de um site que foi feito pra isso. Afinal, é pra isso que os microblogs servem.
Outra coisa que nem julgo tanto, mas que é inegável que seja preocupante, é uma galera usando IA como psicólogo. É bizarro.
Estamos em uma bolha de TI, onde todo mundo usa IA. A galera esquece que o planeta tem 8 bilhões de pessoas e que uma parcela esmagadora não faz ideia do que, afinal, é IA. Digo isso porque minha namorada faz Direito e é influenciada por mim a usar IA. No curso dela, 80% das pessoas não fazem ideia do que IA significa. Uma parte sequer imagina as possibilidades de uso.
Enfim, soltam esses “ultimatos” baseados na bolha em que estão inseridos.
Isso me lembra as maluquices ditas por Bill Gates, como a quantidade de RAM “definitiva”, entre outras insanidades ditas por pessoas que não prestam atenção fora da própria bolha.
Banir tráfego de VPN, tipo, literalmente? Aí não vai mudar a web, e sim matar ela kkkkk
Sim, eu mesmo tenho acompanhado nos fóruns uma galerinha tendo problema pra acessar diversos sites que bloqueiam ASN de VPN e Proxies, eu mesmo bloqueio um ASN pq uma galera tava enchendo o saco. E mais recentemente recebi uma enxurrada de requests da Hetzner e simplesmente tive que bloquear ranges inteiros pq estavam usando a rede deles pra OpenVPN, a Oracle nem se fala, está banida faz anos.
O Reddit é um grande exemplo disso, raramente conseguem criar conta com VPN lá, é insta ban, tem outros menos famosos mas bem populosos da gringa que sequer aceitam que outro país visualizem o conteúdo deles, a internet está se fechando, muros de bloqueios por toda parte.
Concordo muito contigo, a galera fala como se tudo fosse uma verdade absoluta mas a realidade fora da nossa bolha é totalmente diferente do que imaginamos ou vemos os representantes das bigtechs dizendo. As pessoas que conheço até tem conhecimento das IAs, mas o uso desses são apenas por brincadeira ou para questões simples do dia a dia que precisam de uma resposta rápida e prática.
As vezes vendo esses assuntos sobre IA como nesse artigo, paro e penso que em algum momento no futuro as IA se transformarão de alguma forma em novos buscadores de pesquisas como Google e Bing. É só pensar que antigamente se você quisesse alguma informação, principalmente acadêmicas, você teria que se deslocar para alguma biblioteca e folhear páginas e mais páginas para encontrar o que precisa. Um dia surgiu a internet e os buscadores de pesquisa que conhecemos hoje, os quais facilitaram muito a vida das pessoas que buscavam algum tipo de informação, porém você ainda tem que navegar por diversas páginas até encontrar aquilo que te atende. Vejo que as IAs um dia irão fazer esse papel facilitando mais ainda, pois entregam de forma simples e explicada aquilo que você procura reduzindo muito seu tempo de procura. O que vai acontecer é que a humanidade terá que se adaptar igual aconteceu na transição do conteúdos dos livros e enciclopédias para as páginas da web, sendo nesse caso uma transição de páginas da web para somente um banco de dados que de alguma forma gere monetização para quem agrega conteúdo nele.
Excelente.
Aproveitando pra perguntar:
Alguém já usa ou conhece ferramentas de detecção de IA ou de conteúdo alterado por IA?
Poderiam sugerir algumas? Por exemplo, como saber se um video foi alterado ou produzido por ia? Tem ferramentas para isso já??
Digo que isso já faz tempo, é um fenômeno anterior às LLMs “modernas”. Antes que houvesse ChatGPT, já havia uma Internet Morta. Além dos bots, podemos mencionar
o “engajamento algoritmico” e os clickbaits nas plataformas (como Youtube, por exemplo).
Agora, uma das coisas que está piorando a Web, são as exigências de recursos modernos em navegadores, exigências essas que são promovidas, entre outros, pela CloudFlare, quando o mecanismo de validação de navegador não funciona para navegadores alternativos como Pale Moon. Não é, portanto, uma advertência por parte da CloudFlare, e sim uma constatação de uma realidade que eles próprios têm ajudado a construir.
Mas ainda que humanos permanecessem gerando conteúdo, até que ponto esse conteúdo é diversificado e não geraria um colapso algorítmico?
Até que ponto o conteúdo humano tem entropia suficiente? Explico: o colapso algorítmico se deve à falta de entropia, que é uma medida de quão aleatório é algo. Uma forma de “testar” a “qualidade” da entropia é usando Chaos Game: se uma sequência não for aleatória o suficiente, o fractal resultante não será homogêneo e uniforme.
No caso da linguagem humana (portanto, além da matemática), a “qualidade” da entropia está no quão diverso é o conteúdo, desde a parte fundamental (alfabeto e vocabulário) até o nível mais abstrato (temáticas, conceitos e áreas do conhecimento humano). Tamanho não é documento: um pequeníssimo texto (um aforismo, por exemplo) que aborda simultaneamente filosofia de Schopenhauer e ciência astrofísica é mais “rico” em entropia que um grande texto que narra o cotidiano da Taylor Swift.
E aqui reside o problema: a maioria esmagadora dos produtores de conteúdo, os humanos, não são tão diversos assim. A diversidade entrópica ocorre mais na parcela da população que é neurodivergente. Neurotípicos, geralmente, vão se limitar à especialização temática (ex.: uma pessoa que só sabe falar de carro tem muito conhecimento sobre carro e consegue produzir um livro sobre carros, talvez saberá falar de mecânica ou alguma coisa sobre tecnologia, mas não saberá falar sobre mecânica quântica porque não é área de interesse dessa pessoa).
Isso, inevitavelmente, também leva a um colapso algorítmico, ainda que imperceptível. O que “salva” as LLMs, hoje, são os neurodivergentes e seus conteúdos diversificados. Por exemplo, meu histórico de conversação com LLMs tem chats sobre niilismo, Node.js, Epilepsia do Lobo Temporal, análise artística, leis brasileiras, problemas mecânicos com veículo antigo, teoria musical, espécies de flores e de insetos, conexões anacrônicas entre eventos históricos (como Sumérios encontrando com Antigos Egípcios), rituais ocultistas e de invocação… e a lista de temáticas vai longe…
Se depender exclusivamente do conteúdo humano, a LLM já nasceu fadada ao colapso algorítmico. A única forma de mitigar isso seria aceitar esse colapso como princípio do funcionamento, ou uma AGI que experiencie uma existência quase-humana integrada aos problemas e prazeres da vida., nascendo, crescendo, etc… Ou, em outras palavras, uma IA que interaja diretamente com a “vida”, como um bebê saindo do útero para o teatro da existência mundana. Embora tentem imbuir personalidade nas LLMs, falta esse aspecto e é esse aspecto que leva ao colapso, seja o conteúdo de treinamento de origem humana ou ourobórica (alimentando-se de si mesmo).
O problema disso é que gera carga de rede, que por sua vez encarece ou torna mais energeticamente ineficiente o funcionamento de um servidor web (seja cloud ou on premises).
Antes que existisse ChatGPT, já existia conteúdo generativo, então esse fenômeno já acontece há um bom tempo. Além disso, o fato do humano frequentemente replicar o que outros humanos lhe ensinaram (parroting) é, de certa forma, “se alimentar do próprio conteúdo” (num contexto de espécie humana como coletivo).
Infelizmente microblogs estão virando verdadeiros cemitérios. Cansei de postar coisa no Bluesky pra ser automaticamente curtido por um bot, por exemplo.
Não uso LLMs exatamente como psicólogos, mas às vezes me encontro alimentando-os com situações pessoais multifacetadas (filosóficas/existenciais e psicológicas e espirituais), a fim de ter insights probabilísticos, com um cuidado meu de tentar despersonalizar o conteúdo o máximo possível (isto é, não digo que sou eu e sim “uma pessoa”, “um usuário”, “Derrick”, “Danilo”, etc.) pois o conteúdo fica retido nos servidores dessas LLMs (com exceção de LLMs offline, rodando localmente no smartphone/PC; como não tenho um computador decente para uma LLM potente, o máximo que consigo é rodar a inferência de LLM de 8 bilhões de parâmetros).
No fim, no meu caso, LLMs acabam sendo mais “eficientes” que um psicólogo, já que eu tenho esse trejeito de interdisciplinaridade que a LLM vai conseguir conectar dos pontos diferentes do cérebro eletrônico similarmente à como eu, neurodivergente, faço no meu cérebro de carne e crânio de osso.
Nem todo mundo. Tem uma galera considerável de TI que é anti-IA.
Eu recomendaria a própria IA… Mas daí temos um problema na definição de “conteúdo de IA”: até que ponto o navio de Teseu, conforme novas peças são instaladas, continua sendo o bom e velho navio de Teseu? Até que ponto um conteúdo generativo, conforme modificações humanas são feitas (arte híbrida, por exemplo), continua sendo IA? Ontem, mesmo, gerei uma imagem pelo ChatGPT e outra pelo Grok (usando o mesmo prompt), depois fiz uma montagem delas usando GIMP e, por fim, usei o Sketchbook pra desenhar com base nessa montagem. O resultado tem sutis semelhanças com a origem, mas divergiu totalmente, por não ser uma cópia ipsis literis e sim uma espécie de rotoscopia. Aí pergunto: essa imagem final, que desenhei, é humana ou IA? A resposta é difícil de determinar.
Overfitting ao extremo!
A diferença é que o nosso cérebro não usa apenas estatística e probabilidade pra replicar o conteúdo passado.
Uso massivamente IA no meu trabalho e acho essas ferramentas incríveis e extremamente produtivas, mas existe uma boa quantidade de código errado ou parcialmente certo que esses agents me entregam fora quando começa a alucinar e tenho que começar um novo chat do zero.
Pensa no cenário: IA alucina e posta coisas sem sentido, outra ia faz um crwaler e se alimenta do material “alucinado” e passa a replicá-lo, passa um tempo essa outra ia também alucina em cima do material já indevido, gerando uma retroalimentação de conteúdo torpe.
Esse é um fenomeno real, tanto que vários estudos mostraram a qualidade de respostas do chatgpt e outras IAs caindo com o tempo sendo necessário atualização de algoritmo pra “zerar” esses erros.
Aqui vou divergir um tanto do tecnológico, embora ainda debruçando-me na Ciência (mas com pontos metafísicos): muitos aspectos (senão todos) de seres vivos (e, por extensão, o Homo sapiens), emergem de uma probabilidade cósmica e natural.
Por exemplo: os genes de cada um de nossos códigos genéticos foram resultado de uma escolha probabilística entre os dois gametas de origem (aceno para todo aquele lance de “Azão-Azinho” com 75% “Aa”, 25% “AA” e 25% “aa”, genes recessivos vs genes dominantes). Há, ainda, a mutação genética, oriuinda de vários fatores, entre eles, ambientais (o que também agrega à probabilística).
Aprofundando-nos para um nível ainda mais microscópico, a temperatura é resultado de um movimento browniano que, por sua vez, é probabilístico.
Se aproximarmos ainda mais da escala “plânquica”, temos conceitos como Princípio da Incerteza de Heinsenberg (a posição e velocidade das partículas subatômicas não podem ser determinadas simultaneamente).
Tendemos à teoria de uma mente pensante (“O todo é mente, o universo é mental”) porque temos a ilusão de percepção e, portanto, de senciência e da capacidade cognitiva que emerge desta (Cogito ergo sum) mas que são fruto de uma cadeia de eventos que talvez começa até antes do Big Bang, com dois princípios cósmicos buscando equilíbrio: ordem e caos. A ordem emerge do caos e o caos emerge da precipitação da ordem.
Então, o que parece ser fruto de uma decisão ativa, nossa criatividade e raciocínio lógico são, no fundo (cosmicamente falando), apenas ilusão de agência. Somos autômatos biológicos, convergindo à uma cadeia de eventos tão probabilisticamente infinitesimal (do Big Bang, passando pelo Antropoceno, até chegarmos à essa interação online no Tecnoblog) que nos dá uma falsa percepção de “nosso cérebro não usa apenas estatística e probabilidade”.
Mas, ok, divaguei bastante.
Sim. Overfitting, como foi dito acima pelo @imhotep
Há um fator da poda digital que ocorre durante a curadoria dos dados de treinamento. Por exemplo: dificilmente hapax legomena comporá o corpora de treinamento de uma LLM. Baseiam-se na Lei de Zipf e eliminam o que julgam ser “ruído de fundo”, quando esse “ruído de fundo” poderia ajudar contra o overfitting (mas não ajudaria nos propósitos antopocêntricos dessas LLMs).
Em escala global eu até concordo contigo! Grandes players de Cloud Services estão dispostos não só a queimar bilhões de money com desenvolvimento de IA como está disposto a ferrar ainda mais o meio ambiente, então ferramentas pra alimentar IA com lixo é mais que bem vinda.
Também, mas em escala local, para webmasters independentes, as IAs têm sido uma constante dor de cabeça:
AI scrapers are getting more and more aggressive, and - since FOSS software relies on public collaboration, whereas private companies don’t have that requirement - this is putting some extra burden on Open Source communities.
(Fonte: FOSS infrastructure is under attack by AI companies)
Atualmente, existem quatro soluções sendo implementadas: bloqueio, restrição do acesso, Anubis e Nephentis.
O bloqueio ocorre via IP ranges, às vezes bloqueando países inteiros como o Brasil, e/ou via UA, às vezes bloqueando navegadores legítimos como “Chrome no Windows”.
Somente um fail2ban
ou IP throttling não é eficaz, já que as companhias de IA têm literalmente milhares de IPs à disposição distribuídos geograficamente, pelos quais distribui a carga do crawling. Um IP específico não vai fazer requisições suficientes para atingir rate-limit. Bloqueios de países/regiões/provedores inteiros podem ser contraproducentes pra determinados FOSS (por ex.: bloquear a China inteira sendo que há muitos colaboradores chineses no projeto).
A segunda solução, a restrição de acesso, ocorre por loginwalls ou ticketwalls. Loginwalls travam o conteúdo por trás de um login (similar ao LinkedIn), enquanto ticketwalls (menos usado, na realidade sequer lembro de ter visto esse tipo de wall) travam o conteúdo por trás de uma senha/ficha a ser solicitada “na recepção” (uma sala de IRC, um grupo de Discord, instância de Matrix, etc).
Porém, FOSS é pensado pra ser aberto e transparente, e murar o conteúdo por trás de credenciais não é muito diferente de um “paywall”, principalmente se o registro exige vínculo acadêmico/organizacional (alô, ResearchGate!). O ticketwall, se é que existe e não é alucinação minha, exige colaboradores disponíveis diariamente para lidar com a demanda, principalmente se for um projeto grande.
A terceira opção tem surgido em forma da macabra, mas fofa, figura feminina em estilo de anime. Anubis (um CAPTCHA do tipo Proof-of-Work) injeta um JS Worker programado para calcular um problema criptográfico (i.e. calcular uma hash extremamente longa a partir de um payload) que pode aumentar ou diminuir de complexidade de acordo com a demanda atual do server.
Isso obviamente vai restringir o acesso de navegadores mais antigos e/ou incompatíveis com Worker Threads (como um text browser Lynx, W3m e afins) e/ou hardwares mais simples (um 386 certamente travaria se tentasse). Mesmo um smartphone já vai engasgar com os 100% de CPU durante a resolução do PoW.
Finalmente chegamos no Nephentis, que faz o que você se referiu anteriormente: “alimentar a IA com lixo”. Acabei de testar um aqui e não pude deixar de notar como o Nephentis usa Transfer-Encoding: chunked
e bufferiza vagarosamente à medida que o lixo vai sendo produzido no server-side , talvez pra não ocupar espaço em memória/disco, jogando a saída direto pro cliente conforme é calculada.
O resultado que eu obtive tem pouco mais de 1KB (1555 bytes). Parece pouco, mas isso vai multiplicar para milhões de requisições dentro de um mísero minuto: quase 2 GB por minuto (24MB/s) se falarmos de 1 milhão de requisições em um minuto. Considerando que crawlers nunca dormem, ao longo de um único dia isso vai somar 86 GB por hora, 2TB por dia! Se não me engano, isso já extrapola a cota de bandwidth em muitos provedores de hosting, que resultará em duas possibilidades: ou o site passará a ser inacessível (porque já atingiu a cota mensal), ou cada GB adicional resultará em custo adicional.
No hosting on premises não seria muito diferente, já que o servidor físico ainda depende de uma provedora de Internet que terá uma cota mensal.
Portanto, ao meu ver, o problema vai desde o local até o global. No local, afeta indivíduos, pequenas empresas, organizações e projetos FOSS que têm website. No global, sobrecarrega toda a infraestrutura de cabos submarinos e conectividade satelital (ironicamente, o xAI cria uma demanda adicional para a Starlink, por exemplo), além de gerar uma demanda artificial por mais datacenters, que sobrecarregarão redes elétricas inteiras ou inflarão preços das formas alternativas de geração de energia (solar e eólica).
Esses falsos positivos sempre foram um empecilho na minha visão. Mitigar agentes vazios já não está sendo tão eficiente, pois plataformas como a mostrada abaixo são bastante capazes de realizar automações de scraping de forma quase genuína.
De fato! Eu costumava usar o CrowdSec e o AbuseIPDB, mas mesmo assim os bots pareciam não desistir. Continuavam fazendo requisições infinitas, sem parar. Em uma das plataformas que gerencio, onde utilizava o ActivityPub, comecei a perceber um tráfego absurdamente alto e incomum, e por um bom tempo eu não entendia o motivo. Suspeito que esses bots e crawlers estejam contaminando também o tráfego do Fediverso.
Otimizei o WAF e, com isso, consegui reduzir drasticamente o volume. Saiu de cerca de 5 milhões de requisições em 30 dias, com quase 70 GB de banda consumida, para menos de 2 milhões de requisições e menos de 20 GB de uso. Um patamar muito mais condizente com a média de usuários ativos da plataforma.
No momento, estou aguardando os próximos passos dos devs ActivityPub pra tomar rever o uso. Mas, por enquanto, está bloqueado.
De fato! Felizmente uso a OVH, porque escalar na Hetzner é um desafio enorme quando se trata de banda. Existem outras provedoras de virtualização menos conhecidas, mas igualmente estáveis, embora ofereçam portas muito mais limitadas em comparação com players médios. No curto prazo, recorrer a essas soluções é o que resta, mesmo que acabem consumindo muito mais poder de processamento e energia. No fim, todo mundo sai perdendo, infelizmente.
Pode até parecer que meu discurso é derrotista e até soe meio egoísta, mas ainda prefiro seguir a linha de sobrecarregar as IAs com obstáculos ou lixo digital do que oferecer acesso livre e transparente às custas do meu próprio orçamento pelo bem da comunidade FOSS.
Fora a recente noticia de que o governo estuda isenções fiscais para datacenters estrangeiras usar da nossa matriz energética pra alimentar todo lixo digital que está sendo produzido nesse boom de IA, resta saber se haverá uma contrapartida nisso, mas zero expectativa.
Pior que estão, sim. Frequentemente noto a presença de bots nos feeds públicos do Mastodon, além de deferações recentes das instâncias de outras instâncias, com o motivo “Spam” ou “Crawling” ou “AI”.
A qualidade e ao mesmo tempo defeito do ActivityPub é a possibilidade de fácil integração. Para você ter uma ideia, existe integração do ActivityPub no Geminispace (Tootik, uma espécie de Mastodon para o protocolo gemini; se não me engano funciona pra Gopher também).
Qualquer tentativa por parte dos devs do fediverso para tornar a rede mais distante de robôs, acabará por centralizar a rede ou atrapalhar nessa fácil integração, tendo em vista o propósito do fediverso em oferecer uma alternativa realmente decentralizada à plataformas mainstream.
No sentido contrário, qualquer tentativa de deixar como está aproxima o fediverso do mesmo destino do Nostr: sinônimo de spam e conteúdo duvidoso.
Daí o que geralmente acontece é o que mencionei ali acima: a defederação, instâncias bloqueando instâncias problemáticas e gerando blocklists para que donos de outras instâncias possam também bloquear essas instâncias problemáticas.
Uma das poucas soluções viáveis hoje em dia (e que consiga atender uma diversidade de navegadores e clientes), infelizmente, é essa mesmo, um tarrpit como Nephentis, ou paywalls/loginwalls.
Falei ali sobre os problemas dessa abordagem mais no sentido de apontar como isso também acaba sendo prejudicial para o próprio server mas, é uma espécie de guerra cibernética em andamento: de um lado, corporações com IAs que não respeitam os sites dos quais se alimentam, de outro, nós que temos/hospedamos conteúdo na Web vendo a Teoria da Internet Morta na prática diariamente.