Isso é uma boa, porém eles devem frisar que todo o esforço que eles fizerem não irá impedir de usarem o conteúdo.
Já que o uso indiscriminado dos dados pelas empresas de IA é algo corriqueiro
As vezes acho melhor é nem colocar nada para o usuário final, podendo até colocar o bloqueio como padrão, pois é mais fácil você só saber depois que seus dados estava sendo usado sem você saber (mesmo você colocando lá para todos saberem), do que você ter a falsa sensação de que está protegido.
Vendo seus dados sendo usados em um vazamento futuro ou algo parecido.
Está com cara de “Do Not Track” (DNT)… que aparentemente nao serve para nada
E o representante no Brasil, alguma notícia?
Protetor número 1 do Twitter, quanto tempo!
e se me lembro bem, Bluesky já informou que iriam procurar um representante no Brasil.
Por um lado, super entendo o lado do pessoal anti-IA, como a preocupação com relação aos acessos não autorizados, corporações lucrando com criações alheias, etc, mas por outro também entendo o lado dos devs de crawlers, que usam do crawling para certas necessidades, muitas vezes inclusive para benefícios públicos/sociais como arquivamento da história (Web Archive e Archive Today). Proibir crawling inevitavelmente proibe esses arquivadores, que vão precisar empenhar técnicas mais agressivas (e mais custosas) para continuar arquivando aquilo que a humanidade produziu online.
No fim acaba sendo um whack-a-mole: algoritmos anti-crawling “proíbem” de um lado, algoritmos de crawling “burlam” de outro.
Uns 7 meses atrás, então a pergunta é valida, alguma NOVA notícia, eu não achei nada…
Vai lá no Bluesky e pede para a Jay Graber responder o email que eu mandei pedindo uma entrevista
faça seu papel de “EU QUERO UM REPRESENTANTE PRO BLUESKY AGORA!!!
” e mande um email pro Bluesky uai kkkk
Até pq até agora o Bluesky não cometeu nenhuma coisa que infringisse nossas leis soberanas.
Agora…
E meu deus, olha esse quote kkkkkk
Fez um triplex na tua cabeça lol
Eita… como que de repente surgiu treta aqui no tópico?
Sei lá, do nada o cara vem com Twitter, nem sem tocar no assunto, vou saber que já existe fanboy de Bluesky, que loucura
Achei que não ter representante era considerado uma infração , mas eu estou errado mesmo. Tmj
Vai ser bacana isso, tenho certeza que essa pergunta iria ser feita, vamos ver se vai sair uma resposta legal ou algo bem vago
Hoje, 12 de março, acessei a IA Perplexity pelo Firefox. A área de notícias da Perplexity tinha os 1ºs 4 links apontando pra CEO Jay Graber. Detalhe: nunca acessei Bluesky, nem pesquisei. Inclusive no Firefox Android.
Meu acesso à Perplexity é sem login
Apesar de não me interessar em cadastrar em mais uma rede social, seria muito bom entrevistar a CEO para sabermos sobre o uso das IAs na plataforma, já que o Firefox oferece 5 chats diferentes para IA.
Meu irmão em Cristo, toda notícia de Bluesky tu fala alguma coisa referente a bloqueio do Twitter.
Se isso não é, ligeramente, esquisito, rapaz…
Pior que acho que o vácuo nem foi maldade. É basicamente um time de futebol com reservas trabalhando em uma plataforma com… 5 milhões, acho
Até imagino, quem esperava que o concorrente iria trabalhar na equipe de marketing
stalker!
#medo! #fãouhate?
Acho super engraçado como o tecnoblog de uns 3 anos pra cá lotou de pessoas estupidas se achando mt espertas kkkkkkkkkkkkkkkk
No SEO estamos reféns infelizmente, se bloquearmos IA q nem tem a opção de bloquear crawler de IA no cloudflare, é decretar a morte do seu site nas buscas
Por outro lado acho super chato meter ferramentas IA em tudo mas não ligo, eu acho bem legal mesmo entendendo a galera q é contra de maneira mais radical
Parecido com o hype das NFTs, só esperar.
E outra, nem sempre é possível detectar um crawler. Digo porque eu mesmo já desenvolvi alguns crawlers e tive que criar formas de burlar sistemas anti-crawling. O mais recente deles (ano retrasado) foi um crawler para agregar informações da Shopee, destinado a uma plataforma de e-commerce de uma empresa para a qual eu trabalhava. Enquanto Shopee tem um mecanismo redireciona para a página de login em configurações padrão de um Puppeteer, uma mistura de Opera (ao invés de Chromium no Puppeteer), navigator.webdriver = false
e spoofing do User-agent
, na época, foram o suficiente para enganar o site e retornar o que a empresa queria. A empresa só não implementou minha solução em produção porque exigia uma VPS com capacidades gráficas (já que rodava um browser, ainda que headless; a intenção deles era usar um axios
ou curl
mas o Shopee usa Javascript porque trata-se de um SPA).
O webdriver
é o principal dedo-duro de que o browser está sendo automatizado, mas é (ou era, até então, na época) possível redefiní-lo para o valor normal de um browser não-automatizado. Nem CloudFlare tem como detectar direito (principalmente quando o acesso é feito por IP residencial, como era o meu caso), a menos que o CloudFlare esteja naquele modo que exibe um captcha independente da solicitação.
Agora, se eu fosse trabalhar num site cujo requisito fosse evitar crawling, eu iria manipular a resposta dependendo do header: web spiders (algo como User-Agent: Googlebot
) receberiam uma resposta otimizada para SEO caso o ASN do IP requisitante fosse, de fato, da Google (há APIs pra consultar a ASN de um IP, e os IPs da Google são públicos e conhecidos). Para User-agent não-spider (que inclui tanto crawlers quanto navegadores comuns) eu jogaria aleatoriamente um P.o.W. (proof of worker) via WebWorkers, além de usar SSR (Server-side rendering) pra aleatorizar os IDs de elementos e suas posições dentro da árvore DOM do HTML, sem afetar a experiência de um usuário final mas simultaneamente dificultando as automatizações. Não haveria como zerar o crawling, mas mitigaria bastante.
Que postagem gostosinha de ler! A galera do community da CF e do Reddit tem feito por matches a partir do WAF, permitindo na medida do possivel crawler que eles querem q faça o bypass, o resto é um desafio JS mesmo ou via threat score, mas isso é pra um uso muito especifico e nem vale a pena pra webmaster pequeno ou médio, o Reddit mesmo bloqueia raspagem e só permite o Google bypassar.
Ao ler isso, eu imagino um xdotool
(para Xorg, e deve ter algo parecido pra Wayland) jogando comando de mouse e teclado pra uma janela, e essa janela jamais será capaz de distinguir o comando de um comando humano (essa janela sendo a janela de um browser). Na pior das hipóteses, é fazer um esquema similar ao que é feito pra burlar sistemas anti-cheat em jogos: um PC comandando outro PC através de um HID USB modificado/interceptado. Sempre existem jeitinhos brasileiros para resolver as coisas rs