Bluesky vai permitir que usuários escolham se IAs podem acessar suas publicações

1 Like

Isso é uma boa, porém eles devem frisar que todo o esforço que eles fizerem não irá impedir de usarem o conteúdo.

Já que o uso indiscriminado dos dados pelas empresas de IA é algo corriqueiro

As vezes acho melhor é nem colocar nada para o usuário final, podendo até colocar o bloqueio como padrão, pois é mais fácil você só saber depois que seus dados estava sendo usado sem você saber (mesmo você colocando lá para todos saberem), do que você ter a falsa sensação de que está protegido.

Vendo seus dados sendo usados em um vazamento futuro ou algo parecido.

3 Likes

Está com cara de “Do Not Track” (DNT)… que aparentemente nao serve para nada

E o representante no Brasil, alguma notícia?

Protetor número 1 do Twitter, quanto tempo!

e se me lembro bem, Bluesky já informou que iriam procurar um representante no Brasil.

2 Likes

Por um lado, super entendo o lado do pessoal anti-IA, como a preocupação com relação aos acessos não autorizados, corporações lucrando com criações alheias, etc, mas por outro também entendo o lado dos devs de crawlers, que usam do crawling para certas necessidades, muitas vezes inclusive para benefícios públicos/sociais como arquivamento da história (Web Archive e Archive Today). Proibir crawling inevitavelmente proibe esses arquivadores, que vão precisar empenhar técnicas mais agressivas (e mais custosas) para continuar arquivando aquilo que a humanidade produziu online.

No fim acaba sendo um whack-a-mole: algoritmos anti-crawling “proíbem” de um lado, algoritmos de crawling “burlam” de outro.

4 Likes

Uns 7 meses atrás, então a pergunta é valida, alguma NOVA notícia, eu não achei nada…

Vai lá no Bluesky e pede para a Jay Graber responder o email que eu mandei pedindo uma entrevista

3 Likes

faça seu papel de “EU QUERO UM REPRESENTANTE PRO BLUESKY AGORA!!! :sob: :sob: :sob: :sob: e mande um email pro Bluesky uai kkkk
Até pq até agora o Bluesky não cometeu nenhuma coisa que infringisse nossas leis soberanas.

Agora…

E meu deus, olha esse quote kkkkkk
Fez um triplex na tua cabeça lol

1 Like

Eita… como que de repente surgiu treta aqui no tópico?

2 Likes

Sei lá, do nada o cara vem com Twitter, nem sem tocar no assunto, vou saber que já existe fanboy de Bluesky, que loucura

Achei que não ter representante era considerado uma infração :thinking:, mas eu estou errado mesmo. Tmj

Vai ser bacana isso, tenho certeza que essa pergunta iria ser feita, vamos ver se vai sair uma resposta legal ou algo bem vago

1 Like

Hoje, 12 de março, acessei a IA Perplexity pelo Firefox. A área de notícias da Perplexity tinha os 1ºs 4 links apontando pra CEO Jay Graber. Detalhe: nunca acessei Bluesky, nem pesquisei. Inclusive no Firefox Android.
Meu acesso à Perplexity é sem login :nerd_face:

Apesar de não me interessar em cadastrar em mais uma rede social, seria muito bom entrevistar a CEO para sabermos sobre o uso das IAs na plataforma, já que o Firefox oferece 5 chats diferentes para IA.

1 Like

Meu irmão em Cristo, toda notícia de Bluesky tu fala alguma coisa referente a bloqueio do Twitter.
Se isso não é, ligeramente, esquisito, rapaz…

3 Likes

Pior que acho que o vácuo nem foi maldade. É basicamente um time de futebol com reservas trabalhando em uma plataforma com… 5 milhões, acho

Até imagino, quem esperava que o concorrente iria trabalhar na equipe de marketing

stalker!
#medo! #fãouhate?

Acho super engraçado como o tecnoblog de uns 3 anos pra cá lotou de pessoas estupidas se achando mt espertas kkkkkkkkkkkkkkkk

3 Likes

No SEO estamos reféns infelizmente, se bloquearmos IA q nem tem a opção de bloquear crawler de IA no cloudflare, é decretar a morte do seu site nas buscas

Por outro lado acho super chato meter ferramentas IA em tudo mas não ligo, eu acho bem legal mesmo entendendo a galera q é contra de maneira mais radical

Parecido com o hype das NFTs, só esperar.

E outra, nem sempre é possível detectar um crawler. Digo porque eu mesmo já desenvolvi alguns crawlers e tive que criar formas de burlar sistemas anti-crawling. O mais recente deles (ano retrasado) foi um crawler para agregar informações da Shopee, destinado a uma plataforma de e-commerce de uma empresa para a qual eu trabalhava. Enquanto Shopee tem um mecanismo redireciona para a página de login em configurações padrão de um Puppeteer, uma mistura de Opera (ao invés de Chromium no Puppeteer), navigator.webdriver = false e spoofing do User-agent, na época, foram o suficiente para enganar o site e retornar o que a empresa queria. A empresa só não implementou minha solução em produção porque exigia uma VPS com capacidades gráficas (já que rodava um browser, ainda que headless; a intenção deles era usar um axiosou curl mas o Shopee usa Javascript porque trata-se de um SPA).

O webdriver é o principal dedo-duro de que o browser está sendo automatizado, mas é (ou era, até então, na época) possível redefiní-lo para o valor normal de um browser não-automatizado. Nem CloudFlare tem como detectar direito (principalmente quando o acesso é feito por IP residencial, como era o meu caso), a menos que o CloudFlare esteja naquele modo que exibe um captcha independente da solicitação.

Agora, se eu fosse trabalhar num site cujo requisito fosse evitar crawling, eu iria manipular a resposta dependendo do header: web spiders (algo como User-Agent: Googlebot) receberiam uma resposta otimizada para SEO caso o ASN do IP requisitante fosse, de fato, da Google (há APIs pra consultar a ASN de um IP, e os IPs da Google são públicos e conhecidos). Para User-agent não-spider (que inclui tanto crawlers quanto navegadores comuns) eu jogaria aleatoriamente um P.o.W. (proof of worker) via WebWorkers, além de usar SSR (Server-side rendering) pra aleatorizar os IDs de elementos e suas posições dentro da árvore DOM do HTML, sem afetar a experiência de um usuário final mas simultaneamente dificultando as automatizações. Não haveria como zerar o crawling, mas mitigaria bastante.

3 Likes

Que postagem gostosinha de ler! A galera do community da CF e do Reddit tem feito por matches a partir do WAF, permitindo na medida do possivel crawler que eles querem q faça o bypass, o resto é um desafio JS mesmo ou via threat score, mas isso é pra um uso muito especifico e nem vale a pena pra webmaster pequeno ou médio, o Reddit mesmo bloqueia raspagem e só permite o Google bypassar.

Ao ler isso, eu imagino um xdotool(para Xorg, e deve ter algo parecido pra Wayland) jogando comando de mouse e teclado pra uma janela, e essa janela jamais será capaz de distinguir o comando de um comando humano (essa janela sendo a janela de um browser). Na pior das hipóteses, é fazer um esquema similar ao que é feito pra burlar sistemas anti-cheat em jogos: um PC comandando outro PC através de um HID USB modificado/interceptado. Sempre existem jeitinhos brasileiros para resolver as coisas rs