Bluesky ne trenira AI na vašim objavama, ali drugi to rade

Treniranje AI modela po vašim objavama se dešava kod drugih društvenih mreža… ali ne i kod Blueskay-a.

Bluesky se pozicionirao kao utočište za korisnike koji su frustrirani načinom na koji platforme poput X i Meta rukuju korisničkim sadržajem, posebno u obučavanju AI modela. Izgrađen je na decentralizovanom AT protokolu, koji bi trebalo da korisnicima pruži veću kontrolu i transparentnost. Ipak, nedavni incident je pokazao kako otvorenost i decentralizacija imaju svoje negativne strane.

Daniel van Strien, bibliotekar mašinskog učenja u Hugging Face-u, sastavio je skup podataka od milion Bluesky postova koristeći Bluesky Firehose API. Ovaj skup podataka nije bio anoniman; uključivao je korisnički sadržaj zajedno sa decentralizovanim identifikatorima (DID), što ga je učinilo sledljivim. Njegov cilj je bio da podrži istraživanje mašinskog učenja i eksperimentisanje sa podacima društvenih medija.

Skup podataka je brzo postao popularan na Hugging Face-u, platformi koja sadrži AI alate otvorenog koda, i već neko vreme je u trendu među drugim projektima.

Van Strien je objavio o skupu podataka na Bluesky-u, a korisnici su oštro reagovali. Mnogi od njih glasno govore o svom protivljenju obuci AI na svojim objavama, što je stav koji je u skladu sa politikom Bluesky-a.

Platforma izričito navodi da ne koristi korisnički sadržaj za obuku generativnih AI modela, iako se oslanja na AI za moderisanje i algoritme za feed. Ovaj skup podataka je, međutim, postao glavna tačka kontroverze, izazvavši talas kritika. Korisnici su tvrdili da su njihove objave korišćene bez saglasnosti, kršeći principe na kojima je Bluesky osnovan.

Van Strien je na kraju uklonio skup podataka i izdao izvinjenje. On je priznao da, iako su njegove namere bile da unapredi alate za Bluesky platformu, nedostatak transparentnosti i saglasnosti korisnika u njegovom pristupu predstavlja grešku. Repozitorijum u kojem se nalazi projekat ostaje na Hugging Face-u, ali sam skup podataka više nije dostupan.

I've removed the Bluesky data from the repo. While I wanted to support tool development for the platform, I recognize this approach violated principles of transparency and consent in data collection. I apologize for this mistake.

[image or embed]

— Daniel van Strien (@danielvanstrien.bsky.social) November 27, 2024 at 3:19 AM

Bluesky-eva open-source i javna arhitektura omogućava trećim stranama da slobodno koriste njegove podatke, uključujući u svrhe koje se platforma i njeni korisnici mogu oštro protiviti. Bluesky-ev Firehose API, koji prenosi sve javne objave u realnom vremenu, bio je ključan u kreiranju ovog skupa podataka. Iako je to funkcija dizajnirana za transparentnost i inovacije, ona takođe otvara vrata za potencijalnu zloupotrebu.

Bluesky-ev odgovor je odmeren, ali jasan. Portparol (preko 404Media) uporedio je platformu sa otvorenim internetom, gde se javni podaci mogu indeksirati i koristiti, ponekad protivno željama prvobitnih kreatora. Oni su izrazili interesovanje da razviju načine na koje korisnici mogu da signaliziraju da li pristaju da se njihov sadržaj koristi u takvim projektima, ali još nema konkretnih rešenja.

Ironija je u tome što su mnogi korisnici napustili platforme kao što je X kako bi izbegli da se njihov sadržaj koristi za obuku veštačke inteligencije.

X i Meta su otvoreno dodali klauzule u svoje uslove korišćenja usluge koje dozvoljavaju takvu upotrebu. Bluesky, sa svojim decentralizovanim modelom, izgledao je kao protivotrov. Sada, korisnici shvataju da ih decentralizacija ne štiti nužno od trećih strana koje rade šta žele sa javnim podacima.

Debata je bila intenzivna, sa kontroverzom koja je odjekivala na vrste javnih uzbuna koje su bile uobičajene na starom Twitteru. Za Bluesky, to bi mogla biti prva velika kontroverza sa „vilama“. To je značajan trenutak za platformu, koja je još uvek u ranoj fazi rasta i otkriva kako da se kreće kroz izazove koji dolaze sa njenim jedinstvenim podešavanjem.

Najnovije na sajtu