• Welcome to ZNAK SAGITE — više od fantastike — edicija, časopis, knjižara....

Wikipedia

Started by Truman, 07-10-2018, 20:24:02

Previous topic - Next topic

0 Members and 1 Guest are viewing this topic.

Aco Popara Zver

al ovim ništa ne pobijaš. Ne kontam zašto ponavljaš nešto kad Gugl danas nije isto što i Gugl prije dvaes godina. Dokle da insistiram na scenoslijedu.

Nije ovdje poenta da ja dokažem da je to tačno. Za početak počni da pričaš o onom što taj ekonomista govori (nebitno odakle je njemu, siguran sam da nije sam to odredio nego je imao pomoć, koju ja nemam ovdje haha) a ne o onome što hoćeš.

Al eo, čak i iz te perspektive ostaje ista priča: prije svega toga, ko je obavio primarni, temeljni, prvi cross-reference za Google? Taj cross-reference, čak i ako nije toliko bitan danas (ponovo: scenoslijed) i dalje je osnova da uopšte se odradi pretraga koju danas radiš.

To jest, možda cross-reference nikad i nije bio bitan. Odakle ja znam to. Znam samo da uporno o tome ne pričaš :lol:

Jel potreban cross-reference za pretraživač? Odakle mu? Kako je Yahoo cross-referisao? Koliko je to uopšte bilo uspešno? U čemu je Gugl poboljšao algoritam?

Misim, možda na nešto od toga ne mogu da se nađu odgovori. Ali tvrditi da to što danas nešto može "bez wikipedije" (bez dokaza btw, čak se i Truman pita kako to šljaka) je uvijek moglo bez wiki, to je isto kao reći da je i beba hodala od prvog dana bez pomagala.

To mi uporno govoriš. Meni to ništa ne znači jer ništa ne objašnjava.

Bebu prvo staviš u ona kolica da vježba nogicama pa tek onda prohoda. Ne znam jesi li to znao.

Dakle, najprostije, čak i za današnji google search je neophodan neki cross-reference, i realno nema razloga da to i dalje ne bude Wikipedija, kad je besplatna.

Ona odradi sistematizaciju, odredi FORMU, botovi koji haraju i po Sagiti mogu da pokupe sadržinu. Ali FORMA i dalje ostaje. A čija je, zna li se?
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

Aco Popara Zver

btw, lik je ekonomista, ne filozof, al eo npr osobe koja istražuje platforme Jose van Dijck

Since 2006, Wikipedia pages have ranked extremely high in the
Google Web searches. In 2007 and 2008 researchers found that as much as
96 percent of all Wikipedia pages ranked in the top ten results of Google
searches; the online encyclopedia also draws over 60 percent of all its trafc
from Google.33 Indeed, this could well be the result of Wikipedia's popularity as a source for information seekers; it could also represent Wikipedia's
reputation for usefulness as measured on the Google scale. But an almost
perfect score in Google's top rankings without more aid than just PageRank's algorithmic judgment seems too good to be true. More likely, Google
boosts Wikipedia trafc because it benefts the search engine in more than
one way.

As media theorist Siva Vaidhyanathan (2011) observes, Google likes to
link to Wikipedia articles because they have already worked out norms and
processes for neutralizing controversial content and contentious topics, a
quality that aids Google's search engine value. In turn, he argues, "Google
serves Wikipedia well because the editing standards for inclusion in Wikipedia depend on an entry's relevance; and relevance, circularly, depends on
how prominently Google presents that subject" (Vaidhyanathan 2011: 63).
Wikipedia's neutrality and consensus apparatus thus perfectly complements the popularity-ranking logic underpinning Google Search, where
the most popular results allegedly rank highest. Google's ranking algorithms have often been questioned in terms of their impartiality, as distinct from the company's advertising interests (Batelle 2005)



What we learn from the interconnectedness between Wikipedia and its
commercial counterparts playing in the same Ivy League of connective
media is that their algorithmic and operational logics, while distinctly separate, also perfectly mesh. Te Wikipedian defnition of "knowing" or
rather "building online knowledge" is the largest possible consensus about
facts we can agree on. Wikipedia neutralizes its content by distinguishing
two layers: a visible layer of consensus backed up by an invisible yet accessible layer of discussion and a heterogeneous interpretation on the History
and edit pages. Tis division of layers is mirrored on the organizational
level by separating foundation from platform. Fund-raising and editorial
activities are strictly divided in the organizational management and production of encyclopedic content. But how strong is this division of interests? In 2010, the coziness between Google and Wikipedia was underlined
by Google's gift of $2 million to the Wikimedia Foundation. As one British
journalist subtly remarked, Google's donation to the nonproft foundation
is "not a grant, it's an investment in making sure it can keep dominating
search." Of course, a donation does not mean that Google influences
Wikipedia's editorial decisions, but it can hardly be denied that frictionless
partnership strategies are pursued at every level of the ecosystem.
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

Truman

Quote from: mac on 14-10-2018, 23:56:17
Ako želiš da znaš kako radi Guglov algoritam onda pitaj na više mesta, i to stručnjake, a ne tamo nekog ekonomistu, ili još gore "filozofa eknomske misli". Ti filozofi od šume ne vide drvo.

Ни не питам економисте филозофе, него сам на више места наишао став да гуглов алгоритам као ни формула за Кока-Колу није позната.
Дакле, не реферишем на батине писаније.
Ja da valjam ne bih bio ovde.

Aco Popara Zver

The Googlization of everything (and why we should worry)
Author: Siva Vaidhyanathan
Publisher: University of California Press, Year: 2011

It's no accident that Google has enthusiastically scanned and "read"
millions of books from some of the world's largest libraries. It wants to
collect enough examples of grammar and diction in enough languages
from enough places to generate the algorithms that can conduct naturallanguage
searches. Google already deploys some elements of semantic
analysis in its search process. PageRank is no longer fl at and democratic.
When I typed "What is the capital of Norway?" into Google in August
2010, the top result was "Oslo" from the Web Defi nitions site hosted by
Princeton University. The second result was "Oslo" from Wikipedia.
One search company is trying to combine the two approaches, blending
semantic search with community-based assessment of the quality
of sources.

šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

Truman

Ово да скенирају књиге је тачно, имају и свој гугл букс. Мој посао заправо има две сврхе:
1. попуњавање базе података у интересу корисника који ће тражити те податке
2. уочавање образаца од стране њихових машина, тј. развој вештачке интелигенције.
Кад довољно развију АИ ја остајем без посла!  :cry:
Ja da valjam ne bih bio ovde.

mac

Prvi je bio Yahoo. Tamo su ljudi surfovali svud po internetu i klasificirali sve na šta naiđu, i pučanstvu davali spisak tako manuelno pronađenih stranica. Onda je došla Altavista, gde su mašine surfovale po internetu, i pamtile i indeksirale prvih recimo 1000 slova svake stranice. I sećam se da si morao da javiš Altavisti da ponovo pročita tvoju stranicu ako si nešto menjao i želiš da to svi vide. Onda je došao Gugl koji je radio isto kao Altavista samo mnogo brže i obimnije. Poboljšanje je bilo u kvantitetu više nego u kvalitetu. Mašine slobodno surfuju čitaju, pamte i indeksiraju sve na šta nalete. Onda su ljudi počeli da izmišljaju razne trikove da njihovi sajtovi budu na vrhu pretrage. Staviš u naslov stranice sto puta "dylan dog" i budeš prvi u pretrazi za tim pojmom. Onda Gugl počne da krije algoritam da ga ljudi ne bi prevazilazili. I zato ja sad ne mogu da ti kažem algoritam, ali ono što znam je da mašine surfuju svuda, čitaju i indeksiraju sve, i prikazuju ono što po algoritmu najviše vredi.

Truman

google bots...тако их зову. Константно их спомињу на овом мом послу. :)
Ja da valjam ne bih bio ovde.

Aco Popara Zver

i dalje ne pričaš o cross-reference!

to jest, napišeš da indeksiraju kao da to znači da jedu supu
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

mac

Ne pričam o onome što ne znam. Takva mi religija.

scallop

Quote from: mac on 15-10-2018, 09:42:49
Ne pričam o onome što ne znam. Takva mi religija.


:x :x :x :x :x
Never argue with stupid people, they will drag you down to their level and then beat you with experience. - Mark Twain.

Aco Popara Zver


pa zašto onda tvrdiš da Wikipedia nije obavila cross-reference? Neoliberalu!

ajd za početak reci kako uopšte zamišljaš da Gugl radi pretragu, eo ti uprošćeno u koracima šta mislim da radi

1. prvo ukucaš neki termin (taj termin kada si tek počeo da koristiš internet sigurno nije bio onako kompleksan kao što si naveo da zamutiš neoliberalnu vodu)

2. taj termin gugl algoritam mora da odredi kojoj oblasti pripada, i to mora da čini preko nekog cross-reference sistema - tu po Mirovskom upada Wikipedija

3. Jasno je da čim si stupio na Gugl tlo si praćen i odavno profilisan. Oni znaju na osnovu tvog dugogodišnjeg searcha koju oblast ćeš najčešće da tražiš

4. dakle, tako umnogome smanjuju broj podataka koje search mora da obradi

5. Tražiš fantastiku ili programiranje, naravno da će da ti nađu, ali pretraga će proći kroz drugi cross-reference, plus će biti personalizovana u skladu sa tvojom search istorijom


realno, mislim da ovo ima smisla i da indeksiranje cjelokupnog interneta nije moglo biti efikasno bez nekog izvora gdje je znanje donekle sistematizovano

kao što vidimo iz citata, tu djeluje i cenzura, jer neutral view wikipedie sprečava da ti u rezultatima izađe nešto što će oni prepoznati kao radikalno (inače World's Socialist website ne izlazi na rezultatima jer ga smatraju fake newsom i populističkim), tako da im Wikipedija omogućava da lagano cenzurišu pretragu, sem ako izričito ne tražiš wsws sajt.
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

Aco Popara Zver

But YouTube is far from the first tech company, or even the first social platform, to use Wikipedia's content for its own goals. Its parent company, Alphabet, frequently uses Wikipedia content in Google search results. Facebook is also testing using Wikipedia to fight its own misinformation problem, though it informed the Wikimedia Foundation of its intentions first. Artificial intelligence researchers also frequently use the online encyclopedia—which still adds 20,000 new entries each month—to train algorithms or teach smart assistants. And Levendowski notes that Alphabet-owned Jigsaw used Wikipedia article discussion pages, in part, to train its open-source troll-fighting AI.
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

Aco Popara Zver

imal prevoda?

{
  "@context": {
    "@vocab": "http://schema.org/",
    "goog": "http://schema.googleapis.com/",
    "resultScore": "goog:resultScore",
    "detailedDescription": "goog:detailedDescription",
    "EntitySearchResult": "goog:EntitySearchResult",
    "kg": "http://g.co/kg"
  },
  "@type": "ItemList",
  "itemListElement": [
    {
      "@type": "EntitySearchResult",
      "result": {
        "@id": "kg:/m/0dl567",
        "name": "Taylor Swift",
        "@type": [
          "Thing",
          "Person"
        ],
        "description": "Singer-songwriter",
        "image": {
          "contentUrl": "https://t1.gstatic.com/images?q=tbn:ANd9GcQmVDAhjhWnN2OWys2ZMO3PGAhupp5tN2LwF_BJmiHgi19hf8Ku",
          "url": "https://en.wikipedia.org/wiki/Taylor_Swift",
          "license": "http://creativecommons.org/licenses/by-sa/2.0"
        },
        "detailedDescription": {
          "articleBody": "Taylor Alison Swift is an American singer-songwriter and actress. Raised in Wyomissing, Pennsylvania, she moved to Nashville, Tennessee, at the age of 14 to pursue a career in country music. ",
          "url": "http://en.wikipedia.org/wiki/Taylor_Swift",
          "license": "https://en.wikipedia.org/wiki/Wikipedia:Text_of_Creative_Commons_Attribution-ShareAlike_3.0_Unported_License"
        },
        "url": "http://taylorswift.com/"
      },
      "resultScore": 896.576599
    }
  ]
}
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

Aco Popara Zver

Quote from: Pizzobatto on 15-10-2018, 12:42:52
indeksiranje cjelokupnog interneta nije moglo biti efikasno bez nekog izvora gdje je znanje donekle sistematizovano

"opening up a database that improves search results"

"What is good for Wikipedia - making the site faster, more reliable and more accessible - helps Google's users get what they want, and is therefore good for the company itself. It's not a grant, it's an investment in making sure it can keep dominating search."

https://www.theguardian.com/technology/blog/2010/feb/18/wikipedia-google
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

mac

1. Altavista je imala kompleksnu pretragu (mogao si da koristiš AND i OR operatore u pretrazi), a Gugle je uprostio tu kompleksnost (nije bilo tih operatora). To uprošćavanje je omogućilo Guglu da bude osetno brži od Altaviste, i korisnici su to primetili i masovno migrirali na Gugl zbog te brzine. Ja sam se držao Altaviste koliko sam mogao, jer mi se sviđala ta kompleksnost, iako je Altavista bila osetno sporija od Gugla, ali u jednom trenutku se Altavista predala i prosto redirektovala sve svoje upite na Gugl, što je značilo da ni oni više nisu imali kompleksnost. Tada sam i ja prešao na Gugl. Cut the middle man.

2. Algoritam u principu ne mora da odredi oblast. Algoritam ima milijarde indeksa. Ti mu daš nekoliko reči. Algoritam za svaku reč smanjuje potencijalni skup odgovora, dok na kraju ne preostanu samo stranice koje sadrže sve zadate reči. Tako je bilo u početku, i tako je uglavnom i sada (mada priznajem da ne znam zasigurno, jer niko izvan Gugla ne zna algoritam). Recimo da tvoja stranica spominje Dilana Doga. Ako guglaš za Dilanom Dogom onda će tvoja stranica biti u skupu odgovora, pa bilo da je oblast stranice stripovi, filmovi, teorija fenomenologije, neka fundamentalna religija, prodavnica postera, ili bilo šta drugo što spominje Dilana Doga. Pravo pitanje nije da li će tvoja stranica biti u skupu odgovora, nego na kom mestu će biti. Ako je na prvoj stranici pretrage onda si se super pozicionirao, ali ako je na desetoj stranici onda će malo ko doći na tvoju stranicu preko Gugla. Algoritam vrednuje tvoju stranicu po tome koliko drugih stranica se linkuje na tvoju. Što imaš više linkova sa drugih stranica to je tvoja stranica bliža prvoj strani Gugl rezultata. Ali nisu ni svi linkovi jednaki, jer Gugl više veruje zvaničnim sajtovima, nego ličnim. Ako neko u tekstu New York Timesa priloži link na tvoju fan stranicu o Dilanu Dogu onda ti rejting skače u nebo. Isto važi i za referenciranje sa Vikipedije.

3. Kažeš da Gugl daje različite rezultate različitim pojedincima. Probaj to da potvrdiš u praksi. Ne kažem da nije moguće, ali ne verujem da Gugl ide u sitna crevca za svaku osobu. Time se bave advetajzeri, koji hoće nešto da ti prodaju, i prate te svuda da bi znali šta te interesuje, da bi ti to i prodali. Gugl ti ne prodaje direktno, nego prodaje prostor za reklamiranje drugim firmama. Ono što jeste tačno je da Gugl daje različite rezultate u različitim regijama. Ako tražiš "telekom" u Srbiji i u Hrvatskoj dobićeš različite rezultate.

4. Algoritam ne obrađuje previše da bi ti dao rezultate. To je sve keširano i spremno na izvolte svima u startu. Algoritam samo izvuče iz tog spremnog skupa i pljune ti to što ima. Da je istina to što pričaš onda bi osetio razliku u brzni kad tražiš nešto što uvek tražiš, i nešto što nema nikakve veze s tobom. Ali razlike nema, sve uvek dobiješ u roku od odmah.

Aco Popara Zver

"Algoritam u principu ne mora da odredi oblast. Algoritam ima milijarde indeksa. "

jopet, ko je napravio te indekse? ;)
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

Aco Popara Zver

znam osnove tog page ranka, i da se oslanjaju na broj linkova i klikova, što u stvari povlači jedno drugo, jer prosto nešto što je imalo relativno manji broj klikova prije pet godina al se izbacivalo na prvu stranu, normalno je da će danas da ima znatno veći broj klikova nego rezultat s druge strane pretrage

it's rigged što bi rekao Sanders, to sam čitao kod Mathew-a Hindmana

no nebitno, i dalje se preskače čitav korak, super, tvrdiš da ne znaš ništa o tom koraku, ali ne možeš drugim koracima da pobiješ prvi korak

dakle, algoritam ima milijarde indeksa - Milijardo, wherefore art though?
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

mac


Pa Gugl, automatski. Nema tu mudrosti. Na stranici imaš tekst, taj tekst se indeksira po svakoj reči u tom tekstu. Ignorišu se neke opšte reči, the, of, in, itd. a sve ostalo se indeksira.

E ali Algoritam sad dolazi do izražaja. Milioni ljudi traže neki pojam. Gugl u početku ne zna koje su stranice vredne kao rezultati, a koje nisu. Ima neke početne pretpostavke, ali to u opštem slučaju ne mora mnogo da znači. Ali onda ljudi kreću da klikću te linkove koje im Gugla ponudi, i Gugl zna gde su ljudi kliktali. Ako si kliknuo na prvih par linkova rezultata i stao na šestom, Algoritam zaključuje da si na šestom linku našao ono što si tražio. Taj šesti link će vremenom postati peti, četvrti, a ko zna možda postane i prvi. Sve što je potrebno je da milioni ljudi zastanu sa pretragom jednom kad posete baš taj link. Ne treba ti kris-referenciranje, nego sami korisnici svojim ponašanjem urade posao za tebe.


Uzmimo problem vezivanja pertli na cipelama. Ako tražiš na Guglu kako se vezuju cipele dobićeš negde u prvoj stranici i sajt https://fieggen.com/shoelace/knots.htm . Sajt je vrlo old-school i neugledan, ali ima sve što ti treba da vežeš pertle. Ljudi prestanu sa pretragom kad na tom sajtu pronađu odgovor. I zato je taj sajt među prvih deset, iako nije bog zna šta. Sajt postoji od 2003. a referenciran je na Vikipediji 2013. Ja tvrdim (bez dokaza) da je Gugl znao za taj sajt i pre nego što je referenciran na Vikipediji, i da je neko zapravo dodao wiki referencu jer je pronašao sajt na Guglu, i procenio da je vredan za Vikipediju.

Truman

Бато, учи о информатици и алгоритмима од мека уместо што лупеташ глупости о нечему у шта се ич не разумеш!
Ja da valjam ne bih bio ovde.

Aco Popara Zver

mac samo neoliberališe, to je problem

kad ga pitaš za indeksiranje on ti odgovori

"Milioni ljudi traže neki pojam. Gugl u početku ne zna koje su stranice vredne kao rezultati, a koje nisu. Ima neke početne pretpostavke"

dakle, indeksiranje indeksiranja :lol:

početne pretpostavke, ozbiljno?

u narednoj poruci biće pitanje indeksiranja indeksiranja indeksiranja
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

Aco Popara Zver

uostalom, napredujemo, dakle Gugl svakako eksploatiše djelovanje mnoštva ljudi i to nije sporno

samo je sada pitanje dal eksploatiše samo svoje korisnike ili i Vikipedijance
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

Aco Popara Zver

Quote from: Truman on 15-10-2018, 13:37:37
Бато, учи о информатици и алгоритмима од мека уместо што лупеташ глупости о нечему у шта се ич не разумеш!

Truki, zato si ti tu da mi prevedeš ono programče!
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

mac

Quote from: Pizzobatto on 15-10-2018, 13:20:25
"Algoritam u principu ne mora da odredi oblast. Algoritam ima milijarde indeksa. "

jopet, ko je napravio te indekse? ;)

Quote from: mac on 15-10-2018, 13:30:44
Pa Gugl, automatski. Nema tu mudrosti. Na stranici imaš tekst, taj tekst se indeksira po svakoj reči u tom tekstu. Ignorišu se neke opšte reči, the, of, in, itd. a sve ostalo se indeksira.

Odgovorio sam, nego ti ne razumeš. Možda mi mislimo na različite stvari pod pojmom "indeksiranja". Znači Gugl bot naleti na tekst "Taylor Alison Swift is an American singer-songwriter and actress", i šta uradi? Doda tu istu stranicu u svoju bazu u indekse imena "Taylor", "Alison", "Swift", "American", "singer", "songwriter", "actress". To ja zovem indeksiranje.

Uzgred, to što si postavio nije programče, nego rezultat pretrage za pojmom Taylor Swift, ali u tom rezultatu ima samo jedna stavka, i to je onda glavna, što stoji s desne strane kad tražiš pojam koji je toliko opšti da je stranica na Vikipediji najbolji prvi odgovor.

Aco Popara Zver

Quote from: mac on 15-10-2018, 14:21:18
Odgovorio sam, nego ti ne razumeš. Možda mi mislimo na različite stvari pod pojmom "indeksiranja". Znači Gugl bot naleti na tekst "Taylor Alison Swift is an American singer-songwriter and actress", i šta uradi? Doda tu istu stranicu u svoju bazu u indekse imena "Taylor", "Alison", "Swift", "American", "singer", "songwriter", "actress". To ja zovem indeksiranje.

To ja zovem Wikipedia :lol:

Gugl bot "naleti" na tekst, ma šta mi napriča. Baš taj tekst s Wikipedije? :lol:

Baš na osnovu njega indeksira?

Dakle, odgovaraš, ja ne razumijem, ali molim te, odgovaraj i dalje!
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

Aco Popara Zver

Ma programče, programski jezik u svakom slučaju...

zašto bi stranica sa wikipedije bila najbolji prvi odgovor?

Zašto juče kad ukucam Milena Dravić treba da ispadne wikipedija? Jel taj Gugl dovoljno pametan da mi npr izbaci prvo dnevne vijesti.

Nači, zašto wikipedia? I dalje isto pitanje...
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

Meho Krljic

Da li ti u stvari pitaš zašto je wikipedija tako visoko na listi guglovih rezultata pretrage?

Ako je to, gugl ima komplikovane kriterijume kako rangira rezultate a jedan od njih je i koliko drugih strana linkuje neku stranu, u pretpostavci da je pouzdanija ako je više strana linkuje. Naravno, ima tu onda sva sila modifikatora (inače bi svuda na prvom mestu bile pornografske stranice), ja sam ga jako uprostio, ali generalno "mnogo ljudi linkuje vikipediju kao dovoljno dobar izvor za to što traže" je približan odgovor.

Aco Popara Zver

Ne, ne pitam za same linkove koji ispadnu kao rezultat pretrage već za to na šta se pretraga oslanja.

Mac je pretežno tretira kao crnu kutiju u kojoj algoritmi sami od sebe indeksiraju sve baš po enciklopedijskim standardima, mislim čoek bi se zapitao kako prepozna da neki termin ne potiče iz pornografije nego iz neke druge oblasti, pametan neki algoritam, jelte.

A zašto je pametan, e to ne znamo.
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

mac

Zato što su ga pametni ljudi pravili godinama, i još ga prave. Pretraga se oslanja na sadržaj celog interneta. Gugl botovi (kompjuteri, a ne ljudi) surfuju po celom internetu. To je tako radilo i u vreme Altaviste, samo tada su se zvali "web crawleri". Eto, pročitaj šta Vikipedija ima da kaže o njima, https://en.wikipedia.org/wiki/Web_crawler

Problem pornografije se lako rešava, jer porno sajtovi se sami oglašavaju tako. Po sadržaju sajta znaš da je to porno sajt, pa ako i naleti neki video sa Tejlor Svift u naslovu, algoritam će na osnovu sveg drugog sadržaja na stranici znati da ta stranica ne treba da ide u rezultate pretrage ako je SafeSearch uključen.

mac

Ali recimo da neko ubaci neki pornić u YouTube. Ima ko gleda sve te videoe, ljudi su plaćeni za to, i taj video neće biti pušten. Ako se neki radnik i zezne pa pusti video, svi posetioci imaju priliku da označe video kao neprikladan (YouTube se takođe oslanja i na besplatno angažovanje svojih korisnika), i vrlo brzo će video biti uklonjen.


A sada imaš i algoritme koji ulaze u sadržaj videa i sadržaj zvuka, nekakav AI, i taj algoritam će proceniti da je video pornografski, jer se već nagledao sličnih videa.

Truman

Quote from: Pizzobatto on 15-10-2018, 14:04:17
Quote from: Truman on 15-10-2018, 13:37:37
Бато, учи о информатици и алгоритмима од мека уместо што лупеташ глупости о нечему у шта се ич не разумеш!

Truki, zato si ti tu da mi prevedeš ono programče!

Зашто ја? Мек је овде колико знам једини програмер.

Иначе, кад гугл бот налети на неки нов појам ( нпр. нов млади глумац који се појави у некој серији ) он направи топик о том глумцу и дода аутоматски неке изворе који су прихватљиви. То је рецимо ИМДБ или тако нека страница, може бити и википедија ако постоји. Онда ми мали дата ентри мишеви попуњавамо тај топик разним подацима са разних изовра да би фан те серије могао да нађе где је тај глумац рођен, ко му је девојка, колико је висок...То ти је оно кад укуцаш име и одмах ти искоче основни подаци са десне стране. А то што ми попуњавамо посматра моћна гуглова вештачка интелигенција и на основу наших уноса прави неке своје обрасце који ће једног дана заменити људски рад ( надајмо се, не скоро! ).
Ja da valjam ne bih bio ovde.

Aco Popara Zver

vidim kako ga prave, plaćaju Trumana da to odradi za njih!

Nači totalno je princip tačan i tu nema spora, nadam se. I ne brini Trumane, AI nikad neće zaživjeti, mažu oči raji!

I dalje će biti potrebna ljucka ruka na više mjesta u sistemu.

No mac mi je sad interesantan, kako je sve što priča u vezi sa - Kragujevcom!

Ko priča o Tejlor Svift i pornografiji, kako to poveza uopšte. Pričam o tome što je Meho spomenuo modifikatore, što je jopet pitanje odakle ti modifikatori.

Npr neki termin koji ima dva značenja, poput facial kad sam moram da pornićarim. Gugl izbacuje kozmetički facial, normalno. Jer je unaprijed spriječen da izbaci neki drugi facial, uprkos broju linkova i klikova.

I tu na scenu stupa nešto poput Wikipedije, gdje je sadržaj upristojen, pregledan, sistematizovan.

šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

mac

Ne brate, nego je na početku bio haos, i u rezultatima si dobijao i jedno i drugo. Onda su se korisnici žalili, i onda je Gugl u svojoj mudrosti smislio kako da otkrije šta je pornografski sadržaj. Da li je koristio Vikepidiju za to? Nije. Pa šta je uradio? Pa lepo, zabranio je svaku stranicu koja u sebi ima pojmove koje je karakterišu kao porno sajt. Porno sajtovi sami se oglašavaju kao porno sajtovi. Sami kažu "ja sam porno sajt". Gugl pronađe tu informaciju i filtrira porno sajt. Ali ako u gugl pretragu ubaciš i neku magičnu reč onda Gugl zna da zaista tražiš porno sadržaj i onda ti to i uruči. Ne treba mu Vikipedija za to. Sami su to interno rešili. Neki porno sajtovi se možda ne oglašavaju kako treba, i onda običan korisnik naleti u rezultatima na sajt, i onda se žali Guglu, i onda Gugl provali zašto algoritam ne radi za taj specijalan slučaj, i prilagodi algoritam. Ne može porno sajt da sakrije svoju porno prirodu, sve i da hoće, a neće, jer želi da ima posetioce koji će tu da se zadrže.

mac

Quote from: Pizzobatto on 15-10-2018, 15:29:23
Ko priča o Tejlor Svift i pornografiji, kako to poveza uopšte.

Pa ti si prvi počeo sa Tejlor Svift. Čitaš li ti uopšte ono što postiraš ovde?

Quote from: Pizzobatto on 15-10-2018, 12:59:34
imal prevoda?

...
        "name": "Taylor Swift",

Quote from: Pizzobatto on 15-10-2018, 14:50:47
... mislim čoek bi se zapitao kako prepozna da neki termin ne potiče iz pornografije nego iz neke druge oblasti, pametan neki algoritam, jelte.

Aco Popara Zver

pa termin, ne ime, jelte (meho (kodrugi!) je spomenuo pornografiju, ne znam kako je to povezano sa Sviftovom kad je ja nisam povezao)

no, reko bih da itekako čitam ono što je napisano

naime, napisano je da algoritmi imaju milijardu indeksa

opisao si samo jedan od njih u slučaju pornografije

ja ni ne sporim da neko mora da sjedne, ljucko biće sopstvenim rukama i mozgom da premosti terminologiju kako ne bi ispadao rezultat koji neki ljudi neće

problem nije u jednom premošćavanju nego u milijardu premošćavanja

kad te to pitam ti se zatvoriš u gugl crnu kutiju i misliš da neko treba da bude zadovoljan takvim antiodgovorom

dakle, odgovorio si na POJEDINAČNOM primjeru kako je nešto indeksirano, to sam i ja znao

al i dalje ne znam kako cvjeta milijardu indeksa

to jest, za sada imam samo jedno kakvo-takvo objašnjenje - Wikipediju
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

mac

Čekaj bre, kako nije jasno. Gugl zna koju su sajtovi pornografski. Gugl zna koje reči su pornografske. Ako Guglu ne daš pornografske reči onda ti neće vratiti pornografske sajtove. Nema ništa prostije. Ne razumem kako ne razumeš.

Aco Popara Zver

nisam rekao da to ne razumijem. Rekao sam da bi se tako upravljalo milijardama pretraga sa milijardama indeksa, trebalo bi koliko ljudi koliko sati koliko da bdi, koliko da programira, koliko da indeksira... Ne samo za porn. VEĆ ZA SVE OSTALO.

Rekoh i da je WSWS sajt nestao s pretrage. Dakle, MILIJARDU INDEKSIRANJA. Ne jedan indeks

Milijardu sekundi je 31.69 GODINA. To je koliko bješe Trumana?

šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

mac

Botovi to rade vrlo brzo i ima ih vrlo mnogo. Verovatno ih ima fizički lociranih svuda po svetu, jer tako su još brži.

Ljudi reaguju ako ima problema, ali problem se javi samo ako se neko žali. Ako se niko ne žali onda nema problema. Sve što pišeš veliki slovima nije problem. Gugl samo doda još više hardvera i problem rešen. Možda se neko žalio na WSWS, kao što su se žalili i na pornografiju. Žale se ljudi, a Guglovi radnici reaguju.

Truman

Па како ти и даље Пицобато није јасно да гуглов вештачки мозак индексира. Као што сам ти рекао - за сваки нов појам они направе нов топик. Нпр. Бато напише књигу из социологије која се појави на амазону. Гугл бот који прати амазон направи самостално топик о тој књизи са подацима који ту постоје ( аутор и датум кад је издата рецимо ). Мој задатак у овом случају би био да проверим из других извора да ли су ти подаци заиста тачни.
Дакле, имаш већ аутоматско индексирање - "бата", "социологија", "феминизам", "неолиберализам" итд.
Ja da valjam ne bih bio ovde.

Truman

Quote from: mac on 15-10-2018, 16:49:25
Botovi to rade vrlo brzo i ima ih vrlo mnogo. Verovatno ih ima fizički lociranih svuda po svetu, jer tako su još brži.

Ljudi reaguju ako ima problema, ali problem se javi samo ako se neko žali. Ako se niko ne žali onda nema problema. Sve što pišeš veliki slovima nije problem. Gugl samo doda još više hardvera i problem rešen. Možda se neko žalio na WSWS, kao što su se žalili i na pornografiju. Žale se ljudi, a Guglovi radnici reaguju.
Ово је ( делимице ) тачно. Нпр. гугл бот унесе да је жанр батине књиге научна фантастика. Он то види и пошаље поруку гуглу након чега ја то исправљам. Међутим, често се деси да и сама гуглова интелигенција сама уочи грешку. Нпр. редовно се дешава да едиције књиге имају ранији датум од датума оригиналног издања. То гуглов мозак уочи и пошаље ми. Мој задатак је да одредим шта је ту погрешно и да исправим грешку.
Ja da valjam ne bih bio ovde.

Aco Popara Zver

Botovi šta rade jako brzo? Razvrstavaju prikladan i neprikladan sadržaj, određuju šta je bolji search rezultat itd. Ali to botovi uošte ne rade. Već smo zaključili da to Trumani rade.

Ja ne znam zašto idemo nazad kad je to već Guglov radnik priznao.
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

Aco Popara Zver

dakle, kako je krenulo, ja čitam vaša dva posta i u njima i dalje piše da milijardu razumnih klasifikacija ili indeksiranja bot ne može da uradi. Može da hvata sve redom, ali ne daje im formu. Formu im daje ljucko biće. To bukvalno sami napišete i onda i dalje ignorišete da ljucka bića ne mogu to milijardu puta da učine.
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

Truman

Quote from: Pizzobatto on 15-10-2018, 16:59:21
Botovi šta rade jako brzo? Razvrstavaju prikladan i neprikladan sadržaj, određuju šta je bolji search rezultat itd. Ali to botovi uošte ne rade. Već smo zaključili da to Trumani rade.

Ja ne znam zašto idemo nazad kad je to već Guglov radnik priznao.
Не, трумани то не раде. То ради искључиво гуглов вештачки мозак.
Ja da valjam ne bih bio ovde.

Aco Popara Zver

Naravno, naravno, nismo džaba na SF forumu.
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

mac


Truman priča o sadržaju sa desne strane (ajde i ja da mu ga zamašćujem). Ukucaš Taylor Swift i sa desne strane dobiješ njene osnovne podatke koje Gugl garantuje, jer su to proverili trumani. Ukucaš Budalina Tale i sa desne strane nema ničega, jer Gugl nema pojma šta znače te dve reči. Ali ti ipak ponudi linkove u kojima se te dve reči javljaju. Sve što Gugl treba da provali je koje linkove prvo da ti ponudi, a to zna po raznim parametrima, uključujući i koliko veruje tom sajtu, i koliko ljudi je stalo sa pretragom kad je obišlo svaki konkretni link.

Mašinska obrada može da bude i problem kad se oblasti dodiruju. Recimo postoji igra Dota i u njoj magija Acid Spray. I sad ti guglaš "dota acid", zaboraviš ono "spray" i šta dobiješ, nekakvu organsku hemiju, jer slučajno postoji i molekul koji su isto nazvali DOTA, i koji ima veze s kiselinama. Ali niko se nije žalio na to i igrači kad vide tako nešto sami rafinišu upit pa dodaju "spray" ili ako ne znaju puno ime magije snađu se već nekako.

Truman

Бато, можда најбоље да одустанеш од покушаја да скапираш ИТ ствари. Превише је то комплексно за тебе ( или ти је мозак испран антинеолиберализмом! ).
Ja da valjam ne bih bio ovde.

mac

Quote from: Truman on 15-10-2018, 17:01:08
Quote from: Pizzobatto on 15-10-2018, 16:59:21
Botovi šta rade jako brzo? Razvrstavaju prikladan i neprikladan sadržaj, određuju šta je bolji search rezultat itd. Ali to botovi uošte ne rade. Već smo zaključili da to Trumani rade.
Не, трумани то не раде. То ради искључиво гуглов вештачки мозак.

Ajde da ne pričamo o pornografiji nego o WSWS. Na početku algoritam nije razlikovao WSWS od ostatka interneta. Onda su se ljudi žalili, i neki programer u centrali (a ne obični truman) je uveo razliku između WSWS i ostatka interneta. WSWS sajtu se više ne veruje. I sad Bata kaže da ne može običan čovek da postigne da razvrsta milijardu takvih sajtova. Ali evo gde Bata greši. Sajtova na koje se ljudi žale nema milijardu nego stotine hiljada. Recimo dnevno po stotinu. To ljudi mogu ručno da obrade bez problema.

Aco Popara Zver

ma skapirati IT stvari je lako, neoliberalizam je real problem

no, ovo je već problem izvan mojih moći, naime, to što mac na osnovu toga što Truman kaže da radi zaključi da Gugl samo to radi sa svojim zaposlenima. Samo to? Ouuukej najsporije moguće izgovoreno.

Ja tu ne mogu mnogo šta da uradim. Za to nije potreban neki nov podatak već je pitanje metoda.

Mi smo došli do klasične stupice gdje kažeš čovjeku da je vodonik zapaljiv a kiseonik pospješuje gorenje i čovjek zaključi da voda potpiruje vatru.

Šta raditi u takvom slučaju, hm...

Vraćati se nazad, ne znam... iako tamo i piše da se Wikipedija bar za nešto koristi od strane više platformi i to se tvrdi kao nesporna činjenica.

S te strane reći da Wikipedija apsolutno ništa ne radi već je laž. Ne pretpostavka kao u slučaju Mirovskog.

Ovdje se od drveta šuma ne vidi. Jel fizički moguće da se odradi taj cross-reference od strane bota? Jel vremenski i matematički moguće? Naravno da nije/jeste/nije.

No, ja tu više nemam šta da dodam. Bar ne danas. Nek odleži, možda neko novi nešto doda. Možda svima nešto sine. Možda ja progledam.

Za sada me niko nije uvjerio da je cross-reference matematički problem. Nikad nije ni bio, nikad neće biti.
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

Aco Popara Zver

Quote from: mac on 15-10-2018, 17:32:51
Quote from: Truman on 15-10-2018, 17:01:08
Quote from: Pizzobatto on 15-10-2018, 16:59:21
Botovi šta rade jako brzo? Razvrstavaju prikladan i neprikladan sadržaj, određuju šta je bolji search rezultat itd. Ali to botovi uošte ne rade. Već smo zaključili da to Trumani rade.
Не, трумани то не раде. То ради искључиво гуглов вештачки мозак.

Ajde da ne pričamo o pornografiji nego o WSWS. Na početku algoritam nije razlikovao WSWS od ostatka interneta. Onda su se ljudi žalili, i neki programer u centrali (a ne obični truman) je uveo razliku između WSWS i ostatka interneta. WSWS sajtu se više ne veruje. I sad Bata kaže da ne može običan čovek da postigne da razvrsta milijardu takvih sajtova. Ali evo gde Bata greši. Sajtova na koje se ljudi žale nema milijardu nego stotine hiljada. Recimo dnevno po stotinu. To ljudi mogu ručno da obrade bez problema.

Koji ljudi su se na šta žalili more? Oslanjaš svoju priču na ekscese, da li ti je to jasno uopšte?

ja te pitam za rutinski cross-reference, prećutno slaganje, samorazumljive klasifikacije. čak i ako sam dao primjer wsws ne tražim odgovor tog tipa. Tražim objašnjenje svakodnevnog cross-referenca, od laka za nokte do dostojevskog.

reći da je to bot cross-referisao matematički klasičan je scientistički error.
šta će mi bogatstvo i svecka slava sva kada mora umreti lepa Nirdala

mac

Algoritam ne može da "zna" značenja reči. Algortmu nije ni potrebno da "zna". Algoritam teži da na zadati input odgovori takvim outputom da posle tog outputa korisnik ne daje novi input. Za taj zadatak Algoritmu nije neophodno da "zna" ni značenje inputa ni kros-reference ni bilo šta slično.

scallop

Nemojte ga učiti više, molim vas. "Naučiće" i ko će s njim posle? :? :? :? :? :? :? :? :? :? :?
Never argue with stupid people, they will drag you down to their level and then beat you with experience. - Mark Twain.