09
Ago
Google aggrega contenuti dal web su Google News ma impedisce ad altri di fare lo stesso.
“Google crawls news sites and grabs their content for republishing on Google News. They rely on the willingness of those news sites to get distribution on Google. But Google restricts others from crawling Google News itself via their robots.txt file and terms of use, which state that “you may not…use any robot, spider, other device or manual process to monitor or copy any content from the [Google News] Service.â€
(via Techcrunch)
Tags:
Agosto 9th, 2007 at 15:39
http://blog.wired.com/business/2007/08/google-video-me.html
Agosto 9th, 2007 at 16:17
Io capisco veramente poco di queste cose di Google.
Per mestiere, so qualcosa sugli aspetti di privacy.
Domanda: c'era da aspettarci qualcosa di diverso?
La mia impression è che dalle imprese telematiche ci si aspetta chissà cosa, soltanto perché sono, appunto, telematich dunque democratiche e giuste di per sé.
Ma non è un'idea un po' balzana? Oppure sono io ad essere più disincantanto della media?
La gente, bene o male, fa business e, francamente , non penso che esista un business etico. Ecco perché non mi stupisco di certe motizie pur da verificare.
Agosto 9th, 2007 at 18:07
uhm, a rigor di grammatica "may not" significa "puoi non"
Agosto 10th, 2007 at 02:25
A rigor di logica sì, ma invece no.
"May not", in questo tipo di formulazioni tipo "elenco di diritti e divieti", è la formula che si usa proprio per identificare il divieto, in pratica sta per "non avere la possibilità di".
Agosto 10th, 2007 at 03:09
may = puoi
may not = non puoi
Agosto 10th, 2007 at 03:14
Secondo me
Cerca di limitare lo spam. Diversamente attraverso i feed con tre righe di codice si potrebbero creare infinite pagine tutte duplicate da google news (qualcuno gia' lo fa). Io per puro studio ci ho provato col risultato di avere migliaia di accessi dopo pochissimi giorni (poi ho tolto tutto).
Per internet creare infinite copie di un aggregatore e' un non senso. Google dice: "se vuoi un aggregatore di news vai a scovartele da solo e non sfruttare il mio lavoro"
Secondo me :-)
Agosto 10th, 2007 at 04:54
Se il term of use dice che non si può fare, l'obbligo c'è ed è legale.
Ma il robots.txt non c'entra una cippa perché si tratta a tutti gli effetti di un consiglio che viene dato a chi fa il mirror di un sito: scarica questo e quello, ma lascia perdere quest'altro. Il server web robots.txt lo ignora (lo tratta come un qualsiasi altro file), è il software di mirroring (tipo wget o curl) che dovrebbe tenerne conto. Ma può anche non farlo, se crede (al limite si tratta di un comportamento unpolite).
Agosto 10th, 2007 at 04:56
Più precisamente robots.txt è dedicato agli spider dei motori di ricerca, anche se software come wget ne tengono conto.
Agosto 12th, 2007 at 18:28
Beh, in compenso le notizie si possono recuperare via Rss, che probabilmente è anche un modo più efficace ed efficiente!