Google aggrega contenuti dal web su Google News ma impedisce ad altri di fare lo stesso.

“Google crawls news sites and grabs their content for republishing on Google News. They rely on the willingness of those news sites to get distribution on Google. But Google restricts others from crawling Google News itself via their robots.txt file and terms of use, which state that “you may not…use any robot, spider, other device or manual process to monitor or copy any content from the [Google News] Service.”

(via Techcrunch)

9 commenti a “LA GRANDE "G" CATTIVA”

  1. marco dice:

    http://blog.wired.com/business/2007/08/google-video-me.html

  2. Daniele Minotti dice:

    Io capisco veramente poco di queste cose di Google.

    Per mestiere, so qualcosa sugli aspetti di privacy.

    Domanda: c'era da aspettarci qualcosa di diverso?

    La mia impression è che dalle imprese telematiche ci si aspetta chissà  cosa, soltanto perché sono, appunto, telematich dunque democratiche e giuste di per sé.

    Ma non è un'idea un po' balzana? Oppure sono io ad essere più disincantanto della media?

    La gente, bene o male, fa business e, francamente , non penso che esista un business etico. Ecco perché non mi stupisco di certe motizie pur da verificare.

  3. Alessandro Longo dice:

    uhm, a rigor di grammatica "may not" significa "puoi non"

  4. Annieblu dice:

    A rigor di logica sì, ma invece no.

    "May not", in questo tipo di formulazioni tipo "elenco di diritti e divieti", è la formula che si usa proprio per identificare il divieto, in pratica sta per "non avere la possibilità  di".

  5. massimo moruzzi dice:

    may = puoi

    may not = non puoi

  6. Sergio dice:

    Secondo me

    Cerca di limitare lo spam. Diversamente attraverso i feed con tre righe di codice si potrebbero creare infinite pagine tutte duplicate da google news (qualcuno gia' lo fa). Io per puro studio ci ho provato col risultato di avere migliaia di accessi dopo pochissimi giorni (poi ho tolto tutto).

    Per internet creare infinite copie di un aggregatore e' un non senso. Google dice: "se vuoi un aggregatore di news vai a scovartele da solo e non sfruttare il mio lavoro"

    Secondo me :-)

  7. Joe Tempesta dice:

    Se il term of use dice che non si può fare, l'obbligo c'è ed è legale.

    Ma il robots.txt non c'entra una cippa perché si tratta a tutti gli effetti di un consiglio che viene dato a chi fa il mirror di un sito: scarica questo e quello, ma lascia perdere quest'altro. Il server web robots.txt lo ignora (lo tratta come un qualsiasi altro file), è il software di mirroring (tipo wget o curl) che dovrebbe tenerne conto. Ma può anche non farlo, se crede (al limite si tratta di un comportamento unpolite).

  8. Joe Tempesta dice:

    Più precisamente robots.txt è dedicato agli spider dei motori di ricerca, anche se software come wget ne tengono conto.

  9. Nicola Mattina dice:

    Beh, in compenso le notizie si possono recuperare via Rss, che probabilmente è anche un modo più efficace ed efficiente!