google+ Profile und Accounts liegen offen

22.03.2012 | Nicolas Sacotte
Wir haben schon vor einigen Wochen mal die sitemaps von google unter die Lupe genommen und dabei einige äusserst interessante Dinge "gefunden". Wir haben lange überlegt das überhaupt öffentlich zu machen, bzw. darüber nachgedacht, was man mit den Daten tun könnte. INFOGRAFIKEN war natürlich die erste Idee. Wir haben darüber auf der Campixx mit einigen Leuten gesprochen (Heiner Du erinnerst Dich sicher!). Deshalb nachfolgend einige Zahlen, die unsere Crawler zusammengetragen haben. Zur Info am Rande: wir haben nichts gehackt, oder sind sonstwie in Systeme eingedrungen! Die Daten liegen nach wie vor offen rum. In google´s eigener Sitemap, ALLE!

Wie wir drauf gekommen sind? OK, here we go: es macht ja durchaus Sinn ab und an mal über den Tellerrand zu schauen, um zu analysieren was andere vll. anders und vor allem besser machen. Im Zuge dessen haben wir uns die robots.txt von google angeschaut und dort das hier gefunden: Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml . Wenn man sich diese .xml mal näher anschaut findet man dort Verweise auf viele .txt-Dateien, in denen dann die exakten URLs der Profile und Accounts liegen.

Na wenn da das SEO- und Programmiererherz nicht höher schlägt? Also fix nen Crawler gebaut und alle Daten abgegrast. Am Ende des Tages waren dann sage und schreibe knapp über 106 Millionen Datensätze in der DB. Und da google netterweise auch noch das Datum über die sitemaps mitliefert, haben wir unser Krabbeltierchen natürlich darauf getrimmt, nach Updates Ausschau zu halten. Zeitliche Verläufe in Infografiken machen sich einfach immer gut! und siehe da, mehr oder weniger regelmäßig updated google den Datenbestand auch. Wir haben die ersten Daten am 13.12.2011 analysiert und 4 Wochen später am 13.01. war wieder ein Update der sitemaps. und etwa 8 Wochen später am 16.03. das letzte Mal.

hier könnt Ihr die Daten einsehen: google plus Auswertung Tool (sorry für die Ladezeit, konnten wir auf die Schnelle nicht optimieren, aber ich denke 5 Sekunden ist noch im Rahmen)

Wir haben lange hin und her überlegt, ob wir unsere Auswertung öffnen sollen! Aber damit klar wird, was google da offen legt hat das Team sich dafür eingesetzt: bittesehr, unsere google+ Profilsuchmaschine auf Basis frei zugänglicher Daten, google erlaubt es einem robot bzw Crawler wie unserem mit einem deutlichen ALLOW: http://www.gstatic.com/robots.txt ;-)

Danke an Amit Agarwal, der gestern Abend einen Artikel genau dazu geschrieben hat und seo-united.de, die heute morgen auch schon darüber gebloggt haben! Daraufhin haben wir beschlossen das auch öffentlich zu machen! Er spekuliert und rechnet grob durch, was da an Daten "rumliegt", wir haben das Tool dazu gebaut! Man kann jetzt natürlich noch weiter gehen und genaue Daten ziehen, über öffentliche Profile und nicht öffentliche. Und die öffentlichen kann man problemlos crawlen und scrapen. Selbst wenn nur 10% aller User ein offenes Profil haben sollten, ist die Datenmenge schon sehr nah an "repräsentativ". Man könnte also einfach mal analysieren, wie die grundsätzliche Genderverteilung ist, oder wo die Ballungsräume der Plus-Nutzer liegen, oder wie viele Plusser in NYC weiblich sind, oder oder oder.....

Alles in allem eine hochinteressante Sache, mit der man tolle Analysen fahren kann, aber auch viele böse Dinge anstellen könnte. Deshalb bin ich mir nicht so sicher, ob sich google mit der kompletten Offenlegung einen Gefallen tut und als google+-Nutzer wirft das sicher Fragen auf. Andererseits werden die google+-Profil-URLs ja aber auch indixiert und sind auch so einsehbar! Mit der Abfrage: site:plus.google.com inurl:about sieht man aber deutlich, dass die Seiten nicht alle indexiert sind. Was meint Ihr dazu? Wie findet Ihr das Tool?
Kommentare:
Kommentare 16 Kommentar(e)
Schulze, Thomas 22.03.2012, 11:05 Uhr
Avatar
Wow, das ist mal ein Hammer! Gute Arbeit, die Herren!

Antworten
Sebastian 22.03.2012, 11:20 Uhr
Avatar
Ganz schön derbe...

Antworten
Nicolas Sacotte 22.03.2012, 11:21 Uhr
Avatar
bedank Dich beim Crawler! ;-)

Antworten
Nils Hitze 22.03.2012, 11:26 Uhr
Avatar
Was daran ist genau jetzt neu?

Einfach mal danach Googlen:
http://goo.gl/mY59Z
"Sophie Wrobel hat das auf Google+ geteilt · 13. Juli 2011"

Ebenfalls aus 2008:
http://www.searchenginejournal.com/google-profiles-now-indexable-in-search-engines/7846/

Ich sehe auch gerade nicht was man damit "böses" anstellen könnte, aber klär mich bitte auf

Antworten
Nicolas Sacotte 22.03.2012, 11:33 Uhr
Avatar
neu ist das nicht, aber wir haben es halt visualisiert und die Updates bzw. Zuwachsraten damit aufgezeigt! ;-)

....und "böse" ist halt immer sehr relativ, aber man könnte die offenen Profile crawlen und dann z.B. regionale Circles aufbauen, d.h. ich such mir alle weiblichen Personen in Berlin und adde die zu meinen Circles.... :-) Viel Raum für Spam...
Gretus 22.03.2012, 11:50 Uhr
Avatar
Hallo,

schon krass, allesamt zu Facebook einladen #lol

Grüße

Gretus

Antworten
Nicolas Sacotte 22.03.2012, 11:51 Uhr
Avatar
genau das wäre auch ne Möglichkeit! ;-) gute Idee eigentlich!
Speedy 22.03.2012, 12:09 Uhr
Avatar
Wahnsinn, was es doch so alles gibt, und wer so alles Zeit nach solchen Punkten zu suchen ;-) Kompliment.
Habe das Tool gerade einmal nach meinen ID´s durchsucht und diese nicht gefunden. Sie sind zwar bei google indiziert, aber nicht bei euch drin. Auch interessant.
Die Suche ist etwas sehr lang, bei den Daten aber auch kein Wunder.

Antworten
Nicolas Sacotte 22.03.2012, 12:21 Uhr
Avatar
die ist mit Sicherheit drin! es sei denn der Account bzw. das Profil wurde nach dem 16.03. angelegt!
Wir haben das mit etwa 50 IDs durchgetestet, alle drin!
Manfred Gottschling 22.03.2012, 14:07 Uhr
Avatar
hmm...

das ist ja schön ;) nun ich habe meine ID gefunden und auch angezeigt bekommen ... und richtig cool finde ich das ganze tatsächlich in Verbindung mit einem lokalen Wettbewerb zu verknüpfen - bin ja direkt mal gespannt wie sich das am ende auf das local search ranking auswirken wird ...
ein schelm wer böses dabei denkt ...

Antworten
Alex 23.03.2012, 23:18 Uhr
Avatar
Schon, nice.

Da kann man bestimmt einiges mit machen, mal eine Nacht drüber schlafen ;)

Antworten
Tilo 30.03.2012, 12:03 Uhr
Avatar
Jetzt sagt nicht, dass ihr das alle nicht geahnt haben. Was denkt ihr denn, was eine Suchmaschine oder Netzwerk (FB, G+ etc.) mit den Daten anstellt. Hier mein User, ja es ist deins, nein wir machen so etwas nicht...LOL... Wenn ihr an einem Gewinnspiel teilnehmt, dann steht auch im klein gedruckten, was noch kommen wird. Die verdienen ihr Geld damit, nichts ist umsonst. Alles hat immer einen Preis... Privatsphäre und Datenschutz ist nicht mehr zeitgemäß....total OUT.

Antworten
Markus Wagner 26.04.2012, 14:29 Uhr
Avatar
Hui, da bietet ne Menge Möglichkeit zum spammen, schöne Circles könnte man bauen, wenn man die Zeit dafür hätte. Habe ich aber nicht. ;-)

Antworten

Kommentare Kommentar hinzufügen






Interesse an unseren Leistungen?

Infografiken

SEO-Agenturen D vs. UK!

SEO-Agenturen D vs. UK!

Der große Vergleich deutscher und englischer SEO-Agenturen: wo sitzen sie, was tun sie, wie sind die Jobbezeichnungen und wie viel verdienen die Angestellten!
Gute Domains: wie bewerten?

Gute Domains: wie bewerten?

Wie bewertet man eigentlich Domains, wenn man Interesse an einem Kauf hat? Wir zeigen die wichtigsten Faktoren zur Einschätzung des Domainpreises.
Onlinegames: was geht?

Onlinegames: was geht?

Wer zockt in Deutschland Browsergames und warum? Und wie entwickelt sich die Spielebranche? Welche Umsätze macht sie? Wir präsentieren die Fakten ...
So wichtig sind Marken

So wichtig sind Marken

77% der Internetnutzer sind bereit tiefer in die Tasche für eine gute Marke zu greifen – wir haben die Fakten visualisiert.


Activetraffic Deutschland Activetraffic Österreich Activetraffic Schweiz
Kundenmenu