Banedon's Cyber-Junk

Überleben im CyberSpace

Archive for the ‘Java’ tag

Garantiert EHEC Frei: Carrot2 – Clustering Engine

without comments

Cluster: Thorsten Zoerner

Cluster: Thorsten Zoerner

Dokumente automatisiert in Gruppen aufteilen, die wiederum Untergruppen enthalten können, die jedoch dann wieder mit einer anderen Gruppe verbunden sind. So oder so ähnlich könnte man die Arbeit beschreiben, die eine Clustering Engine übernehmen soll. Eine Aufgabe, die manchmal einige Tage kosten kann, wenn man zum Beispiel thematische Zusammenhänge zwischen den Dokumenten erkennen möchte.

Nicht so mit Carrot2 ist eine  Clustering Engine, die auf Java basiert und mit einer Desktopanwendung ausgeliefert wird. Als Quellen für die Dokumente werden Suchanfragen gegen Yahoo, Bing, Google Desktop und viele weitere Systeme unterstützt. Unter anderem auch SOLR und Lucene :)

Hat man die Quelle ausgewählt genügt es eine Suchanfrage zu machen, um eine Aduna Cluster Map wie die im Bild zu erzeugen. Das Ergebnis vom Bild dieses Beitrages ist die Suche nach “Thorsten Zoerner” in den Social Media Streams, welche ich lokal in einem Lucene Index gespeichert habe. Wer sich keinen eigenen “Brand Monitoring Speicher” angelegt hat, der kann natürlich auch direkt die Liveergebnisse unter anderem von dieser Pipe verwenden.

1*1 des Clustering

Grundsätzlich geht eine Clustering Engine so vor, dass es versucht “Konzepte” zu finden, die alle Dokumente in Gruppen unterteilen kann. Das Unterscheidungsmerkmal wird dann als Cluster-Label/Titel verwendet.  Da bei meinem eigenen Monitoring einige Quellen immer die selbe Charateristik zeigen (“Posted via Mail”)  findet die Clustering-Engine dieses als relevante Gruppe. Um solche Effekte zu vermeiden, sollten entsprechende “Stop-Phrases” gesetzt werden, die verhindern, dass diese Texte als Clusters angezeigt werden.

 

 

Written by Thorsten Zoerner

Juni 11th, 2011 at 12:40 am

Ich kann C++ – Ich bin Terrorist… (via netzpolitik.org)

with one comment

Schon dämlich, was Netzpolitik.org hier schönes gefunden hat. Der vermeintliche Terrorismusexperte Roland Jacquard warnt vor Handbüchern im Netz für Terrorismus. Muss ich mir jetzt Sorgen machen? Ich kann Java, C++ und Python… klingt alles irgendwie gefährlich. Und PHP – Ist bestimmt das neue TNT.

Posted via email from Thorsten Zoerner’s Posterous

Written by Thorsten Zoerner

Juli 27th, 2010 at 11:58 pm

Art of Solving – JODConverter

without comments

Java Lib, die eine Konvertiertung von verschiedenen Dokumentenformate in verschiedene Dokumentenformate zulässt. Unter anderem *.doc in *.txt oder .wiki. Zur Konvertierung wird OpenOffice als Service gestartet.

http://www.artofsolving.com/opensource/jodconverter/guide/supportedformats

Written by Thorsten Zoerner

September 23rd, 2009 at 12:39 am

Posted in beigelegt,notiert

Tagged with , , ,

Switch to our mobile site

  • jehu