Word, Openoffice in Plain Text umwandeln (zum Beispiel für ein Wiki)
Trotz beruflichem Einsatz von Enterprise Content Managements – der Ausschweifenden Nutzung von Webdiensten für Dokumente (Google Docs) und Daten – gibt es auf meiner Festplatte eine Menge von Worddokumenten, OpenOffice Write Files und PDFs. Mein Ziel war es diese Dokumente durchsuchbar zu machen und so gut wie möglich in einem Wiki zu integrieren, damit ich dort meine Metastruktur (unabhängig vom Filesystem) anlegen kann.
Für DokuWiki brauche ich im Prinzip ein Textfile – dieses soll für alle Dokumente wie folgt aussehen:
VOLLTEXT
Wie kommt man an den Volltext (Plain Text) des Word Dokumentes?
Zunächst kann OpenOffice auch als Service gestartet werden. Mit einem solchen Service ist es möglich per API alle Befehle auszuführen und im Prinzip die Anwendung fernzusteuern.
soffice -headless -accept=”socket,host=127.0.0.1,port=8100;urp;” -nofirststartwizard
Mit diesem Code wird OO so gestartet, dass es nicht als Anwendung, sondern als Dienst läuft.
Im nächsten Schritt wird ein bequemer Zugriff auf die API von der Kommandozeile benötigt. Der JODConverter kommt mit einer Bibliothek, die von der Kommandozeile genutzt werden kann.
java -jar jodconverter-cli-2.2.2.jar DATEI1.doc DATEI2.txt
Mit Hilfe dieses Aufrufes erhält man in DATEI2.txt den Volltext des als DATEI1.doc angegebenen Dokumentes.
Um von der Kommandozeile (oder einem Script) eine Wikiseite anzulegen kommt DokuWiki mit einem Tool “dwpage.php”.
./bin/dwpage.php -m ‘Frisch Importiert’ commit ‘DATEI2.txt’ ‘media/DATEI1.doc’
Mit diesem Aufruf wird eine neue Seite mit dem Inhalt der DATEI2.txt angelegt.
Letzendlich sollte man danach noch den Volltextindex von DokuWiki neu aufbauen lassen.
./bin/indexer.php
Dieser wird bei mir allerdings via Crontab ohnehin automatisch neu erstellt.
Zum Weiterlesen…
- Lotus Connections 2.5 auf IBM.com
- “Wer kennt wen” mit Texten spielen
- Webmessager schützt Privatsphäre mit QR-Codes
- OpenGoo – Ein WebOffice? Wohl eher ein Projektplaner, Personal Information Manager
- Vom sozialen Brückenbau – Briding Technologien #Ubiquity #Ping.FM #Posterous