Banedon's Cyber-Junk

Überleben im CyberSpace

Archive for the ‘Openoffice’ tag

Word, Openoffice in Plain Text umwandeln (zum Beispiel für ein Wiki)

without comments

Trotz beruflichem Einsatz von Enterprise Content Managements – der Ausschweifenden Nutzung von Webdiensten für Dokumente (Google Docs) und Daten – gibt es auf meiner Festplatte eine Menge von Worddokumenten, OpenOffice Write Files und PDFs. Mein Ziel war es diese Dokumente durchsuchbar zu machen und so gut wie möglich in einem Wiki zu integrieren, damit ich dort meine Metastruktur (unabhängig vom Filesystem) anlegen kann.

Für DokuWiki brauche ich im Prinzip ein Textfile – dieses soll für alle Dokumente wie folgt aussehen:

[[DOKUMENTENLINK|Quell Dokument]] VOLLTEXT

Wie kommt man an den Volltext (Plain Text) des Word Dokumentes?

Zunächst kann OpenOffice auch als Service gestartet werden. Mit einem solchen Service ist es möglich per API alle Befehle auszuführen und im Prinzip die Anwendung fernzusteuern.

soffice -headless -accept=”socket,host=127.0.0.1,port=8100;urp;” -nofirststartwizard

Mit diesem Code wird OO so gestartet, dass es nicht als Anwendung, sondern als Dienst läuft.

Im nächsten Schritt wird ein bequemer Zugriff auf die API von der Kommandozeile benötigt. Der JODConverter kommt mit einer Bibliothek, die von der Kommandozeile genutzt werden kann.

java -jar jodconverter-cli-2.2.2.jar DATEI1.doc DATEI2.txt

Mit Hilfe dieses Aufrufes erhält man in DATEI2.txt den Volltext des als DATEI1.doc angegebenen Dokumentes.

Um von der Kommandozeile (oder einem Script) eine Wikiseite anzulegen kommt DokuWiki mit einem Tool “dwpage.php”.

./bin/dwpage.php -m ‘Frisch Importiert’ commit ‘DATEI2.txt’ ‘media/DATEI1.doc’

Mit diesem Aufruf wird eine neue Seite mit dem Inhalt der DATEI2.txt angelegt.

Letzendlich sollte man danach noch den Volltextindex von DokuWiki neu aufbauen lassen.

./bin/indexer.php

Dieser wird bei mir allerdings via Crontab ohnehin automatisch neu erstellt.

Written by Thorsten Zoerner

September 23rd, 2009 at 10:42 am

Art of Solving – JODConverter

without comments

Java Lib, die eine Konvertiertung von verschiedenen Dokumentenformate in verschiedene Dokumentenformate zulässt. Unter anderem *.doc in *.txt oder .wiki. Zur Konvertierung wird OpenOffice als Service gestartet.

http://www.artofsolving.com/opensource/jodconverter/guide/supportedformats

Written by Thorsten Zoerner

September 23rd, 2009 at 12:39 am

Posted in beigelegt,notiert

Tagged with , , ,

zoernert hat gezwitschert: 2009-03-12

without comments

  • RT@dieGoerelebt:1. Fazit: Finde Deinen eigenen Twitter-Stil und sei konsequent, dabei spontan-und authentisch.Wer Dir folgt, will es so! ;-) #
  • Die Mute/Stummschalt Funktion vermisse ich wirklich am Gigaset S450 … Die 3. Stunde Telco am Morgen und ich würde gerne was trinken. #
  • Nettes Telefonat beendet zum Thema: Kundentermine mit Blogpostings unterstützen – Aktive Vor und Nachbearbeitung. Danke HP! #
  • @Jeroen_krah I am not 100% sure if I want to have my handwriting as a font. Maybe if I want that nobody is able to read http://is.gd/egPE in reply to Jeroen_krah #
  • Is there a way to skip tomorrow … Think I have a bit too much on my calendar … So for the rest of today #gtd #quickly #
  • @sixtus Nahnah… im Moment sind wir noch in der Phase: amoK Koma .. #medien #klickstrecken in reply to sixtus #
  • Wonder how our management reacts if I make my presentation for #iod2009 planning in ODP (OpenOffice, Symphony) format and not PPT. #
  • RT @anikageisel: Lotus Channel at YouTube ist online: http://www.youtube.com/user/IBMLotusDeutschland #
  • @c_jonas cool… DFS hat Positionen für “Simulation Pilots” bei XING. Das dürfte einige VATSIM Freaks und http://vacc-sag.org Leuts freuen. in reply to c_jonas #
  • Gute Laune Tweet des Tages: Im Rhein-Neckar Delta scheint die Sonne … #wettertweet #
  • After wondering why friend wants to install a flash player in Friend Feed … figured out that FF=FireFox and FriendFeed . Stupid Acronyms #
  • Just created 17 slides for planning on #iod2009 – now the fun starts to compress them to one slide. #zip ? #
  • Lese von @MettyS im Twitter Log http://tinyurl.com/d2etl3 – über Interview mit @Calmund – Lerne neues zur Rolle der Frau …. #
  • RT @joshpayne: Classification podcast series: Reducing the volume of your content while better organizing it. http://tinyurl.com/c6fozh #
  • @joshpayne have you read the 4 hour working week book? in reply to joshpayne #
  • Mich gefreut dass ich sooo alt bin dass ich 3er Führerschein habe – LKW Fahrschule für Rettungswagen hätte mir gestunken :) #
  • One thing that changed on facebook: You could not comment on “Relationship status” anymore – one laughter less… “XYZ is !now! married” #
  • @21T done my practice #speedreading – testing Spreeder – http://www.spreeder.com/ – Not 100% confinced – just Flash Words for training #

Powered by Twitter Tools.

Written by Thorsten Zoerner

März 12th, 2009 at 11:59 pm

Switch to our mobile site