Niels, TOKENIZE nimmt ein Trennzeichen-Argument entgegen, so dass man es dazu bringen kann, jeden Buchstaben aufzuteilen; allerdings fällt mir kein Weg ein, wie man es dazu bringen kann, Überschneidungen Spielsteine.
Es ist jedoch ziemlich einfach, eine UDF in Pig zu schreiben. Sie implementieren einfach eine einfache Schnittstelle namens EvalFunc (Details hier: http://wiki.apache.org/pig/UDFManual ). Pig wurde auf der Grundlage der Idee entwickelt, dass Benutzer ihre eigenen Funktionen schreiben können, um fast alles zu verarbeiten, und das Schreiben eigener UDFs ist daher eine übliche und natürliche Vorgehensweise.
Eine noch einfachere, wenn auch nicht so effiziente Möglichkeit ist die Verwendung von Pig-Streaming, um Ihre Daten durch ein Skript zu leiten (ich finde, dass die Erstellung eines schnellen Perl- oder Python-Skripts schneller ist als die Implementierung von Java-Klassen für einmalige Aufgaben). Ein Beispiel dafür gibt es hier: http://www.cloudera.com/blog/2009/06/17/analyzing-apache-logs-with-pig/ -- Es demonstriert die Verwendung einer bereits existierenden Bibliothek, eines Perl-Skripts, einer UDF und sogar eines fliegenden awk-Skripts.