Wie kann ich eine Zeichenkette in C++ tokenisieren?

Question

Wie kann ich eine Zeichenkette in C++ tokenisieren?

Gefragt el 10 de September, 2008: Wann wurde die Frage gestellt
617528 Ansichten: Anzahl der Besuche der Frage
5 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Java verfügt über eine praktische Split-Methode:

String str = "The quick brown fox";
String[] results = str.split(" ");

Gibt es eine einfache Möglichkeit, dies in C++ zu tun?

Gefragt el 10 de September, 2008 von Bill the Lizard

234 Stimmen

Ich kann nicht glauben, dass diese Routineaufgabe in C++ so viel Kopfzerbrechen macht

Kommentiert el 8 de September, 2011 von wfbarksdale

6 Stimmen

Seine nicht Kopfschmerzen in C + + - es gibt verschiedene Möglichkeiten, um es zu erreichen. Programmierer sind weniger bewusst, C + + als c # - seine über Marketing und Investitionen ... siehe dies für verschiedene C + + Optionen, um das gleiche zu erreichen: cplusplus.com/faq/sequenzen/strings/split

Kommentiert el 31 de Oktober, 2013 von hB0

11 Stimmen

@hB0 gehen durch viele Fragen Antworten und immer noch nicht entscheiden, bedeutet, ist ein Kopfschmerz. die eine braucht, dass die Bibliothek, die andere ist nur für Leerzeichen, die andere nicht behandeln Leerzeichen.

Kommentiert el 14 de April, 2016 von Paschalis

Anzeigen 9 weitere Kommentare

Answer 1

5 Antworten

Answer 2

0voto

CATspellsDOG Punkte 99

Ich habe einen Lexer/Tokenizer gemacht, bevor mit der Verwendung von nur Standard-Bibliotheken. Hier ist der Code:

#include <iostream>
#include <string>
#include <vector>
#include <sstream>

using namespace std;

string seps(string& s) {
    if (!s.size()) return "";
    stringstream ss;
    ss << s[0];
    for (int i = 1; i < s.size(); i++) {
        ss << '|' << s[i];
    }
    return ss.str();
}

void Tokenize(string& str, vector<string>& tokens, const string& delimiters = " ")
{
    seps(str);

    // Skip delimiters at beginning.
    string::size_type lastPos = str.find_first_not_of(delimiters, 0);
    // Find first "non-delimiter".
    string::size_type pos = str.find_first_of(delimiters, lastPos);

    while (string::npos != pos || string::npos != lastPos)
    {
        // Found a token, add it to the vector.
        tokens.push_back(str.substr(lastPos, pos - lastPos));
        // Skip delimiters.  Note the "not_of"
        lastPos = str.find_first_not_of(delimiters, pos);
        // Find next "non-delimiter"
        pos = str.find_first_of(delimiters, lastPos);
    }
}

int main(int argc, char *argv[])
{
    vector<string> t;
    string s = "Tokens for everyone!";

    Tokenize(s, t, "|");

    for (auto c : t)
        cout << c << endl;

    system("pause");

    return 0;
}

Beantwortet el 15 de Januar, 2015 von CATspellsDOG (99 Punkte )

Answer 3

0voto

robcsi Punkte 254

Ich habe nach einer Möglichkeit gesucht, eine Zeichenkette durch ein Trennzeichen beliebiger Länge aufzuteilen, also habe ich angefangen, es von Grund auf zu schreiben, da die vorhandenen Lösungen mir nicht zusagten.

Hier ist mein kleiner Algorithmus, der nur STL verwendet:

//use like this
//std::vector<std::wstring> vec = Split<std::wstring> (L"Hello##world##!", L"##");

template <typename valueType>
static std::vector <valueType> Split (valueType text, const valueType& delimiter)
{
    std::vector <valueType> tokens;
    size_t pos = 0;
    valueType token;

    while ((pos = text.find(delimiter)) != valueType::npos) 
    {
        token = text.substr(0, pos);
        tokens.push_back (token);
        text.erase(0, pos + delimiter.length());
    }
    tokens.push_back (text);

    return tokens;
}

Soweit ich es getestet habe, kann es mit Trennvorrichtungen jeder Länge und Form verwendet werden. Instanziieren mit entweder string oder wstring Typ.

Der Algorithmus sucht lediglich nach dem Begrenzungszeichen, ermittelt den Teil der Zeichenfolge, der bis zum Begrenzungszeichen reicht, löscht das Begrenzungszeichen und sucht erneut, bis er es nicht mehr findet.

Ich hoffe, es hilft.

Beantwortet el 17 de Marsch, 2014 von robcsi (254 Punkte )

Answer 4

0voto

Murphy78 Punkte 49

/// split a string into multiple sub strings, based on a separator string
/// for example, if separator="::",
///
/// s = "abc" -> "abc"
///
/// s = "abc::def xy::st:" -> "abc", "def xy" and "st:",
///
/// s = "::abc::" -> "abc"
///
/// s = "::" -> NO sub strings found
///
/// s = "" -> NO sub strings found
///
/// then append the sub-strings to the end of the vector v.
/// 
/// the idea comes from the findUrls() function of "Accelerated C++", chapt7,
/// findurls.cpp
///
void split(const string& s, const string& sep, vector<string>& v)
{
    typedef string::const_iterator iter;
    iter b = s.begin(), e = s.end(), i;
    iter sep_b = sep.begin(), sep_e = sep.end();

    // search through s
    while (b != e){
        i = search(b, e, sep_b, sep_e);

        // no more separator found
        if (i == e){
            // it's not an empty string
            if (b != e)
                v.push_back(string(b, e));
            break;
        }
        else if (i == b){
            // the separator is found and right at the beginning
            // in this case, we need to move on and search for the
            // next separator
            b = i + sep.length();
        }
        else{
            // found the separator
            v.push_back(string(b, i));
            b = i;
        }
    }
}

Die Boost-Bibliothek ist gut, aber sie ist nicht immer verfügbar. Diese Art von Dingen von Hand zu machen ist auch eine gute Übung für das Gehirn. Hier verwenden wir einfach den std::search()-Algorithmus aus der STL, siehe den obigen Code.

Beantwortet el 25 de Februar, 2014 von Murphy78 (49 Punkte )

Answer 5

0voto

vsoftco Punkte 53613

Einfacher C++-Code (Standard C++98), akzeptiert mehrere Begrenzungszeichen (angegeben in einem std::string), verwendet nur Vektoren, Strings und Iteratoren.

#include <iostream>
#include <vector>
#include <string>
#include <stdexcept> 

std::vector<std::string> 
split(const std::string& str, const std::string& delim){
    std::vector<std::string> result;
    if (str.empty())
        throw std::runtime_error("Can not tokenize an empty string!");
    std::string::const_iterator begin, str_it;
    begin = str_it = str.begin(); 
    do {
        while (delim.find(*str_it) == std::string::npos && str_it != str.end())
            str_it++; // find the position of the first delimiter in str
        std::string token = std::string(begin, str_it); // grab the token
        if (!token.empty()) // empty token only when str starts with a delimiter
            result.push_back(token); // push the token into a vector<string>
        while (delim.find(*str_it) != std::string::npos && str_it != str.end())
            str_it++; // ignore the additional consecutive delimiters
        begin = str_it; // process the remaining tokens
        } while (str_it != str.end());
    return result;
}

int main() {
    std::string test_string = ".this is.a.../.simple;;test;;;END";
    std::string delim = "; ./"; // string containing the delimiters
    std::vector<std::string> tokens = split(test_string, delim);           
    for (std::vector<std::string>::const_iterator it = tokens.begin(); 
        it != tokens.end(); it++)
            std::cout << *it << std::endl;
}

Beantwortet el 15 de Dezember, 2013 von vsoftco (53613 Punkte )

Answer 6

0voto

jochenleidner Punkte 83

boost::tokenizer ist Ihr Freund, aber denken Sie daran, Ihren Code in Bezug auf Internationalisierungsfragen (i18n) portabel zu machen, indem Sie wstring / wchar_t anstelle des alten string / char Typen.

#include <iostream>
#include <boost/tokenizer.hpp>
#include <string>

using namespace std;
using namespace boost;

typedef tokenizer<char_separator<wchar_t>,
                  wstring::const_iterator, wstring> Tok;

int main()
{
  wstring s;
  while (getline(wcin, s)) {
    char_separator<wchar_t> sep(L" "); // list of separator characters
    Tok tok(s, sep);
    for (Tok::iterator beg = tok.begin(); beg != tok.end(); ++beg) {
      wcout << *beg << L"\t"; // output (or store in vector)
    }
    wcout << L"\n";
  }
  return 0;
}

Beantwortet el 16 de Juli, 2012 von jochenleidner (83 Punkte )

Wie kann ich eine Zeichenkette in C++ tokenisieren?

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Wie kann ich eine Zeichenkette in C++ tokenisieren?

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: