Wie kann ich über die Wörter einer Zeichenkette iterieren?

Question

Wie kann ich über die Wörter einer Zeichenkette iterieren?

Gefragt el 25 de Oktober, 2008: Wann wurde die Frage gestellt
2326520 Ansichten: Anzahl der Besuche der Frage
5 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich versuche, über die Wörter einer Zeichenkette zu iterieren.

Es kann davon ausgegangen werden, dass die Zeichenfolge aus durch Leerzeichen getrennten Wörtern besteht.

Beachten Sie, dass ich nicht in C-String-Funktionen oder diese Art von Zeichenmanipulation / Zugriff interessiert bin. Bitte geben Sie in Ihrer Antwort auch der Eleganz den Vorrang vor der Effizienz.

Die beste Lösung, die ich im Moment habe, ist:

#include <iostream>
#include <sstream>
#include <string>

using namespace std;

int main()
{
    string s = "Somewhere down the road";
    istringstream iss(s);

    do
    {
        string subs;
        iss >> subs;
        cout << "Substring: " << subs << endl;
    } while (iss);
}

Gibt es eine elegantere Möglichkeit, dies zu tun?

Gefragt el 25 de Oktober, 2008 von Ashwin Nanjappa

693 Stimmen

Kumpel... Eleganz ist in meinen Augen nur eine schicke Umschreibung für "Effizienz, die hübsch aussieht". Scheuen Sie sich nicht, C-Funktionen und schnelle Methoden zu verwenden, um etwas zu erreichen, nur weil es nicht in einer Vorlage enthalten ist ;)

Kommentiert el 25 de Oktober, 2008 von Nicht registrierter Benutzer

19 Stimmen

while (iss) { string subs; iss >> subs; cout << "Substring: " << sub << endl; }

Kommentiert el 29 de September, 2009 von pyon

0 Stimmen

@nlaq, Außer, dass Sie Ihr String-Objekt mit c_str() konvertieren müssten, und wieder zurück in einen String, wenn Sie es immer noch benötigen, um eine Zeichenfolge zu sein, nicht?

Kommentiert el 15 de Februar, 2011 von Aaron H.

Anzeigen 7 weitere Kommentare

Answer 1

5 Antworten

Answer 2

45voto

Marco M. Punkte 2709

Hier ist eine Splitfunktion, die:

ist generisch
verwendet Standard-C++ (kein Boost)
akzeptiert mehrere Begrenzungszeichen

ignoriert leere Token (kann leicht geändert werden)

template<typename T>
vector<T> 
split(const T & str, const T & delimiters) {
    vector<T> v;
    typename T::size_type start = 0;
    auto pos = str.find_first_of(delimiters, start);
    while(pos != T::npos) {
        if(pos != start) // ignore empty tokens
            v.emplace_back(str, start, pos - start);
        start = pos + 1;
        pos = str.find_first_of(delimiters, start);
    }
    if(start < str.length()) // ignore trailing delimiter
        v.emplace_back(str, start, str.length() - start); // add what's left of the string
    return v;
}

Beispiel für die Verwendung:

    vector<string> v = split<string>("Hello, there; World", ";,");
    vector<wstring> v = split<wstring>(L"Hello, there; World", L";,");

Beantwortet el 13 de Marsch, 2012 von Marco M. (2709 Punkte )

0 Stimmen

Sie haben vergessen, die Verwendungsliste zu ergänzen: "extrem ineffizient"

Kommentiert el 19 de Marsch, 2012 von Xander Tulip

1 Stimmen

@XanderTulip, können Sie etwas konstruktiver sein und erklären, wie oder warum?

Kommentiert el 21 de Marsch, 2012 von Marco M.

3 Stimmen

@XanderTulip: Ich nehme an, Sie meinen, dass es den Vektor als Wert zurückgibt. Die Return-Value-Optimierung (RVO, googeln Sie es) sollte sich darum kümmern. In C++11 kann man auch per Move-Referenz zurückgeben.

Kommentiert el 7 de Kann, 2012 von Joseph Garvin

Anzeigen 4 weitere Kommentare

Answer 3

39voto

rhomu Punkte 176

Ich habe eine 2-Zeilen-Lösung für dieses Problem:

char sep = ' ';
std::string s="1 This is an example";

for(size_t p=0, q=0; p!=s.npos; p=q)
  std::cout << s.substr(p+(p!=0), (q=s.find(sep, p+1))-p-(p!=0)) << std::endl;

Anstatt sie zu drucken, können Sie sie dann in einen Vektor einfügen.

Beantwortet el 16 de September, 2012 von rhomu (176 Punkte )

2 Stimmen

Es ist nur ein Zweizeiler, weil eine dieser beiden Zeilen riesig und kryptisch ist... niemand, der tatsächlich jemals Code lesen muss, will so etwas lesen oder würde es schreiben. gekünstelte Kürze ist schlimmer als geschmackvolle Weitschweifigkeit.

Kommentiert el 13 de November, 2021 von underscore_d

Answer 4

37voto

Robert Punkte 2200

Ein weiterer flexibler und schneller Weg

template<typename Operator>
void tokenize(Operator& op, const char* input, const char* delimiters) {
  const char* s = input;
  const char* e = s;
  while (*e != 0) {
    e = s;
    while (*e != 0 && strchr(delimiters, *e) == 0) ++e;
    if (e - s > 0) {
      op(s, e - s);
    }
    s = e + 1;
  }
}

Um es mit einem Vektor von Zeichenfolgen zu verwenden (Bearbeiten: Da jemand darauf hingewiesen, nicht zu erben STL-Klassen... hrmf ;) ) :

template<class ContainerType>
class Appender {
public:
  Appender(ContainerType& container) : container_(container) {;}
  void operator() (const char* s, unsigned length) { 
    container_.push_back(std::string(s,length));
  }
private:
  ContainerType& container_;
};

std::vector<std::string> strVector;
Appender v(strVector);
tokenize(v, "A number of words to be tokenized", " \t");

Das war's! Und das ist nur eine Möglichkeit, den Tokenizer zu verwenden, z.B. wie man einfach Wörter zählen:

class WordCounter {
public:
  WordCounter() : noOfWords(0) {}
  void operator() (const char*, unsigned) {
    ++noOfWords;
  }
  unsigned noOfWords;
};

WordCounter wc;
tokenize(wc, "A number of words to be counted", " \t"); 
ASSERT( wc.noOfWords == 7 );

Begrenzt durch die Vorstellungskraft ;)

Beantwortet el 1 de April, 2010 von Robert (2200 Punkte )

0 Stimmen

Schön. Bezüglich Appender Hinweis "Warum sollten wir nicht eine Klasse von STL-Klassen erben?"

Kommentiert el 10 de September, 2013 von Andreas Spindler

Answer 5

37voto

dk123 Punkte 16794

Hier ist eine einfache Lösung, die nur die Standard-Regex-Bibliothek verwendet

#include <regex>
#include <string>
#include <vector>

std::vector<string> Tokenize( const string str, const std::regex regex )
{
    using namespace std;

    std::vector<string> result;

    sregex_token_iterator it( str.begin(), str.end(), regex, -1 );
    sregex_token_iterator reg_end;

    for ( ; it != reg_end; ++it ) {
        if ( !it->str().empty() ) //token could be empty:check
            result.emplace_back( it->str() );
    }

    return result;
}

Das Argument regex ermöglicht die Überprüfung auf mehrere Argumente (Leerzeichen, Kommas usw.)

Normalerweise prüfe ich nur, ob ich an Leerzeichen und Kommas trennen kann, daher habe ich auch diese Standardfunktion:

std::vector<string> TokenizeDefault( const string str )
{
    using namespace std;

    regex re( "[\\s,]+" );

    return Tokenize( str, re );
}

El "[\\s,]+" prüft auf Leerzeichen ( \\s ) und Kommas ( , ).

Hinweis: Wenn Sie die wstring anstelle von string ,

alle ändern std::regex a std::wregex
alle ändern sregex_token_iterator a wsregex_token_iterator

Beachten Sie, dass Sie das String-Argument je nach Compiler auch als Referenz verwenden können.

Beantwortet el 6 de Kann, 2014 von dk123 (16794 Punkte )

0 Stimmen

Das wäre meine Lieblingsantwort gewesen, aber std::regex ist in GCC 4.8 kaputt. Sie sagten, dass sie es in GCC 4.9 korrekt implementiert haben. Ich gebe Ihnen trotzdem mein +1

Kommentiert el 19 de August, 2014 von mchiasson

1 Stimmen

Dies ist mein Favorit mit geringfügigen Änderungen: Vektor als Referenz zurückgegeben, wie Sie sagte, und die Argumente "str" und "regex" durch Referenzen auch übergeben. thx.

Kommentiert el 16 de Oktober, 2015 von QuantumKarl

1 Stimmen

Rohzeichenketten sind beim Umgang mit Regex-Mustern recht nützlich. Auf diese Weise müssen Sie die Escape-Sequenzen nicht verwenden... Sie können einfach Folgendes verwenden R"([\s,]+)" .

Kommentiert el 17 de Februar, 2018 von Sam

Answer 6

33voto

KTC Punkte 8899

Verwendung von std::stringstream wie Sie es haben, funktioniert einwandfrei und erfüllt genau das, was Sie wollten. Wenn Sie einfach nur nach einer anderen Vorgehensweise suchen, können Sie Folgendes verwenden std::find() / std::find_first_of() y std::string::substr() .

Hier ist ein Beispiel:

#include <iostream>
#include <string>

int main()
{
    std::string s("Somewhere down the road");
    std::string::size_type prev_pos = 0, pos = 0;

    while( (pos = s.find(' ', pos)) != std::string::npos )
    {
        std::string substring( s.substr(prev_pos, pos-prev_pos) );

        std::cout << substring << '\n';

        prev_pos = ++pos;
    }

    std::string substring( s.substr(prev_pos, pos-prev_pos) ); // Last word
    std::cout << substring << '\n';

    return 0;
}

Beantwortet el 25 de Oktober, 2008 von KTC (8899 Punkte )

1 Stimmen

Dies funktioniert nur bei einstelligen Begrenzungszeichen. Mit einer einfachen Änderung funktioniert es auch bei mehrstelligen Zeichen: prev_pos = pos += delimiter.length();

Kommentiert el 5 de Februar, 2016 von David Doria

Wie kann ich über die Wörter einer Zeichenkette iterieren?

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Wie kann ich über die Wörter einer Zeichenkette iterieren?

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: