2 Stimmen

Über "AUTOMATIC TEXT SUMMARIZER (sprachbasiert)"

Ich habe "AUTOMATISCHE TEXTZUSAMMENFASSUNG (linguistischer Ansatz)" als mein Abschlussprojekt. Ich habe genügend Forschungsarbeiten gesammelt und bin sie durchgegangen. Dennoch bin ich mir nicht ganz im Klaren darüber, wie ich vorgehen soll. Grundsätzlich habe ich "AUTOMATIC TEXT SUMMARIZER (statistical based)" gefunden und fand, dass es im Vergleich zu meinem Projekt viel einfacher ist. Mein Projektleiter sagte mir, ich solle mich nicht für dieses (statistische) Programm entscheiden, sondern für das linguistische Programm.

Jeder, der schon einmal an einem solchen Projekt gearbeitet oder auch nur davon gehört hat, weiß, dass das Zusammenfassen eines Dokuments nichts anderes bedeutet, als jeden Satz zu bewerten (mit einem Ansatz, der bestimmte Algorithmen beinhaltet) und dann Sätze auszuwählen, deren Punktzahl über dem Schwellenwert liegt. Der schwierigste Teil dieses Projekts ist nun die Auswahl des geeigneten Algorithmus für die Bewertung und die spätere Implementierung.

Ich verfüge über mäßige Programmierkenntnisse und würde gerne in JAVA programmieren (weil ich dort viele APIs zur Verfügung habe, die weniger Overhead verursachen). Nun möchte ich wissen, wie ich bei meinem Projekt vorgehen und welche Algorithmen ich verwenden sollte. Und wie man sie implementiert.

0 Stimmen

Diese Frage ist nicht zu beantworten. Nach welchen Kriterien wollen Sie die Sätze bewerten?

0 Stimmen

Da dies bei Google auftaucht, möchte ich auf dieses Projekt verweisen, das verschiedene Algorithmen zur Textzusammenfassung implementiert github.com/miso-belica/sumy

5voto

clyfe Punkte 23285

Lexikalische Ketten für die Textzusammenfassung verwenden (Microsoft Research)

Eine Analyse der verschiedenen Algorithmen: DasMartins.2007

Der wichtigste Teil des Dokuments:

- Nenkova (2005) analysiert, dass kein System die Basislinie mit statistischen Bedeutung
- Beeindruckendes Ergebnis!

Beachten Sie, dass es 2 verschiedene Nuancen des liguistisch Ansatz:

  • Linguistisches Bewertungssystem (hier alles klar)
  • Linguistische Generierung (schreibt Sätze um, um die Zusammenfassung zu erstellen)

2voto

meme Punkte 21

Automatische Zusammenfassung ist ein ziemlich komplexes Gebiet - versuchen Sie zunächst, Ihre Java-Kenntnisse in Ordnung zu bringen sowie Ihr Verständnis von statistischem NLP, das maschinelles Lernen verwendet. Dann können Sie sich daran machen, etwas Substanzielles zu entwickeln. Bewerten Sie Ihre Lösung und stellen Sie sicher, dass Sie Ihre Messvariablen konkret definiert haben und wissen, wie Sie bei der Bewertung vorgegangen sind. Andernfalls ist Ihr Projekt zum Scheitern verurteilt. Für Studenten im letzten Studienjahr ist dies im Allgemeinen ein Projekt mit hohem Risiko, da sie oft nicht in der Lage sind, die Prinzipien richtig zu verstehen und sie dann auf eine Art und Weise umsetzen, die auch nicht richtig ist, und dann sind ihre Bewertungsmaßnahmen alle schlecht definiert und reflektieren ihre eigene Arbeit nicht klar. Mein Rat wäre, sich bei der Zusammenfassung eher auf einen Bereich zu konzentrieren als auf viele, da man sowohl Zusammenfassungen für einzelne als auch für mehrere Dokumente erstellen kann. Je vielfältiger Sie Ihr Projekt gestalten, desto geringer ist die Wahrscheinlichkeit, dass Sie eine gute Note erhalten. Konzentrieren Sie sich auf ein Thema und gehen Sie in die Tiefe. Bewerten Sie die Arbeit anderer, dann den Prozess, für den Sie sich entschieden haben, und dessen Ergebnisse.

Lesungen: -Jurafskys Buch über NLP enthält einen hinteren Teil über Zusammenfassungen und QA. -Advances in Text Summarization von Inderjeet Mani ist wirklich gut.

Verstehen Sie, was Begriffe wie Gewichtung von Begriffen, zentroidbasierte Zusammenfassung, Log-Likelihood-Ratio, Kohärenzbeziehungen, Satzvereinfachung, maximale marginale Relevanz, Redundanz und was eine fokussierte Zusammenfassung eigentlich ist.

Sie können es mit einem überwachten oder einem nicht überwachten Ansatz sowie mit einer Mischform versuchen. Linguistisch ist die sicherere Option, deshalb wurde Ihnen zu diesem Ansatz geraten. Versuchen Sie es mit einem linguistischen Ansatz und bauen Sie dann auf statistische Methoden auf, um Ihre Lösung zu hybridisieren. Nutzen Sie dies als Übung, um die Theorie und die praktischen Auswirkungen der Algorithmen zu erlernen und Ihr Wissen zu vertiefen. Denn Sie werden Ihr Projekt zweifellos vor der Jury erklären und verteidigen müssen.

0voto

tuinstoel Punkte 7244

Wenn Sie diese Forschungsarbeiten und Bücher wirklich gelesen haben, wissen Sie wahrscheinlich, was bekannt ist. Nun liegt es an Ihnen, das Wissen aus diesen Forschungsarbeiten und Büchern in eine Java-Anwendung zu implementieren. Oder Sie könnten das menschliche Wissen durch Innovation/Erfindung erweitern. Wenn Sie das Wissen der Menschheit erweitern, sind Sie ein echter Wissenschaftler geworden.

0voto

Yuval F Punkte 20547

Bitte präzisieren Sie Ihre Frage in diesen beiden Hauptbereichen:

  1. Definition des Projekts: Was ist das Ziel Ihres Projekts? Ist die Eingabeeinheit ein einzelnes Dokument? Eine Liste von Dokumenten? Soll Ihr Programm maschinelles Lernen verwenden? Was ist die Ausgabe? Wie werden Sie den Erfolg messen?
  2. Ihr Hintergrundwissen: Sie beabsichtigen, eher linguistische als statistische Methoden anzuwenden. Haben Sie Erfahrung mit dem Parsen natürlicher Sprache? In semantischer Repräsentation? Ich denke, einige dieser Fragen sind schwierig. Ich stelle sie, weil ich im Laufe meines Studiums zu viel Zeit damit verbracht habe, ähnliche Fragen zu beantworten. Wenn Sie diese Fragen geklärt haben, kann ich Ihnen vielleicht ein paar Tipps geben. Mani's "Automatische Verdichtung" sieht nach einem guten Anfang aus, zumindest die einleitenden Kapitel.

0voto

Frank Shearar Punkte 16759

Die Universität Sheffield hat einige Arbeiten über automatische E-Mail-Zusammenfassung im Rahmen des EU-Projekts FASiL vor einigen Jahren.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X