levenshtein

(PHP 4 >= 4.0.1, PHP 5, PHP 7)

levenshteinBerechnet die Levenshtein-Distanz zwischen zwei Strings

Beschreibung

levenshtein ( string $str1 , string $str2 ) : int
levenshtein ( string $str1 , string $str2 , int $cost_ins , int $cost_rep , int $cost_del ) : int

Die Levenshtein-Distanz bezeichnet die minimale Anzahl von Zeichen, die Sie ersetzen, einfügen oder löschen müssen, um str1 in str2 umzuwandeln. Die Komplexität des Algorithmus ist O(m*n), wobei n und m die Länge von str1 und str2 darstellen (recht gut, im Vergleich zu similar_text(), das O(max(n,m)**3) ist, aber trotzdem immer noch aufwendig).

In ihrer einfachsten Form erhält die Funktion nur die zwei Strings als Parameter und berechnet nur die Anzahl der Einfügungen, Ersetzungen und Löschungen, die benötigt werden, um str1 in str2 zu überführen.

Eine zweite Variante verwendet drei zusätzliche Parameter, die die Kosten von Einfügungen, Ersetzungen und Löschungen festlegen. Dies ist eine allgemeingültigere und anpassungsfähigere Version als Variante eins, aber nicht so effizient.

Parameter-Liste

str1

Eine der Zeichenketten, für die die Levenshtein-Distanz zu berechnen ist.

str2

Eine der Zeichenketten, für die die Levenshtein-Distanz zu berechnen ist.

cost_ins

Definiert die Kosten des Einfügens.

cost_rep

Definiert die Kosten des Ersetzens.

cost_del

Definiert die Kosten des Löschens.

Rückgabewerte

Die Funktion gibt die Levenshtein-Distanz zwischen den beiden Argument-Strings oder -1 zurück, sofern eines der Argumente länger als 255 Zeichen ist.

Beispiele

Beispiel #1 levenshtein()-Beispiel

<?php
// eingegebenes falsch geschriebenes Wort
$input 'carrrot';

// Wörterarray als Vergleichsquelle
$words  = array('apple','pineapple','banana','orange',
              
'radish','carrot','pea','bean','potato');

// noch keine kürzeste Distanz gefunden
$shortest = -1;

// durch die Wortliste gehen, um das ähnlichste Wort zu finden
foreach ($words as $word) {

  
// berechne die Distanz zwischen Inputwort und aktuellem Wort
  
$lev levenshtein($input$word);

  
// auf einen exakten Treffer prüfen
  
if ($lev == 0) {

      
// das nächste Wort ist das Wort selbst (exakter Treffer)
      
$closest $word;
      
$shortest 0;

      
// Schleife beenden, da wir einen exakten Treffer gefunden haben
      
break;
  }

  
// Wenn die Distanz kleiner ist als die nächste gefundene kleinste Distanz
  // ODER wenn ein nächstkleineres Wort noch nicht gefunden wurde
  
if ($lev <= $shortest || $shortest 0) {
      
// setze den nächstliegenden Treffer und die kürzestes Distanz
      
$closest  $word;
      
$shortest $lev;
  }
}

echo 
"Eingegebenes Wort: $input\n";
if (
$shortest == 0) {
  echo 
"Exakter Treffer gefunden: $closest\n";
} else {
  echo 
"Meinten Sie: $closest?\n";
}

?>

Das oben gezeigte Beispiel erzeugt folgende Ausgabe:

Eingegebenes Word: carrrot
Meinten Sie: carrot?

Siehe auch

  • soundex() - Berechnet die Laut-Ähnlichkeit eines Strings
  • similar_text() - Berechnet die Ähnlichkeit zweier Zeichenketten
  • metaphone() - Berechnet den Metaphone-Schlüssel eines Strings