IT eSky.pl

RSS

Serwis autocomplete z użyciem Elasticsearch krok po kroku – część 3/3

Jest to trzeci, ostatni post z serii postów dotyczących tworzenia systemu podpowiadania wpisywanych fraz z użyciem Elasticsearch. W pierwszej części omówione zostały założenia projektu oraz przedstawiona została koncepcja Elasticsearch. Drugi z postów zawierał pierwsze próby utworzenia takiego systemu, eksperymentując rodzajami zapytań w kolejnych iteracjach. W tym poście przedstawione zostaną dodatkowe funkcjonalności wbudowane w Elasticsearch, które są nieodzownym elementem systemów podpowiadania fraz. Jak poprzednio, artykuł podzielony został na iteracje, które krok po kroku przybliżają nas do celu.

Autocomplete iteracja 6: Korekcja literówek

Jednym z istotnych wymagań systemu podpowiadania fraz jest możliwość zwracania prawidłowych wyników dla zniekształconych fraz. Bardzo często użytkownicy wpisują frazy nie znając dokładnej pisowni lub po prostu popełniając literówki. Elasticsearch dysponuje wbudowanym mechanizmem fuzziness, który oparty jest o odległości Levenshteina. Jest to algorytm, który określa podobieństwo dwóch ciągów od siebie. Każda elementarna różnica między ciągami, taka jak wstawienie, usunięcie lub zmiana znaku na innych jest traktowana w tej metrycja jako jednostkowa. Identyczne ciągi mają odległość 0. Na podstawie tego algorytmu Elasticsearch potrafi szukać nawet przy pomocy zniekształconych zapytań. W praktyce podczas zapytania określić trzeba tylko maksymalną odległość wyniku od zapytania. Przykładowe zapytanie wygląda jak niżej:

Jako że dystans według miary odległości Levenshteina wynosi 1 i mieści się w zadanym progu, zwrócony zostanie wynik dla lotniska w Krakowie, tak jakby wpisana została prawidłowa fraza. Dodatkowym przydanym parametrem jest prefix_length, który określa ile pierwszych znaków traktowane będzie jako stałe, i nie podlegać będzie modyfikacji przy wyszukiwaniu. Warto poeksperymentować z tymi parametrami szukając najlepszej konfiguracji dla danego przypadku. Warto zwrócić uwagę iż zbyt optymistyczne ustawienie obu parametrów może doprowadzić do sytuacji że zwracane wyniki będą na tyle źle dopasowane że cały mechanizm straci wartość biznesową zwracając bezsensowne dane.

Warto zapamiętać:

  • parametr fuzziness określa próg w mierze odległości Levenshteina
  • parametr prefix_length określa ile pierwszych znaków nie będzie polegać zmianie

Autocomplete iteracja 7: Ignorowanie znaków diakrytycznych

Kolejnym wymaganiem biznesowym jest ignorowanie w zapytaniach znaków diakrytycznych. Bardzo wiele osób pisząc w Internecie nie używa znaków charakterystycznych dla natywnego języka, jak również wiele osób korzystających z naszej aplikacji będąc za granicą nie ma ich w domyślnej mapie klawiatury. Chcemy więc by zarówno wyszukanie Krakow zwróciło prawidłowe wyniki, identyczne jak Kraków. Oczywiście do tego typu operacji wykorzystać można poznany przed momentem fuzziness, lecz można to zrobić lepiej, z wykorzystaniem na etapie indeksacji specjalnie do tego przeznaczonego filtra asciifolding. Utwórzmy indeks airports_6 z mapowaniem:

Nawet bez ładowania do niego danych spróbujmy przeprowadzić analizę tego, jak analizowane będą dodawane do niego dane

Odpowiedź:

Jak widać z tekstu Kraków zostanie po przepuszczeniu przez filtry lowercase i asciifolding utworzony token krakow – zignorowane zostaną znaki diakrytyczne. Działanie filtra asciifolding polega na zmapowaniu znaków z poza ASCII do ASCII.

Należy pamiętać o zastosowaniu filtra asciifolding również w momencie wyszukiwania, tak by wygenerowane tokeny były spójne. W przeciwnym przypadku dopasowanie nie nastąpi, i wyniki nie zostaną zwrócone.

Przykład błędnego wyszukiwania:

Standardowy analizer wygeneruje token kraków, gdy w indeksie istnieje krakow, wygenerowany przy indeksacji z użyciem asciifolding_analyzer.

Warto zapamiętać:

  • filtr asciifolding konwertuje znaki do ASCII – podstawowego alfabetu łacińskiego
  • dane podczas wyszukiwania i indeksacji powinny być analizowane w spójny sposób

Autocomplete iteracja 8: Podświetlanie wpisanych fraz

Kolejnym z wymagań postawionych przez biznes jest podświetlanie wpisanej frazy. Przez podświetlanie rozumiemy wyróżnienie jej we wpisanym słowie przez otoczenie tagiem HTML. Wydawać się może że taka funkcjonalność jest typowo frontendową, i powinna być zrealizowana w innej warstwie aplikacji, na przykład z użyciem wyrażeń regularnych. Jest to jednak wysoce problematyczne gdy pod uwagę weźmiemy ignorowanie znaków diakrytycznych czy korekcję literówek. Elasticsearch posiada wbudowany mechanizm podświetlania wpisanych fraz i zastosowanie go jest najlepszym sposobem by sprostać postawionym nam wymaganiom.

Załóżmy że mamy indeks airports_7 z mapowaniem:

Na potrzeby tego przykładu dodajmy dane dla trzech lotnisk

Standardowe zapytanie dla frazy war wygląda jak niżej:

Zwrócone zostają wszystkie trzy wyniki, ponieważ pełna nazwa każdego z nich zawiera ciąg war, teraz chcemy go wyróżnić. Z pomocą przychodzi funkcjonalność highlighting z Elasticsearch, konfiguracja polega na wskazaniu które pole ma być przetwarzane w poszukiwaniu i podświetlaniu wpisanego ciągu.

W odpowiedzi dostaniemy te same wyniki, lecz z dodatkowym polem w sekcji highlight, zawierającym wartość pola fullName z wpisaną frazą otoczoną znacznikiem em (tag HTML stosowany do wyróżnienia frazy można zmienić).

Jednak wynik nie jest do końca satysfakcjonujący, wymagane było podświetlanie jedynie wpisanej frazy, a w rezultacie dostajemy podświetlone całe słowo zawierający szukaną frazę. By zrozumieć dlaczego tak się dzieje należy zagłębić się w proces powstawania tokenów. Składa się on z dwóch części, tokenizacji i aplikacji filtrów. Należy wiedzieć że dane najpierw są tokenizowane przy użyciu wybranego tokenizera, a następnie powstałe w tym procesie tokeny są poddawane filtracji. W naszym przypadku standardowy tokenizer dzieli ciąg na tokeny po znakach takich jak spacja. Następnie stosujemy na nich filtr typu nGram. Sprawdźmy jak w szczegółach wygląda
ten proces dla frazy Warszawa Okęcie dodając do metody _analyze parametr explain.

Odpowiedź:

Z podanej frazy powstały dwa tokeny Warszawa i Okęcie i na ich podstawie po przepuszczeniu przez filtry powstały kolejne tokeny. By osiągnąć podświetlanie tylko wybranej frazy należy zmodyfikować ten proces tak, by od razu w fazie tokenizacji powstała większa ilość tokenów. Rozwiązaniem jest utworzenie własnego tokenizera typu nGram, zmodyfikowany indeks airports_8 wygląda jak niżej:

Po dodaniu danych jak wcześniej i zapytaniu dostaniemy wymagany efekt.

Wynik:

Warto zapamiętać:

  • proces powstawania tokenów składa się z dwóch elementów, tokenizacji i filtrowania (w tej kolejności)
  • kolejność operacji podczas analizy danych ma znaczenie
  • można tworzyć własne tokenizery
  • funkcjonalność wyróżniania wpisanej frazy osiąga się poprzez dodanie sekcji highlight do zapytania

Autocomplete iteracja 9: Aliasy

Do tej pory podczas każdej zmiany mapowania tworzyliśmy nowy indeks z suffixem będącym kolejnym numerem. Nie działo się to bez powodu. Poza niewielkimi wyjątkami nie da się zmienić istniejącego mapowania. Wynika to z faktu że dane trzymane w indeksie są ściśle związane z mapowaniem. Operacje wykonywane podczas indeksacji są nieodwracalne, z otrzymanych tokenów nie da się jednoznacznie odtworzyć oryginalnego tekstu.

Co zatem zrobić gdy podczas produkcyjnej pracy systemu zajdzie potrzeba dodania lub zmodyfikowania mapowania typu? Z pomocą przychodzi mechanizm aliasowania indeksów. Idea polega na zewnętrznym odwoływaniu się do aliasu, który wewnętrznie może wskazywać na dowolny indeks. W naszym przypadku utworzymy alias airports_current, który początkowo wskazywać będzie na indeks airports_8. Wyświetlmy najpierw wszystkie istniejące aliasy.

Odpowiedź:

Widzimy wszystkie zdefiniowane indeksy, jednak żaden z nich nie posiada aliasu. Dodajmy dla indeksu airports_8 alias airports_current:

Ponownie wyświetlmy listę aliasów

Powstał wirtualny indeks o nazwie airports_current, do którego odwoływać można się tak, jak do każdego innego indeksu, sprawdźmy że dwa poniższe zapytania zwrócą dokładnie to samo:

vs

Gdy teraz zechcemy dodać indeks airports_9, który będzie miał zmienione mapowanie wystarczy zaindeksować do niego dane oraz przepiąć alias na nową wersję:

Aliasy nie powodują dodatkowego narzutu czasowego i powinny być używane zawsze gdy to możliwe.

Warto zapamiętać:

  • aliasy powinny być stosowane zawsze, gdy to możliwe
  • może istnieć dowolna ilość aliasów
  • produkcyjne aplikacje powinny zawsze odwoływać się do aliasu, zamiast do konkretnego indeksu

Autocomplete iteracja 10: Połączmy wszystko razem

By stworzyć w pełni funkcjonalny system podpowiadania wpisywanych fraz należy połączyć funkcjonalności z poprzednich kroków w jeden indeks. Utwórzmy indeks airports_10 z odpowiednim mapowaniem

Oraz przykładowe zapytanie bez korekcji literówek:

I z korekcją literówek

Dodamy alias airports_current dla indeksu airports_10

Podsumowanie

Teraz, gdy dysponujemy możliwościami wyszukiwania lotnisk na podstawie fragmentu wpisanego przez użytkownika zastanówmy się jak wykorzystać to w aplikacji. Scenariusz zawsze jest podobny i zakłada że użytkownik w polu wyszukiwania zaczyna wpisywać frazę, chcemy uprzedzić go i podpowiedzieć najtrafniejsze wyniki na podstawie wpisywanego przez niego tekstu. Z powodu ilości dopasowań dla krótkich fraz najlepiej zacząć to robić dopiero po wpisaniu określonej długości ciągu. Kolejną dobrą praktyką jest wyświetlanie w pierwszej kolejności dokładnych dopasowań, dopiero gdy żaden wynik nie zostanie zwrócony wyszukamy raz jeszcze uwzględniając literówki.

Zakładamy że istnieje klient HTTP, który pyta endpoint 127.0.0.1:9200/airports_current/airport/_search, oraz że istnieją metody search i searchWithFuzziness, które wykonują odpowiednie (jak wyżej) requesty metodą POST. Pseudokod akcji realizującej logikę biznesową opisaną wyżej może wyglądać z ten sposób.

Wracając do listy wymagań postawionych na początku tego posta:

  • system musi działać bez przerw, możliwe jednak musi być modyfikowanie zawartych w nim danych
  • system powinien ignorować wielkość liter w wpisywanych frazach (kraków = Kraków)
  • system powinien ignorować znaki diakrytyczne (krakow = kraków)
  • system powinien potrafić zwracać wyniki dla fraz wpisanych z literówkami (krakuw = kraków)
  • system powinien potrafić wyróżnić wpisaną przez użytkownika frazę w tekście

Wszystkie z nich zostały spełnione, przy tym konfiguracja nie jest skomplikowana. W tej chwili dysponujemy w pełni funkcjonalnym serwisem do podpowiadania fraz wpisywanych przez użytkownika. Analogiczne rozwiązanie można zastosować w dowolnej wyszukiwarce, zmieniając jedynie format i typ danych.

PS. W międzyczasie pisania tego posta wyszła nowa wersja Elasticsearch oznaczona 5.0


Zobacz również