Automatycznie generowane teksty alternatywne to ściema

Od pewnego czasu duże serwisy internetowe uruchamiają algorytmy rozpoznające obrazy, na przykład fotki w serwisach społecznościowych. Z ciekawością czekałem, jak to zrobi Facebook i w aplikacji mobilnej można mieć taki automatyczny opis od kilku miesięcy. Mogę zatem spokojnie już napisać, że to nic nie warta ściema.

Miał to być przełom w dostępności Facebooka, a raczej publikowanych w nim zasobów, dla osób niewidomych. Algorytm analizował zdjęcia i usiłował rozpoznać, co na nich jest. Informacja ta była przekazywana użytkownikowi korzystającemu z czytnika ekranu, na przykład VoiceOver na iOS. No i opisy zaczęły się pojawiać. Choćby taki: “Kobieta, drzewo, uśmiecha się.” Albo “Ocean, niebo, roślinność.” Bardziej zbliżone to do tagowania zdjęć, niż do tekstu alternatywnego. Nie wydaje mi się, by dla kogokolwiek były to opisy pomocne.

Przygotowanie opisu alternatywnego wymaga wiedzy o opisywanym obiekcie. To jest podstawowy warunek i nie da się bez tego pójść dalej. Obca osoba opisująca moje zdjęcie może dać co najwyżej opis “jakiś facet”, co pasuje do 3,5 miliarda ludzi. Osoba znająca mnie lub w inny sposób posiadająca wiedzę opisze to samo zdjęcie na przykład “Jacek Zadrożny”, co jest przybliżeniem o wiele dokładniejszym, nieprawdaż? Oczywiście algorytm może korzystać z pewnych źródeł informacji, na przykład geolokalizacji, połączeń społecznościowych, daty i czasu wykonania fotografii i innych. Może wtedy mógłby zdjęcie opisać jako “brzeg Bałtyku”, a nie “ocean. Na razie tego nie robią i opisy są tak zgrubne, że aż nieprzydatne.

Internet, a zwłaszcza serwisy społecznościowe, to ogromna liczba dziwnych i śmiesznych obrazków, zwanych powszechnie memami. Tutaj bez ludzkiej interpretacji i inteligentnego tekstu osoba niewidoma nie dowie się nic. Automatycznie generowany tekst może tylko zirytować. Kontekst w ogóle jest ważny, a automaty z nim sobie nie poradzą. Bodaj najbardziej kuriozalnym przykładem był automatyczny opis do zdjęcia prezydenta Andrzeja Dudy z mszy pogrzebowej Inki. Brzmiał on bowiem “ślub”. No tak… Wnętrze kościoła, mężczyzna w czarnym garniturze i maszynowa interpretacja gotowa.

Dla mnie szumnie zapowiadane rozwiązanie Facebooka jest ogromnym rozczarowaniem. Zdecydowanie wolałbym, by udostępnili okienko dla osób wrzucających zdjęcia, by mogły same wpisać teksty alternatywne. Chociaż Twitter to zrobił i nie przyniosło to wielkiego efektu. Nadal spotykam wyłącznie obrazki bez żadnego opisu alternatywnego. Twitter jednak przynajmniej udostępnił taką możliwość, a na Facebooku wciąż jej brakuje.