Krótka historia mojej porażki

Amerykanie uważają, że porażki uczą więcej, niż sukcesy. Postanowiłem zatem opisać moją porażkę jako specjalisty od cyfrowej dostępności. Nauczyła mnie kilku rzeczy, a zatem się przydała. W opisie pominę szczegóły pozwalające na skojarzenie z konkretnymi osobami i produktem, chociaż świadomi czytelnicy i tak się domyślą.

Początek historii

Pewien doktor napisał książkę naukową, żywiąc nadzieję że pozwoli mu ona na awans i dopisanie literek hab. przed nazwiskiem na wizytówkach. Książka dobra, bo ją czytałem już podczas tworzenia. Doktor wymyślił, że będzie to pierwsza w Polsce rozprawa habilitacyjna w pełni dostępna. Dodatkami do niej były zatem tłumaczenia na polski język migowy i tekst łatwy do czytania (ETRT). Książkę przygotowało poważne wydawnictwo uczelniane, w którym nie było miejsca na ekstrawagancje w rodzaju dostępnych plików PDF i EPUB. Jednak doktor się uparł i wydawnictwo uległo. I wtedy się zaczęło.

Doktor zadzwonił do mnie z żądaniem wskazania specjalisty od dostępnych ebooków. Ja wskazałem jednego, który obecnie mieszka w Szczecinie, ale ten się wypiął. Popytałem jeszcze kilku i ci też się wycofali rakiem. W końcu doktor się znudził i wskazał mnie palcem, że ja mam się tym zająć. Przez szacunek dla dostojnego akademika się zgodziłem i to był mój błąd.

To było gdzieś w grudniu 2017 roku, ale sprawa jeszcze chwilę potrwała. Wydawnictwo jeszcze dopieszczało wygląd książki, więc w tym samym czasie ja szukałem podwykonawcy, czyli kogoś, kto ogarnie narzędzia i zrobi dostosowanie. W styczniu trafił do mnie plik PDF z książką i wszystko zaczęło się sypać.

PDF to największy wróg

Plik otrzymany z wydawnictwa był nawet czytelny, ale tak po łebkach. Semantyki nie było tam za grosz, a w publikacji to przecież bardzo ważne. W książce było trochę tabel, rozdziały, podrozdziały, przypisy, definicje, bibliografia i wreszcie tekst łatwy do czytania z obrazkami. Niby wszystko do ogarnięcia, a jakoś nie szło. Na początek zdecydowaliśmy, że trzeba zrobić reverse engineering i skonwertować plik do Worda, tam zrobić całą semantyką i z powrotem zapisać do PDF. Naiwność!

Na początek zawiodły narzędzia. Calibre konwertuje pliki PDF do Word w taki sposób, że zaciąga tylko tekst i tyle. Jeżeli to możliwe, to semantyki było tam jeszcze mniej, niż w pliku PDF. Potem sprawdziliśmy Google Docs, gdzie jest konwerter z PDF do EPUB i DOCX. Wyglądało to obiecująco, bo semantyka się pojawiła. Jednak po bliższym przyjrzeniu się okazała się wygenerowana sztucznie. Po jeszcze bliższych oględzinach okazało się, że to przetwarzanie oparte jest o optyczne rozpoznawanie tekstu (OCR). Oznaczało to zatem konieczność ręcznego sprawdzania niemalże znaku po znaku, bo przecież OCR się może mylić. Na tym etapie wycofał się podwykonawca, a ja musiałem znaleźć kolejnego.

Drugi zdecydował, że trzeba przekonwertować za pomocą narzędzi od Adobe. To było coś, bo przecież to oni powołali do życia ten szatański format. No i faktycznie – oprogramowanie przerobiło plik PDF na plik Word. Jednak radość była przedwczesna. Brak semantyki w materiale źródłowym oznaczał, że wszystko trzeba było oznaczać ręcznie. Największy problem był z przypisami i tabelami. Praca okazała się być tytaniczną i mało efektywną. Przypisy trzeba było ręcznie wstawiać w dokumencie, czyli kopiować z dołu strony i wstawiać po bożemu. Robota szła coraz wolniej, by w maju ustać całkowicie. Człowiek się poddał, a ja zostałem z rozgrzebanym plikiem Word.

Czytający do tego miejsca może już się puka w czoło i zastanawia, dlaczego nie wziąłem pliku źródłowego z wydawnictwa? Przecież tak byłoby najprościej. Sam też na to wpadłem i poprosiłem, ale wydawnictwo odmówiło. Po pierwsze – nie ma takiej praktyki, by wydawać materiały źródłowe. Po drugie – ich wersja różniła się od ostatecznej wersji. Uwierzyłem i odpuściłem jak jakiś głupi.

Zrobimy to sami

W desperacji wpadłem na genialny w swej prostocie pomysł. Zrobimy to sami, to znaczy ja z Ewą. Narzędziem miał być Adobe Acrobat Pro, bo w nim daje się tagować dokumenty PDF. Sięgnąłem po wiedzę do Polskiej Akademii Dostępności, która okazała się nieco zdezaktualizowana i nie pasowała do najnowszej wersji Acrobata. Na szczęście znalazłem fajny poradnik po angielsku i wzięliśmy się do pracy. Zainstalowałem Acrobat Pro w wersji próbnej na komputerze Ewy i zaczęliśmy działać. Mieliśmy tydzień, bo potem trzeba było zapłacić subskrypcję. Miesięcznie nawet nie tak drogo, ale wykupić i tak trzeba było na rok. Dobrze, że tego nie zrobiliśmy…

Sprawdziliśmy plik w inspektorze dostępności i bez zdziwienia dowiedzieliśmy się, że jest kiszka. Nie ma żadnego tagowania i nawet język nie jest ustawiony. Chociaż poradnik to odradzał, uruchomiliśmy automatyczne tagowanie. Efekt wyglądał na niezły, więc się ucieszyliśmy. Na krótko.

Z nagłówkami, przypisami i bibliografią poszło dosyć zgrabnie. Jednak automatyczne tagowanie w wielu miejscach źle rozpoznało intencje projektantów i zrobiło tabele tam, gdzie ich nie powinno być, a część tabel beztrosko pominęło. Co gorsza – aplikacja działała coraz wolniej, z każdym dodanym tagiem. Komputer Ewy to nie demon szybkości, ale też i zadania nie były tej skali, by aż tak mulić. Od pewnego momentu każde przejście po drzewku DOM zamrażało komputer na kilkadziesiąt sekund. Praca ponownie stanęła, a był już czerwiec.

Ostatnia deska ratunku

W takich sytuacjach pomóc może tylko telefon do przyjaciela. Zadzwoniłem i pomimo niechęci współpracowników, postanowił mi pomóc. Okazał się przy tym o wiele mniej naiwny ode mnie i przycisnął wydawnictwo, które z bólem wydało mu materiały źródłowe w formacie Indesign. To wcale jednak tak szybko nie poszło i wakacje spędziłem jeszcze w nerwach. Potem przyszedł październik i pierwsze wersje dostępnych plików PDF. Jako nasz wsad do produktu przesłałem teksty alternatywne do grafik. Na początku listopada pliki były gotowe. Jeszcze tylko sprawdzenie poprawności i poleciały do doktora. Kamień wreszcie spadł mi z serca. Nie zamierzam opisywać sposobu rozliczenia za tą usługę. W grę wchodziły praca, wzajemne przysługi, a chyba też jakieś owce i działki na Marsie. Ja się w tym absolutnie zgubiłem i wciąż czekam na koński łeb w łóżku. Grunt że po 10 miesiącach pliki w formacie PDF i EPUB trafiły do autora i to wciąż przed habilitacją.

Ktoś może spytać, dlaczego uważam całą historię za porażkę, skoro skończyła się dobrze? Po pierwsze – trwało to strasznie długo i najczęściej nie miałem kontroli nad całym procesem. Po drugie – stanąłem po drugiej stronie barierki i musiałem zrobić dostępne z niedostępnego. Okazało się to trudniejsze, niż oczekiwałem i teraz łagodniej patrzę na niedociągnięcia innych.

Nauka z całej historii

Postanowiłem zebrać wnioski, jakie wyciągnąłem z tego wydarzenia.

  1. Najważniejszym jest potwierdzenie, że dostępność najlepiej planować od początku. Poprawianie spapranego jest często bardzo trudne i pracochłonne. Pogrzebanie w pliku źródłowym też zajmuje czas, ale i tak jest drastycznie prostsze i szybsze, niż poprawianie gotowego pliku. Gdyby wydawnictwo zrobiło to wszystko od razu…
  2. Format PDF nie przyjaźni się z dostępnością. Można tą świnię szminkować, ale to nadal będzie tylko świnia. PDF jest formatem do wydruku i można go tylko uzdatniać w ograniczonym zakresie. Do tego można to robić tylko narzędziami od Adobe, które są drogie i mało wydajne.
  3. Nie powinienem się brać za rzeczy, których nie jestem w stanie zrobić sam lub z Ewą. Poznajemy kolejne narzędzia i być może kiedyś znowu podejmiemy podobne wyzwanie, ale na pewno nie będzie to prędko. Nauczyliśmy się czegoś nowego, zerknęliśmy głęboko w bebechy formatu PDF.i nie spodobało mi się to, co tam znalazłem.
  4. Większość specjalistów od dostępności robi rzeczy łatwe i przyjemne, to znaczy krytykuje. Ja też to robię i taki kubeł zimnej wody dobrze mi zrobił na arogancję. Każdemu zatem życzę takiej porażki.

7 myśli na temat “Krótka historia mojej porażki

  1. To prawda, że PDF jest formatem mało przyjaznym i niełatwym do pracy nad nim. Może coś zmieni w tym temacie pieśń przyszłości jaką jest standard PDF 2.0. Specyfikacja wygląda bardzo obiecująco pod kątem budowania samego pliku, semantyki i umieszczania różnych dodatkowych struktur w meta-językach. Jednak na chwilę obecną nie ma informacji o powszechnym wprowadzeniu do użytku PDF 2.0 i najrozsądniejjsze są rozwiązania, o których piszesz w swoim wpisie. Ja jestem wielkim entuzjastom Epub3
    Zgodzę się również z tym, że dostosowanie pliku PDF, który jest niedostępny w Adobe Acrobacie to nie jest trywialna sprawa, a czasem nie oczekiwane rozjechanie się wszystkiego może wiele popsuć wykonanej pracy wcześniej. W przypadku łatwych plików PDF można polecieć automatycznym oznaczaniem, ale to jest skuteczne tylko jak mamy prostą strukturę semantyczną: nagłówki, listę, rysunek. Gdy mówimy o spisie treści, tabelach, przypisach, to tutaj trzeba robić wszystko na strukturach ręcznie. Gdy biorę danego PDF to jeśli nawet posiada warstwę tekstową to i tak jest OCr-owany -> traktowany automatycznie pod kątem wygenerowania znaczników -> w kolejnym kroku dłubanina ręczna i walczenie z znacznikami, opisami alternatywnymi … -> walidacja przeprowadzonego dostosowania.
    Oczywiście dużo się da zrobić. Mówię to bazując na naszym doświadczeniu i na różnych plikach, które podsyłają nam klienci
    Aby pokazać, że są możliwe „trudniejsze” rzeczy podsyłam taki przykład, który robiliśmy na zlecenie ministerstwa (są tam pliki, które dostaliśmy i takie, które przekazaliśmy):
    https://www.gov.pl/web/cyfryzacja/raporty-dane-badania
    Jako ciekawostka poniżej link do wersji standardowej WROMIKa, która powstała jako słabo dostępna i musieliśmy już pracować na gotowym pliku i robić wersje przyjazną:
    http://www.mops.wroclaw.pl/projekty-i-programy/wromik

    Polubienie

  2. Jestem pewien, że po włożeniu niewspółmiernie dużej pracy, dałoby się zrobić też w tym przypadku dostępny PDF. Nawet nam zaczęło to wychodzić w okolicach czerwca:) Jednak praca z Acrobat Pro okazała się właściwie niemożliwa. Ja zresztą po prostu nie lubię formatu PDF. Uważam go za archaiczny, mało semantyczny i elastyczny. Właściwie jedyną zaletą jest to, że trzyma formatowanie. A mam też taką historię, że sam zaleciłem – z bólem serca – zastosowanie pliku PDF. Kiedyś i ją opiszę, bo krótsza i mniej dramatyczna.

    Polubienie

  3. Jacku, a dlaczego nie rozpocząłeś swoich działań o poproszenie twórcy o rękopis, a właściwie „cyfropis”, którym najprawdopodobniej był plik tekstowy oraz inne treści nietekstowe? Mam też wrażenie, że w konsultacji z autorem nie powstała całościowa koncepcja dostępnej publikacji.

    Polubienie

  4. Mój komentarz do wniosków:
    ad. 1: Nie rozumiem dlaczego w ogóle prosiliście wydawnictwo o plik PDF będący w tym przypadku formatem emisyjnym dla druku papierowego. A i tworzonego przez ludzi bez świadomości co to jest dostępny PDF. To musiało się skończyć katastrofą.

    ad 2: Potrójna nieprawda. Chociaż nie rekomenduje PDF-a, ale nie z owych trzech powodów. Sądzę, że należałoby poczytać więcej aby dobrze zrozumieć czym tak naprawdę jest a czym nie jest PDF jakie są jego rodzaje oraz jak narzędzia generujące tworzą PDF-y.

    ad 3: Słusznie. Ale co nazywasz bebechami i do jakiego brzucha PDF-a zaglądałeś? Skąd on pochodził? Przez kogo był stworzony? To bardzo wpływa na kwestie podobania się i niepodobania się tego co się w nim znajdzie.

    ad 4: Ja się do tej grupy raczej nie zaliczam. Od kilku lat zjadam zęby na dostępności PDF-ów. I często za głowę się łapię jak widząc co się wyczynia podchodząc do tego tematu. Jak przeczytałem twój artykuł i zobaczyłem cały proces to tez się za głowę złapałem. Ważne że kilku rzeczy się nauczyłeś.

    Polubienie

  5. Mikołaju, autor nie miał ostatecznej wersji książki, bo poprawki robione były na wydrukach ze złożonego już wydruku. Dostałem plik PDF, bo ebook, przynajmniej w wersji PDF, miał być identyczny z wydrukowaną książką. A format PDF wywodzi się z systemów do składu treści i semantyka dodawana jest w nim dopiero od pewnego czasu. Porządnie edytować można zaś tylko za pomocą narzędzi od Adobe. Co jeszcze chciałbyś wiedzieć?

    Polubienie

  6. Zatem w całym procesie powstawania dostępnej publikacji zostały przyjęte błędne założenia:
    – Błąd nr 1: identyczności/tożsamości formatu źródłowego oraz formatów emisyjnego do druku, z formatem emisyjnym cyfrowym (klasyczny błąd pomieszania tych pojęć)
    – Błąd nr 2: Nie uzyskano od autora wersji pierwotnej źródłowej (nie będącej formatem emisyjnym)
    – Błąd nr 3: Nie skonsultowano z autorem ogólnej koncepcji stworzenia dostępnej publikacji i wyboru właściwego formatu emisyjnego cyfrowego.
    Które okazały się pierwotną przyczyną niepowodzenia całego przedsięwzięcia i ogromnych poblemów z jego realizacja.

    Polubienie

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Wyloguj /  Zmień )

Zdjęcie na Google

Komentujesz korzystając z konta Google. Wyloguj /  Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Wyloguj /  Zmień )

Zdjęcie na Facebooku

Komentujesz korzystając z konta Facebook. Wyloguj /  Zmień )

Połączenie z %s

Ta witryna wykorzystuje usługę Akismet aby zredukować ilość spamu. Dowiedz się w jaki sposób dane w twoich komentarzach są przetwarzane.