Digitalizacja zasobów analogowych a dostępność i zgodność z WCAG 2.0

Od wczoraj siedzę nad wynikami konkursów grantowych w ramach Programu Operacyjnego Polska Cyfrowa. Jest tam działanie poświęcone digitalizacji zasobów administracji publicznej, nauki i kultury. No i naszło mnie na zastanowienie się nad problemem, jak pogodzić to z dostępnością. Wszyscy grantobiorcy mają obowiązek zapewnienia zgodności z WCAG 2.0 na poziomie z załącznika nr 4 do rozporządzenia w sprawie KRI, a niektórzy dla punktów pewnie zadeklarowali poziom wyższy. Ciekawe, jak się do tego zabiorą, bo w niektórych obszarach temat nie został jeszcze dobrze przetestowany.

To co proste, to ewentualny portal udostępniający zdigitalizowane zasoby. Ma być zgodny z WCAG 2.0 i niektórzy deweloperzy nawet potrafią to zrobić. Trzeba proces tworzenia portalu monitorować, ale zrobić to się da. Jednak sedno tkwi w samych zasobach, jakie będą tam umieszczane.

Jednym z beneficjentów jest Telewizja Polska, która zapewne będzie digitalizować swoje zasoby archiwalne. Tu podpowiedź jest pozornie prosta – przygotować do wszystkiego napisy i audiodeskrypcję, a jak się da – także tłumaczenia na polski język migowy. Kłopot zaczyna się w momencie publikowania. Napisy mają już swoje standardy i technologie, więc jakoś sobie TP da radę. Jednak z publikowaniem materiałów z audiodeskrypcją już będzie kłopot. Trzeba bowiem wymyślić sposób na kontener zawierający obie ścieżki, a który da się łatwo obsługiwać. Jeszcze trudniej będzie z tłumaczeniami, bo tu chyba żadnego sensownego kontenera nie ma.

Innym beneficjentem jest Polskie Radio i zakładam, że będą digitalizować audycje z taśm. Do nich trzeba przygotować pełną transkrypcję tekstową, co jest łatwe. Natomiast znowu pojawia się problem ze sposobem publikowania. Optymalnie byłoby znaleźć takie rozwiązanie techniczne, jakie pozwoliłoby na jednoczesne odsłuchiwanie audycji i czytanie synchronizowanej transkrypcji tekstowej. Na pewno takie technologie istnieją, a trzeba je tylko wdrożyć.

Spodziewam się także digitalizacji książek, a to już całkiem spore wyzwanie. Samo skanowanie i automatyczne przetwarzanie za pomocą oprogramowania do wersji tekstowej jest banalnie proste. Są odpowiednie urządzenia robiące to szybko i niemal bezobsługowo. Jednak taki materiał trzeba przejrzeć, poprawić, a jeżeli zajdzie potrzeba – zaadaptować. Ilustracje, mapy, wykresy, tabele i inne elementy graficzne trzeba uzupełnić o porządny tekst alternatywny, a tego automat już nie zrobi. A jeżeli skanować przyjdzie starodruki, to automaty mogą sobie z tym nie poradzić i człowiek w pocie czoła będzie przepisywał litera po literze. Gdybym miał wskazać kontener na tego typu zasoby, to pewnie byłby to format PDF (Portable Document Format), chociaż go serdecznie nienawidzę. Pozwala on jednak na zapisanie zarówno warstwy tekstowej, jak i obrazu zeskanowanego dokumentu. Dzięki temu można połączyć dostępny i nadający się do przeszukiwania tekst z oryginalnym wyglądem. Są też inne argumenty przemawiające za tym akurat formatem, a nie egzotycznym DJVU, ale nie ma co się tu rozpisywać na ten temat.

Dalej już zaczyna się teren bardziej grząski. Digitalizacja grafik, fotografii czy obrazów jest dosyć prosta i przetestowana. Jak jednak uwzględnić tam dostępność? Oczywiście należy dołączyć do nich tekst alternatywny, co wynika wprost z WCAG 2.0. Jednak jak to zrobić technicznie? Grafika bitmapowa jest zazwyczaj osadzona w pewnym otoczeniu, na przykład na stronie internetowej, dokumencie Worda, pliku PDF. Wszystkie te formaty dają możliwość dodania tekstu alternatywnego, ale po wyjęciu grafiki z tego otoczenia tekst alternatywny się gubi. Trzeba zatem wymyślić jakiś sprytny sposób, by tak się nie działo. Być może formaty graficzne mają możliwość przechowywania metainformacji, które da się ponownie wykorzystać, ale ja nie znam takiego sposobu, przynajmniej na razie.

Wszystko to co powyżej to prościzna, w porównaniu z zasobami dla których nie ma żadnych standardów. W tym momencie przychodzą mi do głowy dwa rodzaje takich zasobów: mapy i obiekty przestrzenne, na przykład rzeźby. O mapach pomyślałem, bo ogromnym beneficjentem PO PC jest Główny Urząd Geodezji i Kartografii, który ma realizować projekty o wartości około 400 milionów złotych. Jak sobie poradzi z dostępnością map, planów i warstw? To ogromne wyzwanie intelektualne i technologiczne
, w którym Polska może być pionierem i może wyznaczać standardy. Jestem zatem bardzo ciekawy planowanych rozwiązań i zamierzam się dowiadywać. Z kolei digitalizacja obiektów przestrzennych pewnie będzie polegać na skanowaniu 3D i publikowaniu modeli wraz z odpowiednimi odtwarzaczami. Ponieważ jest to obiekt nie będący tekstem, to na pewno wchodzi w grę tekst alternatywny. Jednak jest także multimedium, więc trzeba brać pod uwagę także inne techniki udostępniające. Zaprawdę powiadam Wam – duże wyzwania stoją przed realizatorami projektów.

Ministerstwo Rozwoju wyda w ramach PO PC spore środki, a wszystkie produkty muszą być zgodne z wymaganiami dostępności. Teraz trzeba się przyglądać, jak robić to będą takie instytucje, jak uniwersytety, ministerstwa, urzędy centralne i samorządowe. Albo zrobimy ogromny krok do przodu, albo zmarnujemy mnóstwo pieniędzy. Czas pokaże.