Case study na temat narzędzia, które zestawia analizę artykułów pod kątem płci z danymi o odbiorcach z Google Analytics, co pozwala na optymalizację treści i lepsze przyciąganie rzeszy czytelników. Dzięki wykorzystaniu AWS błyskawicznie przygotowaliśmy działające MVP.
2. Michał Mońka
● Node.js developer z 2,5 letnim doświadczeniem
komercyjnym, z tego prawie rok w chmurze
● Miłośnik sportu, na pierwszym miejscu wspinaczki
3. Agenda
● Zarys projektu
● Omówienie wymagań technicznych
● Wykorzystane narzędzia
● Ile to kosztuje
● Napotkane problemy
5. Wymagania
● Mechanizm logowania + proste zarządzanie użytkownikami
● Analiza artykułów pod kątem płci osób występujących w
tekście
● Rozpoznawanie płci osób występujących na obrazkach
● Sumowanie słów nacechowanych uprzedzeniem wobec płci
● Zestawienie ogólnego wyniku analizy artykułów z danymi z
Google Analytics
9. Perigon API
● Artykuły potrafiły się zmieniać co request
● Dużo metryk, takich jak: słowa kluczowe, tematy, ocena
czytelników
● Możliwości parametryzowania zapytania
● Dobra dokumentacja
● Niskie rate limity w planie developer oraz bany na ip przy
zakładaniu nowych kont 🥶
● Stosunkowo drogi, ale w planie “biznes” cena ustalana
indywidualnie
11. Genderize API
● Wsparcie dla dużej ilości języków
● Darmowy dostęp, bez rejestracji (do 1000 imion/ dzień)
● Można zastąpić darmowymi bibliotekami/ api
12. Compromise
● Licencja MIT
● Ogromne możliwości
● Zdarzały się błędnie rozpoznane imiona, jako dwa różne
● Biblioteka do przetwarzania tekstu. Zawiera narzędzia do
analizy tekstu, takie jak rozpoznawanie części mowy,
rozpoznawanie nazw własnych, a także generowanie tekstu
14. Serverless framework
● Jako TSH posiadamy duże doświadczenie
● Korzystamy z boilerplate, który umożliwia szybki
development
● Nie nadąża za zmianami w AWS
● Bardzo dobra dokumentacja
22. ● Słowa nacechowane uprzedzeniem wobec płci
● Występowanie kobiet/ mężczyzn w tekście
● Występowanie kobiet/ mężczyzn na zdjęciach
● Płeć autora
● Zaimki
Kalkulacji podlegały:
25. ● Tematy z najlepszymi opiniami
● Tematy z najlepszym wynikiem ogólnym
● Tematy z najgorszym wynikiem ogólnym
● Tematy popularne wsród kobiet
● Ilość wystąpień mężczyzn/ kobiet na zdjęciach
Raport
27. Napotkane problemy
● Ogromne ilości analizowanych danych
● Limity step function (max liczba eventów 25000)
● Problem typeorm z rds-proxy (rds-proxy zamykał
połączenie, a typeorm widział je jako otwarte)
● Przy dużej ilości równoległych lambd, rds-proxy otwierał za
dużo połączeń i zapychał bazę
● Brak czasu na integrację z Google Analytics API