SlideShare une entreprise Scribd logo
1  sur  11
Инструментарий переводчика — часть III.
Основы CAT на примере Memsource
1. Вступительное слово о кошках, скорость и
пути обучения технологии CAT – 15 мин
2. Демонстрация работы в Memsource
(Gotomeeting) – 1 час
3. Комментарии и вопросы – 15 мин
CAT key words
Key words:
 TM (TU)
 Билингвальные файлы, Source/Target
 Сегменты
English Russian
What can I do for you? Чем я могу Вам помочь?
(weird) CATs
LEAF
Transit
Анализ текстовых файлов.
Fuzzy logic
Fuzzy matches grid
(or greed  )
Тип сегмента
Кол-во
слов
Коэффициент
Слов к
оплате
Ставка Сумма
Repetitions 150 0,15 22,5 1 22,5
100% 1062 0,15 159,3 1 159,3
95-99% 65 0,3 19,5 1 19,5
85-94% 80 0,66 52,8 1 52,8
75-84% 41 0,66 27,06 1 27,06
50-74% 114 0,75 85,5 1 85,5
No Match 5801 1 5801 1 5801
Итого слов к оплате: 6167,66
РЕАЛЬНАЯ ЭКОНОМИЯ!
o Trados (наиболее популярная программа,
долгое время бывшая стандартом)
o SDLX, Passolo
o OmegaT (бесплатная система,
распространяемая по лицензии GNU GPL)
o Across
o STAR Transit
o Wordfast
o MemoQ (+Dragon Naturally Speaking)
o Translation Workspace (Logoport)
o MemSource
o SmartCAT
 Сокращение времени и объема работы
переводчика
 Увеличение прибыли за счет повторов и
увеличения производительности труда
переводчика, группы переводчиков
 Повышение качества перевода за счет
увеличения точности и единообразия
перевода терминов, особенно в
специализированных текстах
Резюме. Основные преимущества САТ
Сколько необходимо времени, чтобы
обучиться этой технологии
o http://www.miis.edu/academics/short/translation-
interpretation/computer-assisted
o http://habrahabr.ru/company/allcorrect/blog/2222
67
o https://ru.wikibooks.org/wiki/Trados
o http://habrahabr.ru/company/allcorrect/blog/2123
71/
o http://letnyayashkola.org/L10n/
Некоторые минусы работы в облаке
1. Интернет все же есть не всегда и не везде. Даже там, где он есть,
«может обломать провайдер».
2. Работа в Интернете не годится для некоторых государственных и
всех военных учреждений. Облако не подходит под требования
безопасности многих сфер. Что бы ни обещали разработчики, ты не
можешь быть уверен в конфиденциальности своих данных.
3. Нарушить NDA легче / осуществить перехват данных проще через
облако, чем с харддрайва.
4. Возможность потери данных. Нет гарантии, что твои данные
реально сохранятся.
5. Потенциальные проблемы с переносимостью данных (например,
при переходе с тула на тул)
6. Имиджевые нюансы (если у тебя только облако и нет standalone,
это не очень серьезно)
7. Для физ.лиц хуже саппорт (преимущества «голдов» не
распространяются)

Contenu connexe

En vedette (7)

งานคอม 2
งานคอม 2งานคอม 2
งานคอม 2
 
Cumpleaños numero 5 de heidie esmeralda hinojosa guaita
Cumpleaños numero 5 de heidie esmeralda hinojosa guaitaCumpleaños numero 5 de heidie esmeralda hinojosa guaita
Cumpleaños numero 5 de heidie esmeralda hinojosa guaita
 
ใบงาน2
ใบงาน2ใบงาน2
ใบงาน2
 
"Как это было" ИТИ на МПК5
"Как это было" ИТИ на МПК5"Как это было" ИТИ на МПК5
"Как это было" ИТИ на МПК5
 
Earthquakes in the midwest
Earthquakes in the midwestEarthquakes in the midwest
Earthquakes in the midwest
 
Big data developer training
Big data developer trainingBig data developer training
Big data developer training
 
BIKIMEDIA EDUCATION
BIKIMEDIA EDUCATIONBIKIMEDIA EDUCATION
BIKIMEDIA EDUCATION
 

Similaire à инструментарий переводчика-часть-3

Виды QA: Всё что вы не знали и боялись спростить
Виды QA: Всё что вы не знали и боялись спроститьВиды QA: Всё что вы не знали и боялись спростить
Виды QA: Всё что вы не знали и боялись спростить
GoIT
 
Какой фреймворк нам нужен для Web? Денис Цыплаков
Какой фреймворк нам нужен для Web? Денис ЦыплаковКакой фреймворк нам нужен для Web? Денис Цыплаков
Какой фреймворк нам нужен для Web? Денис Цыплаков
Alex Tumanoff
 
Алферов - Роль бизнес заказчика 2012
Алферов - Роль бизнес заказчика 2012Алферов - Роль бизнес заказчика 2012
Алферов - Роль бизнес заказчика 2012
Sergey Polazhenko
 
эволюция методологий управления (водопад, Rup, Agile) башакин
эволюция методологий управления (водопад, Rup, Agile)   башакинэволюция методологий управления (водопад, Rup, Agile)   башакин
эволюция методологий управления (водопад, Rup, Agile) башакин
WRider
 

Similaire à инструментарий переводчика-часть-3 (20)

Peterburg meeting
Peterburg meetingPeterburg meeting
Peterburg meeting
 
TMPA-2015 > Автомитизирование создание тест-кейсов для тестирования соединени...
TMPA-2015 > Автомитизирование создание тест-кейсов для тестирования соединени...TMPA-2015 > Автомитизирование создание тест-кейсов для тестирования соединени...
TMPA-2015 > Автомитизирование создание тест-кейсов для тестирования соединени...
 
Translation Technology in Russia: 10 tools most popular with large LSPs
Translation Technology in Russia: 10 tools most popular with large LSPsTranslation Technology in Russia: 10 tools most popular with large LSPs
Translation Technology in Russia: 10 tools most popular with large LSPs
 
TMPA-2015: Automated process of creating test scenarios for financial protoco...
TMPA-2015: Automated process of creating test scenarios for financial protoco...TMPA-2015: Automated process of creating test scenarios for financial protoco...
TMPA-2015: Automated process of creating test scenarios for financial protoco...
 
Виды QA: Всё что вы не знали и боялись спростить
Виды QA: Всё что вы не знали и боялись спроститьВиды QA: Всё что вы не знали и боялись спростить
Виды QA: Всё что вы не знали и боялись спростить
 
Критерии предквалификации Интегратора по АСУТП
Критерии предквалификации Интегратора по АСУТПКритерии предквалификации Интегратора по АСУТП
Критерии предквалификации Интегратора по АСУТП
 
XSLT: сначала ждали, теперь догоняем. Кому это выгодно и что вы теряете?
XSLT: сначала ждали, теперь догоняем. Кому это выгодно и что вы теряете?XSLT: сначала ждали, теперь догоняем. Кому это выгодно и что вы теряете?
XSLT: сначала ждали, теперь догоняем. Кому это выгодно и что вы теряете?
 
Unit Testing
Unit TestingUnit Testing
Unit Testing
 
Какой фреймворк нам нужен для Web? Денис Цыплаков
Какой фреймворк нам нужен для Web? Денис ЦыплаковКакой фреймворк нам нужен для Web? Денис Цыплаков
Какой фреймворк нам нужен для Web? Денис Цыплаков
 
Aspect Oriented Programming and Design Patterns
Aspect Oriented Programming and Design PatternsAspect Oriented Programming and Design Patterns
Aspect Oriented Programming and Design Patterns
 
AOP and Design Patterns (GoF)
AOP and Design Patterns (GoF)AOP and Design Patterns (GoF)
AOP and Design Patterns (GoF)
 
Олег Миколайченко "Как перестать хранить секреты в git и начать использовать ...
Олег Миколайченко "Как перестать хранить секреты в git и начать использовать ...Олег Миколайченко "Как перестать хранить секреты в git и начать использовать ...
Олег Миколайченко "Как перестать хранить секреты в git и начать использовать ...
 
CCPM Vebinar 21 01 2010
CCPM Vebinar 21 01 2010CCPM Vebinar 21 01 2010
CCPM Vebinar 21 01 2010
 
Дефекты при тестировании ПО
Дефекты при тестировании ПОДефекты при тестировании ПО
Дефекты при тестировании ПО
 
Алферов - Роль бизнес заказчика 2012
Алферов - Роль бизнес заказчика 2012Алферов - Роль бизнес заказчика 2012
Алферов - Роль бизнес заказчика 2012
 
Разработка портируемой инфраструктуры New Relic — контейнеры, CoreOS и прочие...
Разработка портируемой инфраструктуры New Relic — контейнеры, CoreOS и прочие...Разработка портируемой инфраструктуры New Relic — контейнеры, CoreOS и прочие...
Разработка портируемой инфраструктуры New Relic — контейнеры, CoreOS и прочие...
 
эволюция методологий управления (водопад, Rup, Agile) башакин
эволюция методологий управления (водопад, Rup, Agile)   башакинэволюция методологий управления (водопад, Rup, Agile)   башакин
эволюция методологий управления (водопад, Rup, Agile) башакин
 
КГТУ Лекция 6: Обеспечение Качества Программного Обеспечения
КГТУ Лекция 6: Обеспечение Качества Программного Обеспечения КГТУ Лекция 6: Обеспечение Качества Программного Обеспечения
КГТУ Лекция 6: Обеспечение Качества Программного Обеспечения
 
Построение систем автоматического протоколирования Си/Си++ кода
Построение систем автоматического протоколирования Си/Си++ кодаПостроение систем автоматического протоколирования Си/Си++ кода
Построение систем автоматического протоколирования Си/Си++ кода
 
PHDAYS 2017 | Зато удобно! Утечки из-за ботов в telegram
PHDAYS 2017 | Зато удобно! Утечки из-за ботов в telegramPHDAYS 2017 | Зато удобно! Утечки из-за ботов в telegram
PHDAYS 2017 | Зато удобно! Утечки из-за ботов в telegram
 

инструментарий переводчика-часть-3

  • 1. Инструментарий переводчика — часть III. Основы CAT на примере Memsource 1. Вступительное слово о кошках, скорость и пути обучения технологии CAT – 15 мин 2. Демонстрация работы в Memsource (Gotomeeting) – 1 час 3. Комментарии и вопросы – 15 мин
  • 2. CAT key words Key words:  TM (TU)  Билингвальные файлы, Source/Target  Сегменты English Russian What can I do for you? Чем я могу Вам помочь?
  • 7. Fuzzy matches grid (or greed  ) Тип сегмента Кол-во слов Коэффициент Слов к оплате Ставка Сумма Repetitions 150 0,15 22,5 1 22,5 100% 1062 0,15 159,3 1 159,3 95-99% 65 0,3 19,5 1 19,5 85-94% 80 0,66 52,8 1 52,8 75-84% 41 0,66 27,06 1 27,06 50-74% 114 0,75 85,5 1 85,5 No Match 5801 1 5801 1 5801 Итого слов к оплате: 6167,66 РЕАЛЬНАЯ ЭКОНОМИЯ!
  • 8. o Trados (наиболее популярная программа, долгое время бывшая стандартом) o SDLX, Passolo o OmegaT (бесплатная система, распространяемая по лицензии GNU GPL) o Across o STAR Transit o Wordfast o MemoQ (+Dragon Naturally Speaking) o Translation Workspace (Logoport) o MemSource o SmartCAT
  • 9.  Сокращение времени и объема работы переводчика  Увеличение прибыли за счет повторов и увеличения производительности труда переводчика, группы переводчиков  Повышение качества перевода за счет увеличения точности и единообразия перевода терминов, особенно в специализированных текстах Резюме. Основные преимущества САТ
  • 10. Сколько необходимо времени, чтобы обучиться этой технологии o http://www.miis.edu/academics/short/translation- interpretation/computer-assisted o http://habrahabr.ru/company/allcorrect/blog/2222 67 o https://ru.wikibooks.org/wiki/Trados o http://habrahabr.ru/company/allcorrect/blog/2123 71/ o http://letnyayashkola.org/L10n/
  • 11. Некоторые минусы работы в облаке 1. Интернет все же есть не всегда и не везде. Даже там, где он есть, «может обломать провайдер». 2. Работа в Интернете не годится для некоторых государственных и всех военных учреждений. Облако не подходит под требования безопасности многих сфер. Что бы ни обещали разработчики, ты не можешь быть уверен в конфиденциальности своих данных. 3. Нарушить NDA легче / осуществить перехват данных проще через облако, чем с харддрайва. 4. Возможность потери данных. Нет гарантии, что твои данные реально сохранятся. 5. Потенциальные проблемы с переносимостью данных (например, при переходе с тула на тул) 6. Имиджевые нюансы (если у тебя только облако и нет standalone, это не очень серьезно) 7. Для физ.лиц хуже саппорт (преимущества «голдов» не распространяются)

Notes de l'éditeur

  1. (уже было: «Инструментарий переводчика — часть I. Зачем вообще нужен какой-то редактор переводов кроме ворда? Что такое память перевода и зачем она нужна. Какие форматы файлов можно получить на входе и что с ними потом делать (подсчёт слов, конвертация).»)
  2. В одной из прошлых лекций вам рассказали, какие есть автоматические средства накапливания переводческой памяти и автоматизации процесса перевода (САТ). Коснемся подробнее того, чем они друг от друга отличаются и как в них разобраться.   Всего сейчас порядка 30 различных онлайн/офлайн средств.   Напомню их суть в двух словах: Память переводов (translation memory, TM). Это база данных, содержащая набор ранее переведенных сегментов текста. Одна запись в такой базе данных соответствует сегменту или «единице перевода» (translation unit), за которую обычно принимается одно предложение (либо часть сложносочинённого предложения, либо абзац). Итого, и в памяти переводов, да и в реальных переводимых файлах для каждого предложения сразу фигурирует оригинал и перевод рядом: Source/Target. Получаем «билингвальные файлы». В простейшем варианте это двуязычные таблицы.
  3. В реальности среда работы с билингвальными файлами может выглядеть довольно внушительно.
  4. То есть, основной особенностью ТМ-программ является то, что они сегментируют текст (делят его на ячейки) по одному из заданных заранее правил. И если в тексте есть повторяющиеся сегменты, то программа уже сама автоматически подставит ваш перевод во все эти сегменты далее по тексту. А если еще подключить к проекту TM, в которой хранятся все ранее выполненные по заданному проекту переводы (сюда же попадают и переводы, создаваемые в процессе перевода конкретного текста), то в итоге у вас никогда не возникнет необходимости перевести тот или иной текст дважды. В том числе за это ТМ-программы все и любят.   Помимо ускорения процесса перевода повторяющихся фрагментов и изменений, внесенных в уже переведенные тексты (например, новых версий программных продуктов или изменений в законодательстве), ТМ, очевидно, также помогает обеспечивать единообразие перевода терминологии в одинаковых фрагментах, что особенно важно при техническом переводе.
  5. Встречая совпадение с ТМ в текущем тексте, САТ-программы автоматически подставляют/предлагают вам имеющиеся варианты из ТМ. Вы можете их принять или переписать в зависимости от контекста. В каждой конкретной ТМ данные хранятся в своем собственном формате (текстовый формат, база данных и т.д.), но существует международный стандарт TMX (Translation Memory eXchange format), который основан на XML и может генерироваться практически всеми ТМ. Благодаря этому сделанные переводы можно использовать в разных CATax. Предположим, вам прислали имеющуюся ТМ по проекту и новый файл на перевод. Так как понять, насколько ТМ пригодится? Необходимо выполнить Анализ текстовых файлов ->
  6. -> Как все уже поняли, если единица перевода исходного текста в точности совпадает с единицей перевода, хранящейся в базе, она может быть автоматически подставлена в перевод. Это называется точное соответствие, exact match.  Новый сегмент может и лишь слегка отличаться от хранящегося в базе (нечёткое соответствие, англ. fuzzy match). Это совершенно типичная ситуация для перевода однотипных документов, игр, мануалов. Такой сегмент может быть также подставлен в перевод, но переводчик будет должен внести необходимые изменения. Зато переводчику сразу видно, как похожее предложение было переведено раньше. Если ему сразу этого не видно, и ТМ ничего не подставила автоматом, но он уверен, что в памяти что-то такое может быть, можно нажать магическую кнопку F3, аналогичную CTRL+F, тем самым выполнив т.н. Concordance search, поиск соответствия. И сразу в одном месте увидеть, как конкретная фраза/термин переводился ранее, и переводился ли.
  7. Кстати, Repetitions* (повторы) – вторая причина, по которой все любят САТ-тулы. Ведь это реальная экономия! Поэтому очевидно, что для бизнеса очень выгодно использовать популярные «кошки» (если буду успевать, далее в двух словах о некоторых из списка и их принципиальных различиях):  
  8. И чтобы получать от любого из этих средств максимальную пользу, по окончании любой переводческой задачи следует выполнить 2 (вернее, 2-в-1) операции (о которых вам должно быть уже рассказывали): «Очистку» переведённого файла (clean up) с записью готовых сегментов в ТМ. В итоге этой операции вы будете иметь переведенный монолингвальный файл, полностью аналогичный по структуре файлу оригинала, и пополненную выполненными переводами ТМ.   Если же вы начали активно использовать САТы, но вдруг вам для справки выдали старые переводы люди, далекие от САТ, не беда! Есть возможности пополнения переводческой памяти на основе имеющихся монолингвальных текстов на двух языках. Например, используя встроенные Align-модули кошек (Trados: WinAlign). Главное, получив задание на перевод, первым делом проанализировать его по ТМ, можно даже пустой, чтобы понять, сколько там повторов, а сколько новых слов. И вперед, за дело!
  9. Разумеется, в освоении чего угодно все зависит от индивидуальных особенностей «студента». Стандартов, особенно в РФ, пока нет. Недаром как таковые программы на тему CAT, по форме аналогичные обычной отечественной институтской программе, мало где предлагают. Есть, тем не менее, различные интенсивные курсы и мастер-классы, как приуроченные к конференциям и прочим industry events (или даже мероприятиям не нашей индустрии переводов, как например ЛШ «мастерская»), так и обособленные, предоставляемые уважаемыми ВУЗами, в основном, зарубежными.
  10. Например, в Монтерее считают, что азы можно прочно втемяшить в голову за 4 дня интенсива. Да так, чтобы они находили применение в реальной жизни. То есть сразу и теории, и практики: http://www.miis.edu/academics/short/translation-interpretation/computer-assisted Отечественные коллеги уже прорабатывают похожие программы в некоторых московских ВУЗах, но пока чаще в качестве факультативов, а не полноценных курсов. Или, скажем, в форме программ профессиональной переподготовки, например Высшая школа экономики (ВШЭ) совместно с Высшей школой бизнес-информатики (ВШБИ) запустила «менеджмент игровых интернет-проектов»: http://habrahabr.ru/company/allcorrect/blog/222267/ , но это конечно не только и не столько про САТ. У нас же в компании по моему опыту человеку неподготовленному нужен минимум месяц, чтобы въехать во все типичные САТ и QA процедуры и операции и их смысл, и в целом примерно 1,5-3 месяца, чтобы полностью овладеть автоматизацией перевода и начать ее успешно применять в проектной работе и личной жизни. После этого любой из множества САТ-тулов осваивается за пару часов (в зависимости от его сложности). Одно можно сказать точно, «попробовав раз, ем и сейчас», то есть, прощупав и прочувствовав все неоспоримые преимущества технологии, «слезть» с нее и переводить на коленке уже невозможно.   Если кому-то будет интересно продолжить погружаться в это самостоятельно, можно начать с общедоступного ресурса https://ru.wikibooks.org/wiki/Trados , а потом продолжать искать ответы на конкретные вопросы, возникающие по ходу, на переводческих форумах (в том числе зарубежных) или пабликах, связанных с локализацией http://habrahabr.ru/company/allcorrect/blog/212371/ , и конечно в официальных мануалах. Для освоения на практике сами программы есть как платные, так и бесплатные, как онлайн, так и стандартные (сегодня мы поговорим о двух популярных онлайн-системах, которые представляют собой нечто большее, чем просто САТ-средство в чистом виде). Но даже у платных решений в основном всегда есть триальные версии, которых вполне достаточно для начала (т.е. для ознакомления).