ホモソーシャルな搾取構造から降りよう、というメッセージも良いし、#機械翻訳 についての部分も面白く読んだ。お薦め。
https://shoheiharaguchi.hatenablog.com/entry/2023/02/05/232059 [参照]
結局、ここの差が #機械翻訳 の精度に関する言説の違いを生んでいるのだと思うのよ。
https://en.wikipedia.org/wiki/Dynamic_and_formal_equivalence
さて、機械翻訳ネタをメルマガに投入。
我々が行っている翻訳という作業では、脳内で多くの情報を判断し、原文の解釈と知識/経験から情報を補完/修正して訳文に落とし込んでいるわけで、それを原文データを分析しているだけの機械翻訳が再現できるようになるには、まだまだ長い道のりがあるということ。今回私が行った #機械翻訳 出力文の評価から、そういう確信を持ったよ。
ただし、これは「翻訳」という仕事に限定した考え方ですからね。
メルマガにも書きましたが、顧客と #機械翻訳 について話していて感じるのは、主に以下のようなことです。
①機械翻訳に対する漠然とした信用
②手直しするだけだから手間は掛からない(=安くなる)という考え
③文章の質の違い(単純にはスタイルの違い)の何が問題かわからない
「精度の高くなった機械翻訳で翻訳して、ちょっとおかしなところをチャチャっと手直しすれば済むのだから、当然安くなるはず」という発想には、こういう背景があるのですね。
#機械翻訳 の出力を評価している人って、翻訳チェッカーの視点で見てるんだろうか?
少なくとも、今、私の目の前にある出力文は、チェッカー目線で評価してダメダメなんだが。
文書全文を #機械翻訳 してすべてをPEするというアプローチで成立させるには、品質に多くの妥協を前提条件に定めないと無理だと感じます。
一番現実的なのは、従来通りCATツールを使って(十分に管理された)翻訳メモリで翻訳をし、マッチしないものにMTの出力文を参考値として利用する程度の使い方しか思いつかないです(いまのところ)
なので、商用ベースに乗せられるMTPEは、チューニングされたMTが絶対条件だと思うし、用語集適用ができるエンジンでなくてはダメだと思う。加えて、顧客が文章スタイルのばらつきを許容してくれることも絶対条件になるでしょうね。
チューニングなしの #機械翻訳 の出力+PEで商売として成り立つ文書分野は、相当狭いものになるはず。概ね私が扱っている文書分野でPEやろうとすると(用語は揃わない、文書のスタイルもバラバラなので)途方に暮れる。工数を見積もろうかと思ったけど、徒労に帰するのが感覚的にわかるレベル。
本業に絡めて真面目に検討する機会が持てたので、過去の翻訳物を引っ張り出して、チューニングのされていない #機械翻訳 の出力と人間翻訳を比較しているのだけど、眺めているだけで問題は明らかだよね。