エンジニアが語る、自動翻訳への想い

Engineer interview

創業来開発してきた、自動翻訳への想い

純国産の
高いセキュリティを持ち
産業界で実用的に使える
ツールを開発。
最終目標は翻訳を
意識させない翻訳ツールへ。

開発本部 木村 浩康
開発本部 渡辺 秀行
マーケティング本部 渡邉 照文

所属部署などは取材当時の情報を記載しています

ディープラーニングの実現で
プロ翻訳者並みのT-4OO Ver.2開発開始

「『T-4OO(Translation for Onsha Only)Ver.2』は、ディープラーニングを使った 自動翻訳というという点で、これまでの翻訳手法とは、ロジックが全く異なります」(渡邉)

2017年11月にリリースした「T-4OO Ver.2」は翻訳手法に加えて、技術も新たなNMT(Neural Machine Translation)を使っていて、Ver.1とは作り方も何も根本的にちがいます。NMTを利用したサービスは、2015年頃からGoogleなどによる実用化が始まりました。概念自体は何十年も前からありましたが、実行できるだけのハードウエアが手の届くものとなったのがこの頃でした。それにより、プロの翻訳者に負けない自動翻訳を実現できる見込みが立ちました。

マーケティング本部
渡邉 照文

NMTでのVer.2開発に向けて
技術も開発体制も一新

「わたしが入社した2016年10月頃から、Ver.2のために、開発体制も変わりました」(木村)

当時、翻訳の知見は多く持っていたものの、IT企業としての知見がまだ充分ではありませんでした。入社したばかりの、先端技術に特化した専門的エンジニアのアドバイスを受けながら、この頃からIT企業へと舵を切っていきました。Ver.1開発時はピーク時に6名、少ないときは3名体制でしたが、開発の人材も一気に増やし、2019年には20名近い体制になりました。

当時のサーバはスペック不足
ディープラーニングに耐える効率的な運用技術

「高負荷なサーバをいかに効率的に扱うか」(木村)

ディープラーニングでビッグデータを学習させるには、それに見合ったスペックのサーバが必要です。いままでの自動翻訳に使われていたサーバは現在とは全く異なり、ビッグデータの学習に耐えられるようなものではありませんでした。そのため、「T-4OO Ver.2」の開発にあたり、ディープラーニングの高負荷に耐えられる効率的なサーバの手配・運用を行うことが必要でした。まだIT技術の知見に乏しかったロゼッタで新しい技術を立ち上げていくことには困難も伴いましたが、周囲の理解を得ながら現在の体制を作り上げていきました。

開発本部
木村 浩康

研究情報の少ない状況で
ディープラーニングを翻訳に応用

「世間一般ではディープラーニングというと画像に関する研究が進んでいて、翻訳での研究は少なかった」(渡辺)

近年ではオリンピック・パラリンピックでのインバウンド向けの翻訳需要が注目され、ようやく盛り上がってきた印象があるものの、翻訳におけるディープラーニングの研究情報はあまり世に出ていませんでした。それによって、例えば画像の分野では既にある技術をそのまま翻訳の分野に応用しようとしても、なかなか思った通りにはいきません。そのような経緯からディープラーニングの技術を自動翻訳に活かすことは簡単ではありませんでしたが、ほとんど前例のない中での試行錯誤の結果として、今までにない高精度の翻訳エンジン開発に至りました。

産業翻訳の知見を活用して
一気に95%の精度を実現

「弊社が得意とする医学や化学、法務、IT・通信、金融・財務・経理などの分野の英日翻訳において、精度95%という圧倒的な精度を実現できたのは、翻訳会社として長年に渡り産業翻訳を行い、知見を蓄えてきたからです」(渡邉)

ディープラーニングで翻訳精度を高めていくためには、充分な教師データが必要です。2004年の創業以来、長年に渡って産業翻訳の経験を積んできた翻訳者が作る対訳データを教師データとして、分野ごとに用意したサーバで、さらに細分化して、それぞれに特化したディープラーニングを行っています。

技術もサーバも内製だから
独自の性能と万全のセキュリティ

「運用とか、環境構築を外注している会社が多いですが、うちの場合はインフラからすべて内製しています」(木村)

スピーディな翻訳ができるよう、効率よくサーバを動かす技術も持っており、サーバも社内にあります。またほとんどの自動翻訳サービスは、翻訳エンジンを国やGoogleなどから借りていますが、「T-4OO」の翻訳エンジンは完全な内製です。無料翻訳サイト経由の情報漏洩事件などもありましたが、「T-4OO」ならセキュリティの面でも、安心していただけます。

開発本部
渡辺 秀行

それぞれの企業に合せた
御社オンリーの翻訳が特徴

「それぞれの会社の用語もありますし、独特の言い回しもあります。たとえば英語では『東京なんとか』となっていても、日本語では『本社』という場合など、ふつうの翻訳では絶対翻訳されない、会社独自の習慣などがあります。それも適切に翻訳する『御社オンリー』の仕組みが『T-4OO』の特徴です」(渡邉)

「T-4OO」にはそれぞれの会社ごとの専用データベースがあります。入れていただいたサンプルデータを解析して、御社オンリーの翻訳を行います。

翻訳作業の手間を省力化して
働き方改革を支援

「一般に自動翻訳では、文字だけを翻訳して戻してきます。T-4OOはPowerPointやWordなどのファイルを入れていただくと、書式などもそのままの形でファイルを戻します。自動翻訳後の体裁を整える作業の手間が不要です」(渡邉)

翻訳の作業は主要業務ではなく、業務に付随する副次的な業務です。それをできるだけ省力化して、働き方改革を支援したいと考え、翻訳にまつわる作業の手間をできるだけ省力化するよう考えています。たとえば気になる単語についているリンクをクリックすると、分野ごとの用例が出てきて、修正のための検索の手間を省くなど、残る5%を修正する手間を省く工夫も施しています。

次のステップは
翻訳を意識させないウエラブルな翻訳ツール

「言語の壁をなくすと言うミッションのためには、眼鏡をかけると、見た文字が翻訳されて浮かび上がる……そんなウエラブルなツール開発も考えています。いまは1時間で翻訳していますが、ウエラブルなツールでは1秒でも遅すぎるでしょう。精度を落とさずに、翻訳エンジンを軽くしなければなりません」(渡辺)

課題はまだまだありますが、決して遠い未来の夢ではありません。