2021年7月26日
朝ジョギング15分。午後は結婚式タスクで品川へ行く。昔住んでいたら辺から近く、よく品川プリンシシネマへ行っていたので懐かしい。
グランドプリンスホテル高輪では、イタリアの選手団が泊まっているからか、高輪貴賓館の外装がイタリア色になっていた。
オリンピック、スケート女子を録画していて後で楽しもうと思っていたら、各種インターネットによりネタバレ。オリンピック情報はうっかり目につくところに多すぎる~。速報価値も高い情報なので、例えばテレビでも速報テロップとして流れるので、インターネットでなくてもネタバレされてしまう。
Google 翻訳で Fujifilm や Nikon を日本語からラテン語へ翻訳すると Canon になってしまう問題、ありそうな挙動だぁ。車メーカーも、例えばホンダはToyotaになる。
これはいわゆる Word2Vec のような Word Embedding を使った翻訳で未知語に対応しようとした場合の挙動としてそうなりそうな感じ。ラテン語翻訳で Fujifilm も Nikon も未知語だとして、ラテン語の文脈で Canon と同じ位置ベクトルで使われているのでベクトル空間が Canon に近しい位置になる。なので翻訳AIが未知語をなんらかの言葉として置き換えようとすると、Canon と同じような単語なんじゃね?つまり Canon として翻訳しちゃって良いんじゃない?となりそう。Google 翻訳の日本語→ラテン語が Word Embedding を使ってるのかどうか知らないのであってるかどうかは解らないけど。