機械学習リサーチャー/ Machine Learning Researcher(Mantra Engine)
Job Description
会社概要
Mantra株式会社は、「世界の言葉で、マンガを届ける。」というミッションを掲げ、エンターテインメントから「言語の壁」をなくすことに挑戦しているグローバルAIスタートアップです。世界中の誰もが、最新のマンガやアニメ、ゲームを同時に楽しみ、国や文化を超えて語り合う。作品への愛やファン同士の交流から生まれる「異文化への敬意」が、やがて世界の相互理解を育む―。そんな平和で笑顔に満ちた未来を描きながら、私たちはAI技術の研究、マンガ翻訳、そして語学学習サービスの開発に取り組んでいます。
「大好きなマンガの最新作を、世界中のファンとリアルタイムで分かち合える世界」
そんなワクワクする未来を、私たちは創ろうとしています。クリエイターの魂がこもった一コマを、技術の力で「速く」かつ「感情豊かに」世界へ届けるプロセスには、技術的な難易度が高いからこそ味わえる知的な挑戦に溢れています。
自身のスキルを、世界を繋ぐ架け橋に変えたい。エンタメの力で相互理解を深め、より良い社会を築きたい。そんな情熱を分かち合える仲間を、私たちは求めています。
Mantra Inc. is a global AI startup dedicated to eliminating “language barriers” in the entertainment industry, guided by our mission to “deliver manga in the world’s languages.” We envision a future where people everywhere can enjoy the latest manga, anime, and games simultaneously, and engage in conversations that transcend national borders and cultural differences. We believe that the “respect for other cultures” born from a love for these works and interactions among fans will eventually foster mutual understanding around the world. Envisioning such a peaceful and joyful future, we are dedicated to researching AI technology, translating manga, and developing language learning services
“A world where you can share the latest installment of your favorite manga with fans around the globe in real time.”
We are striving to create this exciting future. The process of using technology to deliver each panel—imbued with the creator’s soul—to the world “quickly” and “with rich emotion” is filled with intellectual challenges that can only be experienced because of the high technical difficulty involved.
We want to turn our skills into a bridge connecting the world. We want to deepen mutual understanding through the power of entertainment and build a better society. We are looking for teammates who share this passion.
仕事内容/Job Description
【現在直面している主な問題】
・機械翻訳:マンガなど物語の機械翻訳では、一般的なビジネス文書の機械翻訳と異なり、ただ意味が伝わるだけでは不十分で、読んで面白い文章を生成する必要があります。これはマンガのセリフとしての「流暢性」が必要で、既存のLLMをそのまま使うだけではうまくいきません。また、精度を改善していくためには精度を評価できることが極めて重要ですが、物語における流暢性をどう評価するか、というのもまだあまり取り組まれていない難しい問題です。これに加え、ストーリーや登場人物などの文脈の考慮、画像情報を考慮したマルチモーダルな翻訳、その国の文化を踏まえた適切なローカライズなど、マンガ翻訳特有の様々な問題があります。
・画像処理:マンガで翻訳する必要がある文字は、吹き出しの中の文字だけではなく、背景の効果音(オノマトペ)や、絵の中の文字(看板など)も含まれます。これらの文字では、認識が難しいことに加えて、翻訳の際には元の文字を消去して背景を適切に補完し、かつ元の文字のスタイルとマッチしたテキストを生成する必要があります。近年、拡散モデルにより画像生成技術は進歩していますが、トーンがうまく復元できない、マンガの絵が崩れてしまうなど、マンガ特有の難しい課題が数多くあります。
【研究課題の例】
・マンガ対訳データによるオープンソースLLMの学習
・過去の修正履歴を活用した、翻訳精度の改善
・エンタメ機械翻訳の自動評価手法
・マルチモーダル情報を使ったセリフの話者推定([ACMMM2024に採択](https://arxiv.org/abs/2404.13993))
・手書き文字や効果音などの文字認識
・Stable Diffusionなどの拡散モデルを使用した文字消去・背景補完
・テキストスタイルの推定および適切なレイアウトでの生成
・対訳データの学習に基づく自動組版
We conduct research and development related to the translation of entertainment content, such as manga. Our primary mission is to develop technologies that improve translation accuracy and streamline translation workflows. Translating manga requires not only machine translation of text but also the understanding of manga images (such as OCR and character recognition) and image editing (such as text removal and style generation). Therefore, we tackle a wide range of challenges related to multimodal understanding and generation involving both language and images.
[Current Key Challenges]
・Machine Translation: Unlike the translation of general business documents, machine translation of narratives such as manga requires more than just conveying meaning; it must generate text that is engaging to read. This necessitates “fluency” in manga dialogue, and simply using existing large language models (LLMs) as-is does not work. Furthermore, while the ability to evaluate accuracy is crucial for improving it, determining how to assess fluency within a narrative remains a difficult problem that has not yet been adequately addressed. In addition to this, there are various challenges unique to manga translation, such as considering the context of the story and characters, multimodal translation that incorporates image information, and appropriate localization that takes into account the culture of the target country.
・Image Processing: The text that needs to be translated in manga includes not only the text within speech bubbles but also background sound effects (onomatopoeia) and text within the illustrations (such as signs). In addition to the difficulty of recognizing this text, the translation process requires erasing the original text, appropriately filling in the background, and generating text that matches the style of the original characters. In recent years, image generation technology has advanced thanks to diffusion models, but there are still numerous challenges specific to manga, such as the inability to accurately restore tones and the distortion of manga artwork.
[Examples of Research Topics]
・Training open-source LLMs using manga translation datasets
・Improving translation accuracy by leveraging historical revision history
・Methods for automatically evaluating machine translation in the entertainment industry
・Speaker estimation for dialogue using multimodal information ([Accepted at ACMMM 2024](https://arxiv.org/abs/2404.13993))
・Character recognition of handwritten text and sound effects
・Text removal and background completion using diffusion models such as Stable Diffusion
・Text style estimation and generation with appropriate layout
・Automatic typesetting based on training with bilingual data
必須スキル/Required Skills
・機械学習分野での修士・博士卒、もしくは実務経験2年以上
・研究計画を立案し、査読付き論文に通す(もしくはそれに準ずる)研究を遂行した経験
・機械学習のモデル学習およびタスクの精度改善を実施した経験
・英語論文の調査経験
・非日本語話者と最低限の意思疎通が可能なレベルの英語力
・Master’s or doctoral degree in machine learning, or at least two years of relevant professional experience
・Experience in formulating research plans and conducting research that has resulted in peer-reviewed publications (or equivalent)
・Experience in training machine learning models and improving task accuracy
・Experience conducting research on English-language academic papers
・English proficiency sufficient to communicate effectively with non-Japanese speakers
歓迎スキル/Preferred Skills
- 自然言語処理・画像処理分野の専門知識
- 大規模言語モデル・拡散モデルなどの先端技術を用いた開発経験
- 機械学習分野の国際会議・ジャーナルにおける第一著者での論文採択経験
- 機械学習エンジニアとしての実務経験
- 機械学習PoCなどのプロジェクト管理・進行経験
- Webサービス等のアプリケーション開発経験
- Expertise in natural language processing and image processing
- Development experience using cutting-edge technologies such as large language models and diffusion models
- Experience as the first author of papers accepted at international conferences and journals in the field of machine learning
- Practical experience as a machine learning engineer
- Experience managing and leading projects such as machine learning proof-of-concepts
- Experience developing applications such as web services
チーム/Team
現在のMantra Engineのエンジニアチームは以下のような構成です。
フルタイム:
・Webエンジニア 1名
・研究開発 2名 (CTO含む)
パートタイム:
・Webエンジニア 3名
・研究開発 6名
研究開発については、現在、パートタイムのメンバーがそれぞれ1つのプロジェクトやモジュールを担当し、CTOと毎週ミーティングを行いながら進めています。今後、研究開発をさらに加速するために、フルタイムで参画していただける方を募集しています。
フルタイムで入社いただいた場合、CTO・NLPリサーチャーとともに全体の研究計画を立案し、各課題の解決を自らリードすると同時に、パートタイムのメンバーと連携して研究を進めていただきます。パートタイムのメンバーは、企業のMLエンジニア、ポスドク、博士課程の学生、大学教員など、様々なバックグラウンドを持つ人が集まっています。
実際にプロダクトに組み込めるような成果が出た場合、Webエンジニアと連携してプロダクトに反映します。またMantra Engineのビジネスサイドは、事業責任者と翻訳ディレクター兼営業の2名で、研究開発の方向性はビジネス側とも連携しながら決定します。メンバーは年代やバックグラウンドも様々ですが、少人数のチームというのもあり、職種の垣根なく気軽にコミュニケーションが取れる良い雰囲気です。週3日出社・週2日リモートのハイブリッドなので、出社時にはコミュニケーションを密にとり、リモート時には集中する時間を確保できます。
The current Mantra Engine engineering team is composed as follows:
Full-time:
・1 Web Engineer
・2 R&D Engineers (including the CTO)
Part-time:
・3 Web Engineers
・6 R&D Engineers
Regarding research and development, our part-time members are currently each responsible for a single project or module, and they are making progress while holding weekly meetings with the CTO. To further accelerate our R&D efforts, we are now seeking individuals who can join us on a full-time basis.
As a full-time employee, you will work with the CTO and NLP researchers to formulate the overall research plan and take the lead in solving specific challenges, while collaborating with our part-time members to advance the research. Our part-time members come from diverse backgrounds, including corporate ML engineers, postdocs, PhD students, and university faculty.
When results are ready to be integrated into the product, we will work with web engineers to implement them. The business side of Mantra Engine consists of two people: the Business Manager and the Translation Director/Sales Representative. We determine the direction of R&D in collaboration with the business team. Although our members vary in age and background, our small team size fosters a positive atmosphere where everyone can communicate freely across job roles. We operate on a hybrid model—three days in the office and two days remote—allowing for close communication when in the office and ensuring focused work time when working remotely.
開発環境/Development Environment
- PyTorch, LangChain, OpenAI API, diffusers, torchserve, optuna, W&Bなど
・インフラ
- AWS, GCP, 社内GPUサーバー (A6000x16基)
・Webフロントエンド
- Vue, Typescript
・Webバックエンド
- Django, Python
- PyTorch, LangChain, OpenAI API, diffusers, torchserve, optuna, W&B, etc.
・Infrastructure
- AWS, GCP, In-house GPU servers (16 A6000 units)
・Web Frontend
- Vue, TypeScript
・Web Backend
- Django, Python
求める人物像/Ideal Candidate
- 継続的な学習が習慣になっている
- 仮説思考で物事を捉え、その検証を厭わない
-
自身と異なる専門性やバックグラウンドを持つ人とのコミュニケーションを楽しめる
-
オーナーシップを持って主体的に開発を進めることができる
-
Mantraの事業領域(マンガ, 言語, 機械学習)に強い関心がある
- Continuous learning is second nature to you
- You approach problems with a hypothesis-driven mindset and are not afraid to test your ideas
- You enjoy communicating with people who have different areas of expertise and backgrounds
- You can take ownership and drive development initiatives proactively
- You have a strong interest in Mantra’s business areas (manga, languages, and machine learning