機能

ink2tex: AIに数学の言語を理解させる

ink2texをご紹介します — あらゆる複雑さの手書き数式をクリーンなLaTeXとMathMLに変換する次世代モデル。従来のOCRでは達成できない精度を実現します。

2025年10月17日

Ink2TeX アーキテクチャ

本日、ink2texをご紹介します — 手書き数式をLaTeXとMathMLに変換する次世代のディープラーニングモデルです。これは集中的なR&Dの成果であり、コンピュータビジョン(CV)と自然言語処理(NLP)の交差点にある最も困難な課題の1つを解決する試みです。

問題: 数学は単なるテキストではない

通常のテキストとは異なり、数学的記法は線形ではありません。記号の位置がその意味を変える複雑な二次元構造です:

  • 下付き文字はベースラインの下に配置されます
  • 上付き文字は上に配置されます
  • 分数、根号、積分はネストされた垂直階層を作成します
  • 行列は表形式のグリッドの理解が必要です

既存のソリューションのほとんどは、乱雑な手書きや多段階の分数で「壊れて」しまいます。私たちは、トランスフォーマーの精度と最新のビジュアルエンコーダーの柔軟性を組み合わせることで、このギャップを埋めるためにink2texを作成しました。

内部構造: ピクセルから意味論へ

標準的な「記号を認識 → 文字列を組み立てる」アプローチの代わりに、ink2texは数式全体を意味論的オブジェクトとして認識します。私たちは古典的なimage-to-sequenceパイプラインを再設計し、空間的関係の保持に特に注意を払いました。

処理パイプラインは次のようになります:

ink2texアーキテクチャ

アーキテクチャの主な特徴

ハイブリッドエンコーダー: 記号のエッジを鮮明にするための畳み込みネットワーク(CNN)と、グローバルコンテキストを理解するためのVision Transformer(ViT)を組み合わせて使用しています。これにより、モデルは非常に乱雑な手書きでもx2x^2x2x_2を区別できます。

ハイブリッドエンコーダー

アテンションメカニズム: デコーダーは次の記号を単に「推測」するのではなく、トークンを生成する際に画像の特定の領域を「見て」います。モデルが\fracを書く場合、分子と分母に同時に注意を集中させます。

構文検証: 後処理段階では、出力されるLaTeXコードの妥当性を保証するアルゴリズムを使用しています(括弧のバランス、環境の閉じ)。

トレーニングとデータ

今日のML開発における主な課題は、質の高いデータです。ink2texのトレーニングのために、以下を含む独自のデータセットを収集しました:

100万以上の実際の手書きサンプル 学生と研究者から収集。

合成生成: 数百万のLaTeX数式をレンダリングし、紙の歪み、インクのぼかし、ランダムな回転、遠近法の歪みなどの効果を適用するエンジンを作成しました。

モデル学習プロセス

これにより、モデルは照明不良、斜めからの携帯電話撮影、取り消し線に対して堅牢になります。

開発戦略

現段階では、ink2texは当社の内部製品のコアとして機能しています。なぜローンチ時にクローズドAPI戦略を選択したのでしょうか?

更新速度: エラーテレメトリに基づいて、毎週モデルの重みを更新しています。

品質保証: モデルは当社のGPUクラスターでの高負荷推論用に最適化されています。複雑な環境を設定することなく、ユーザーがミリ秒単位で結果を得られることを保証したいと考えています。

私たちは、質の高い開発者ツールに対する市場のニーズを理解しています。2026年第2四半期にサードパーティの教育および科学サービス向けにAPIを公開する予定です。

次のステップ

数式認識は始まりに過ぎません。私たちはすでに、ink2texが画像をコードに変換するだけでなく、その意味を理解できるように取り組んでいます:数学的正確性のチェック、方程式の段階的解法、化学構造のサポート。

私たちは、手動でのLaTeX入力は過去のものになるべきだと信じています。数学は創造性であり、組版ではありません。


ブログで最新情報をフォローし、ink2tex.onlineでベータテストに参加してください