ink2tex: AIに数学の言語を理解させる
ink2texをご紹介します — あらゆる複雑さの手書き数式をクリーンなLaTeXとMathMLに変換する次世代モデル。従来のOCRでは達成できない精度を実現します。
2025年10月17日
本日、ink2texをご紹介します — 手書き数式をLaTeXとMathMLに変換する次世代のディープラーニングモデルです。これは集中的なR&Dの成果であり、コンピュータビジョン(CV)と自然言語処理(NLP)の交差点にある最も困難な課題の1つを解決する試みです。
問題: 数学は単なるテキストではない
通常のテキストとは異なり、数学的記法は線形ではありません。記号の位置がその意味を変える複雑な二次元構造です:
- 下付き文字はベースラインの下に配置されます
- 上付き文字は上に配置されます
- 分数、根号、積分はネストされた垂直階層を作成します
- 行列は表形式のグリッドの理解が必要です
既存のソリューションのほとんどは、乱雑な手書きや多段階の分数で「壊れて」しまいます。私たちは、トランスフォーマーの精度と最新のビジュアルエンコーダーの柔軟性を組み合わせることで、このギャップを埋めるためにink2texを作成しました。
内部構造: ピクセルから意味論へ
標準的な「記号を認識 → 文字列を組み立てる」アプローチの代わりに、ink2texは数式全体を意味論的オブジェクトとして認識します。私たちは古典的なimage-to-sequenceパイプラインを再設計し、空間的関係の保持に特に注意を払いました。
処理パイプラインは次のようになります:
アーキテクチャの主な特徴
ハイブリッドエンコーダー: 記号のエッジを鮮明にするための畳み込みネットワーク(CNN)と、グローバルコンテキストを理解するためのVision Transformer(ViT)を組み合わせて使用しています。これにより、モデルは非常に乱雑な手書きでもとを区別できます。
アテンションメカニズム: デコーダーは次の記号を単に「推測」するのではなく、トークンを生成する際に画像の特定の領域を「見て」います。モデルが\fracを書く場合、分子と分母に同時に注意を集中させます。
構文検証: 後処理段階では、出力されるLaTeXコードの妥当性を保証するアルゴリズムを使用しています(括弧のバランス、環境の閉じ)。
トレーニングとデータ
今日のML開発における主な課題は、質の高いデータです。ink2texのトレーニングのために、以下を含む独自のデータセットを収集しました:
100万以上の実際の手書きサンプル 学生と研究者から収集。
合成生成: 数百万のLaTeX数式をレンダリングし、紙の歪み、インクのぼかし、ランダムな回転、遠近法の歪みなどの効果を適用するエンジンを作成しました。
これにより、モデルは照明不良、斜めからの携帯電話撮影、取り消し線に対して堅牢になります。
開発戦略
現段階では、ink2texは当社の内部製品のコアとして機能しています。なぜローンチ時にクローズドAPI戦略を選択したのでしょうか?
更新速度: エラーテレメトリに基づいて、毎週モデルの重みを更新しています。
品質保証: モデルは当社のGPUクラスターでの高負荷推論用に最適化されています。複雑な環境を設定することなく、ユーザーがミリ秒単位で結果を得られることを保証したいと考えています。
私たちは、質の高い開発者ツールに対する市場のニーズを理解しています。2026年第2四半期にサードパーティの教育および科学サービス向けにAPIを公開する予定です。
次のステップ
数式認識は始まりに過ぎません。私たちはすでに、ink2texが画像をコードに変換するだけでなく、その意味を理解できるように取り組んでいます:数学的正確性のチェック、方程式の段階的解法、化学構造のサポート。
私たちは、手動でのLaTeX入力は過去のものになるべきだと信じています。数学は創造性であり、組版ではありません。
ブログで最新情報をフォローし、ink2tex.onlineでベータテストに参加してください