Kaoru Honda | 本多 郁
「課題はあるが、まだ手法が定まっていない」──そんな AI R&D フェーズから、仮説検証と定量評価を通じて技術的な意思決定を支援します。
Computer Vision と LLM / VLM の両軸で、R&Dチームの目標に対して個別テーマを担当・推進する AI 研究開発エンジニアです。論文調査・仮説立案・実験設計から実装評価・推論最適化まで一貫して内製化し、評価結果とデータ特性にもとづく改善判断を定量的根拠で支えます。
- Computer Vision R&D:Transformer / CNN ベースの異常検知・物体検知・セグメンテーション・エッジ検出・テキスト検出/認識・単眼深度推定などを、現場データ特性を踏まえて学習・改良・評価まで一貫支援
- LLM・VLM・RAG R&D:VLM によるドキュメント構造抽出・読解の評価設計、Advanced RAG の横並び比較と LLM-as-a-Judge 並走評価、ローカルLLM(Qwen3 等)の SFT / DPO 事後学習・vLLM 推論基盤対応
- Edge AI / NVIDIA:NVIDIA Jetson Orin / CUDA / TensorRT 環境での推論最適化(解像度設計・量子化・FP16 ビルド)。車載向け単眼深度推定で 最大2.8倍の高速化を達成
R&D への関わり方
R&D チームの目標に対して個別テーマを担当・推進し、論文調査〜仮説設計〜実装〜評価〜改善判断までを一貫して引き受けます。以下のような状況で貢献できます。
① 新領域の業務適用判断
「この新しい手法(VLM / ローカル LLM / 新 CV モデル等)は自社課題にどこまで効くか、ゼロショットでの上限はどこか、何と組み合わせる必要があるか」を切り分けるフェーズ。
- 論文調査・先行手法の原理検討
- 顧客課題に合わせた評価データ設計とゼロショット性能の定量検証
- 性能限界の特定と、CV × VLM ハイブリッド等の必要な組合せ戦略の提示
② 既存 R&D テーマの評価設計・改善判断
「モデルは動いているが評価指標と実運用要件がずれている」「失敗ケースが整理されていない」「改善が本当に効いているのか定量的に分からない」フェーズ。
- 評価指標と実運用要件の乖離分析
- 失敗ケースの定量分類・原因仮説化(前処理/損失関数/アーキテクチャ)
- 顧客データの特性に切り込んだモデル改良と比較実験
- 改善判断のループを定量的根拠で回す
③ 推論最適化・実装フェーズの設計判断
「精度を維持してエッジ環境で動かしたい」「複数の最適化レバーのうちどれが効くか整理したい」フェーズ。
- 解像度設計・量子化(INT8 PTQ)・TensorRT FP16 ビルドの段階検証
- 速度/精度/開発コストのトレードオフを共通条件下で定量比較
- 費用対効果の高い改善方針を設計指針として整理
いずれの状況でも共通する強み:仮説立案・実験設計・定量評価、評価結果とデータ特性にもとづく改善判断、失敗ケースの構造化。Computer Vision と LLM / VLM の両軸で横断的に提供します。
Services(提供できる技術領域)
1) Computer Vision R&D(評価・モデル改良)
Deep Learning / Transformer / CNN ベースの CV モデルを対象に、R&D フェーズの意思決定を支援します。
- 論文調査・アーキテクチャ理解を前提に課題を構造化
- 顧客データの特性に合わせてモデル内部に切り込み、学習・ファインチューニング・モデル改良を含む比較実験を実施
- 失敗ケースの定量分類と原因仮説化(前処理/損失関数/アーキテクチャ)
- 定量評価にもとづき、再現性のある評価レポート/設計指針として整理
- 応用例:異常検知・物体検知・セグメンテーション・エッジ検出・テキスト検出/認識・単眼深度推定
2) LLM・VLM・RAG R&D(評価設計・事後学習・推論基盤)
フロンティア VLM の評価実験から、ドメイン特化 RAG パイプライン構築、ローカル LLM の事後学習・vLLM 推論基盤対応まで、LLM / VLM 活用の R&D フェーズを横断して支援します。
- VLM ドキュメント構造抽出・読解の評価設計:ゼロショット性能の定量検証、CV × VLM ハイブリッド戦略の必要性を切り分け(P&ID / 日本語スライド等)
- RAG パイプライン構築・評価設計:Advanced RAG(Base / HyDE / RAG-Fusion / Hybrid / Rerank)の同一条件横並び比較、Ragas v0.4 多指標評価、LangChain / LangGraph / LangSmith による観測性
- LLM-as-a-Judge:性質の異なる複数 Judge 並走による信頼性担保(self-preference・モデル特性バイアス対策)
- ローカル LLM 事後学習・推論基盤対応:Qwen3 系などへの SFT / DPO / LoRA / QLoRA、vLLM 環境での推論動作保証要件(Chat Template、量子化 config、tokenizer_config 整備等)への対応
3) Edge AI / 推論最適化(NVIDIA Jetson / TensorRT)
Jetson Orin / TensorRT, PyTorch → ONNX → TensorRT における高速化・設計指針化。
- NVIDIA Jetson / CUDA エコシステム:Jetson Orin を中心に、NVIDIA GPU 上での推論最適化を実施
- TensorRT 最適化:解像度設計・量子化(INT8 PTQ)・TensorRT FP16 を段階検証
- 低レベル最適化の検証:cuDNN / cuBLAS / cuBLASLt などの tacticSources を制御し、速度差を定量評価
- 速度/精度/開発コストのトレードオフを整理し、設計指針として提示
- 実績:車載向け単眼深度推定モデル(DepthAnythingV2 系)で最大 2.8 倍の高速化
Selected Work
VLM によるドキュメント構造抽出・読解精度の評価実験(P&ID / 日本語スライドVQA) — ゼロショットでの性能限界と CV × VLM ハイブリッド戦略の定量検証(2026/02–継続中)
VLM Claude Opus 4.6 Claude Sonnet 4.6 GPT-4.1 Qwen2.5-VL-72B P&ID PID2Graph BusinessSlideVQA Pydantic 構造化出力 Gradio HuggingFace Spaces Claude Code
概要: 製造業の技術図面(P&ID:配管計装図)と日本語ビジネスドキュメントを対象に、 フロンティア VLM のゼロショット構造抽出・読解性能の限界を定量検証。 訓練データなしでどこまで構造化が可能かを、評価指標と実験設計の観点から切り分けました。
- P&ID 構造抽出(PID2Graph データセット, OPEN100, 12 枚): Claude Opus 4.6 + Pydantic 構造化出力で JSON グラフ抽出。 1-shot → タイル分割(2×2)→ seam filter と段階改善し、 ノード検出 F1 0.964(Large 図面)を達成。 図面サイズが大きいほどタイル分割の効果が顕著(ΔF1: Small +0.04, Medium +0.16, Large +0.26)。
- エッジ抽出(接続関係): F1 約 0.03。VLM はピクセルレベルの線追跡に弱く、ゼロショットでは実用にならないことを定量確認。 CV ベースの線検出・セグメンテーションとの組合せが不可欠との設計方針を導出。
- 日本語ドキュメント読解(BusinessSlideVQA, Stockmark 公開): Claude Sonnet 4.6 / GPT-4.1 / Qwen2.5-VL-72B の 3 モデル比較評価。
- 得られた知見: VLM は意味理解(Precision 0.94)に強いが空間網羅性(Recall)に弱い。 この特性は P&ID に限らず回路図・建築図面など構造化ドキュメント全般に適用可能な設計指針。
気象ドメイン特化型 Advanced RAG 評価アプリ(5 手法 × 2 Judge 並走)の構築 — ドメイン特化 RAG の手法選択を定量化(2026/01–継続中)
RAG Advanced RAG HyDE RAG-Fusion Hybrid (BM25+Dense) Rerank (Cohere) LangChain LangGraph LangSmith Ragas v0.4 LLM-as-a-Judge Chroma Gradio Hugging Face Spaces
概要: 固有名詞・略語が多く検索手法による精度差が出やすい気象ドメインを題材に、 5 種の RAG 手法を同一条件で横並び比較し、 性質の異なる 2 系統の Judge で並走評価する評価基盤を構築。 日本語版 Wikipedia ベース corpus(1,959 chunks)上で稼働中(Gradio + HF Spaces)。
- 定量結果: Rerank が 3 指標すべて 1 位。 context_precision で Base 比 +0.089(0.736 → 0.825)、answer_relevancy で +0.061。 Hybrid は本評価セットで明確な優位を示さず、corpus 構成依存の影響を確認。
- 2 Judge 並走(GPT-4o-mini × Claude Sonnet 4.6): Judge 単独運用時の順位判断リスクを可視化し、LLM-as-a-Judge の信頼性担保手法として有効性を定量確認。
- 転用可能性: 医療・法務・製造業マニュアルなど、他ドメイン特化 RAG にも適用可能な評価設計テンプレートとして整理。
ローカル LLM(Qwen3-4B)の事後学習・vLLM 推論基盤対応 — SFT / DPO による構造化出力の安定化(2025/11–2026/02)
Local LLM Qwen3-4B-Instruct-2507 SFT DPO TRL LoRA / QLoRA vLLM v0.13 AutoAWQ / AutoGPTQ 構造化出力(JSON / YAML / TOML / XML / CSV)
概要: クラウド型 LLM 利用が制限される環境(オンプレミス・機密性の高い業務・エッジリソース制約)を想定し、 小型 LLM(4B クラス)の事後学習による性能改善と vLLM 本番相当環境での推論動作保証要件への対応を実施。
- 事後学習: TRL を用いた SFT → DPO パイプラインを構築。 構造化出力(JSON / YAML / TOML / XML / CSV)の安定生成を目的に学習データを設計。
- vLLM 推論基盤対応: 公式 Docker イメージ(v0.13.0)での OpenAI 互換エンドポイント動作保証要件 (max-model-len, 量子化 config 自動認識, chat_template 整備, トークナイザー語彙変更禁止 等)に対応。
- 評価: 構造化出力タスクとマルチターンエージェントタスクの 2 系統で リーダーボード形式の相対評価を実施し、ハイパーパラメータ・学習データ設計を改善サイクルで回した。
- 得られた知見: 4B クラス LLM に対する SFT / DPO の効果と限界、 vLLM 環境での推論動作保証における設計制約の実務的理解を獲得。
車載向け 単眼深度推定(Transformer / DPT 系)の推論最適化 — Jetson Orin 上で最大 2.8 倍の高速化(2025/08–2026/01, NDA)
NVIDIA Jetson Orin CUDA TensorRT Edge AI PyTorch ONNX Transformer / ViT / DPT Monocular Depth Estimation DepthAnythingV2 系 自動運転・車載 INT8 PTQ / FP16
概要: 自動運転 / ADAS 領域で用いられる単眼深度推定モデル(DepthAnythingV2 系)を対象に、 再学習を行わず、推論側の設計変数に着目した Edge AI 向け最適化 R&D を実施。R&D チームの研究テーマとして評価・実験設計・改善判断・実装を担当しました。
- 実験設計(再学習なし):入力解像度の最適化/INT8 PTQ/ONNX → TensorRT (FP16) ビルド最適化を、Downscale → PTQ → TensorRT の順で影響を分離して比較
- 定量結果:解像度設計と TensorRT (FP16) 最適化により最大 2.8 倍の高速化を達成。INT8 PTQ は ViT / DPT 系で効果限定的(Attention / Softmax / LayerNorm がボトルネック)であることを定量確認
- NVIDIA スタック理解:TensorRT のビルド設定や内部実行計画(CUDA / cuDNN / cuBLAS 系)を設計変数として扱い、ブラックボックスにしない最適化判断を実施
- 知見の再現性:「高解像度 CV では解像度設計+推論バックエンド最適化を優先、量子化はモデル特性依存」の指針は物体検知・3D 認識など他モデルにも応用可能
製造業向け Computer Vision R&D(Deep Learning / CNN・Transformer ベース)(2022/09–2025/03, NDA)
Deep Learning CNN Transformer / ViT Computer Vision Edge AI TFLite / ONNX 教師なし異常検知 物体検知 セマンティックセグメンテーション エッジ検出 テキスト検出/認識 特徴点マッチング
概要:製造現場の厳しい撮像条件下における画像データを対象に、CNN および Transformer ベースの深層学習で異常検知・エッジ検出・テキスト認識などを支援。R&D チームの研究テーマに対し、先行手法の原理検討・実装評価・現場適用性の検証を担当し、CV チームの意思決定を定量的根拠で支える役割を継続しました。
- 原因分析:失敗例・誤検出を分析しボトルネックを仮説化(データ特性/前処理/モデル構造)
- 改良と学習:事前学習モデルを起点に学習条件・構成を調整し、必要に応じてアーキテクチャ・損失を含めて改良
- 定量評価:ケースごとに評価指標を揃え、改善効果を比較実験・再現性重視で検証
- エッジ視点:運用制約を踏まえた軽量化・形式変換(TFLite / ONNX)も含めて検討
データサイエンス/意思決定支援(要約)
- 時系列分析・因果推論(Convergent Cross Mapping / Granger 因果検定)・予測モデル(アパレル領域のトレンド分析・宿泊予約売上予測モデルの構築など)
- CIO(宿泊施設)として IT 戦略とデータ活用(2019–2022)
Product:SkyWalking(登山GPS・オフライン地図)
- 国土地理院 防災アプリコンテスト:防災アプリ賞(2016 / 2017)
Credentials(学位・所属・受賞・発表)
- 京都大学大学院 情報学研究科 社会情報学専攻 修士(M.S. in Informatics)
- 岐阜大学 気象データアナリスト養成プログラム 修了(気象庁・経済産業省認定, 2024 年度)
- 所属学会:人工知能学会 / 日本気象学会 / 気象ビジネス推進コンソーシアム(WXBC)
- 受賞:国土地理院 防災アプリコンテスト 防災アプリ賞(2016 / 2017)、文化庁メディア芸術祭 審査委員会推薦作品(2004)
- 著書(抜粋):『Papervision3D ではじめる Flash3D アニメーション』(技術評論社, 2009)ほか
発表(抜粋)
過去の発表(さらに表示)
Independent Research(自主研究)
業務とは独立して、純粋な科学的関心にもとづき取り組んでいる研究テーマです(成果の社会実装は分野全体として発展途上)。
MiniGraphCast:Toy スケール GraphCast による GNN 世界モデルの構造要因分解
- multi-mesh 構造 × processor depth の ablation で構造要因を定量分解
- 2026-03 に研究結果を東京大学にて発表、v2 を準備中
気象予報 AI(GraphCast / ECMWF AIFS など)の公開データ解析・評価
- GraphCast(GNN 型全球予報)の Colab デモ実行:推論→可視化→簡易評価の流れを確認
- AIFS(operational)と GraphCastGFS(experimental)の位置づけ整理と Open Data 取得
- Herbie + ERA5 を用いた「同一 init / 同一変数で比較する」評価パイプラインの試作(例:Z500, MAE / RMSE)
About
京都大学大学院 情報学研究科 修士課程修了(M.S. in Informatics)。2000 年代から途切れなくソフトウェア開発に携わり、時代の変化に合わせて技術領域を更新し続けてきました。2020 年頃より Deep Learning を基盤とした Computer Vision を主軸に、R&D チームの目標に対して個別テーマを担当・推進する形で、仮説立案・実験設計・実装評価・推論最適化(Edge AI)を支援。2023 年以降は LLM / VLM 領域に対象を拡張し、ローカル LLM(Qwen3 系)の SFT / DPO による事後学習・vLLM 推論基盤対応、フロンティア VLM のドキュメント構造抽出評価、Advanced RAG の比較評価設計までを実施しています。「評価指標と実運用要件の乖離分析」「失敗ケースの構造化」「複数 Judge 並走による信頼性担保」を CV / LLM 共通の差別化要素として、研究開発組織の意思決定を定量的根拠で支えています。気象予報 AI(GraphCast / ECMWF AIFS)についても業務と独立に継続的な調査・評価・自作(MiniGraphCast)と勉強会主催を行っています。
Timeline(主要)
Personal(趣味・座右の銘)
- 趣味:登山/水泳/テニス/旅行/京都探索/読書/ピアノ
- 関心:AI と人類・社会・文明/気候変動・脱炭素化社会・再生可能エネルギー・地球史
- 座右の銘:“Stay hungry, stay foolish.”