嵌入式 AI 部署

一些会涉及的知识点

硬件架构与算力基础

  • ARM Cortex-A 架构(A53/A55等)

  • 可选加速器:NPU、DSP、GPU(OpenCL/ CUDA for Jetson)

  • 内存带宽、DDR 速度与限值

  • IRQ、DMA、Cache 行为(对性能影响巨大)

  • 异构系统架构:

    • i.MX93: A55 + Ethos-U65 NPU + M33

    • i.MX8MP: A53 + Vivante NPU + M7

模型能否跑、要不要量化、瓶颈在哪。

操作系统基础:Linux 嵌入式开发

  • Yocto / Buildroot 基础

  • 内核模块、设备节点、/dev

  • drivers → user space 的调用方式

    • sysfs、ioctl、mmap、udev

交叉编译与工具链

  • aarch64 / armhf 工具链

  • CMake、Make、Bazel 基本语法

  • 编译带 NEON 优化的库(OpenCV、libtorch、OpenBLAS…)

  • 生成 rootfs、copy 库与依赖

AI 推理引擎与框架

  • TensorRT(NVIDIA)

  • ONNX Runtime(通用)

  • 模型转换(PyTorch → ONNX → TFLite / NPU format)

  • 模型量化(INT8)

  • 模型裁剪(pruning)

  • 硬件加速 API

模型优化(Performance Optimization)

  • INT8 静态 / 动态量化

  • 模型裁剪

  • 降低分辨率/通道数

  • NEON SIMD 优化(A55 的必修课)

  • 多核并行(pthread, OpenMP)

异构多核通信(AMP)

最后更新于