Coder Social home page Coder Social logo

busyplan's People

Contributors

waxz avatar zdx3578 avatar fzd9752 avatar yushenxiang avatar ricky1203 avatar

Stargazers

guard avatar  avatar Zhang JinXiong(张金雄) avatar chymgalois avatar eaves avatar theme avatar dinglong1020 avatar  avatar  avatar zhaoying9105 avatar Geff avatar

Watchers

 avatar James Cloos avatar  avatar Smirk avatar

busyplan's Issues

短期目标-gazebo

简单的测试环境
提供传感器数据接口,将原始数据处理成可用的数据类型发送给感知决策模块

  • 传感器基本信息:
    • 相机 几个?安装位置?像素?输出频率?
    • 激光雷达 几个?类型 32线 64线?输出频率?
    • 车辆运行状态:方向盘转角,车速,发动机转速,用于pid 控制
  • 传感器原始数据如何预处理?
    • 图像裁剪为多大尺寸、激光雷达数据如何对点云去噪,截取多大区域?
    • 不同传感器数据如何同步,对数据进行插值,按统一的频率输出?决策模块处理数据的频率?
  • 接口设计
    • 输出数据的数据量,输出频率
    • 通讯方式,同步异步,socket,tcp/ip,内存指针传递
    • 如何实现平台无关,可切换不同的环境如gazebo,torcs,真车

控制接口,接收决策模块的控制指令,方向盘转角、油门、刹车,将处理后的控制指令发送给执行器
gazebo,torcs,真车

  • 对控制指令的预处理
  • 决策模块发送指令是离散的,在两次指令的间隔期,该如何输出控制指令到执行器?
  • 对输入的指令如何处理,使指令比较平滑过渡。

predict VIDEO

目的:??(不知道和公司发展有什么关系,也不知道做出来能干什么……)

zdx:序列预测是智能非常重要的能力,对于AI非常重要,完全符合公司目标通用智能,做出了能增强现有神经网络的智能。
具体场景:大家一起想!避障,其他车辆意图的预测,torcs游戏验证?机器人自己动作的预测,常识学习。
原型验证ok,完善中再继续找应用的场景和产品的具体完善。


目标:搭建一个视频生成网络
要求:pix2pix 框架,基于GAN技术

:以上为主观因素


基本结构:

G:简易 3D_UNET 网络,初步大小64 x 64,目标大小 128 x 128
D:C3D 类似结构判别器

效果: 输入10帧视频,输出5帧视频


预计时间:总用时 8 周

  • 网络基础搭建 4 周:
    • W1: 论文清单论文和相关代码
    • W2 - W3: 简单主体结构G D搭建
    • W4: 试训练,看能否收敛
  • 网络调试:2周 确认网络有潜力后进一步增加复杂度
    • W5: 扩增网络
    • W6: 大数据及测试,pipeline顺畅
  • Demo 训练 + 测试: 2周
    • W7: 训练,调bug
    • W8: 测试目标数据集

15 号最新更新:
按张总的意思,换 Pytorch 框架,基于 pix2pix 原始代码修改修改。参考如下:

pix2pix pytorch 源代码:
https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix

一些 pytorch 3D 应用的实例:
https://github.com/shiba24/3d-unet
https://github.com/kenshohara/video-classification-3d-cnn-pytorch
https://github.com/kenshohara/3D-ResNets-PyTorch

pytorch 官方 Document:
http://pytorch.org/docs/master/nn.html
关键 operatoin:
3D deconvolution - torch.nn.ConvTranspose3d
3D convolution - torch.nn.Conv3d
3D maxpooling - torch.nn.MaxPool3d
3D dropout - torch.nn.Dropout3d

Keras 实现 已取消

计划注意:

  1. 计划列出的是最低时间,因为进度原因可能推迟

可能失败原因

  • 1. 因为现有目标数据集不符合pix2pix coniditional gan 分布的原理,生成图像可能无法毫无价值
  • 2. 3D convolution 耗费内存增大,最终模型以我们现有条件可能跑不起来
  • 3. 技术能力不足,耦合失败
  • 4. 公司调整方向,放弃

videogan资料

gan video 两周
第一周, 熟悉已有论文,选用一个算法复现。使用自己的数据集,调参。
第二周,分析隐变量的语义相关信息,自动驾驶的转向角度和z的关系 。

Depth Perception from Images

http://cs231n.stanford.edu/reports/2017/pdfs/200.pdf

1.multi-scale deep network, outperformed most other meth- ods in nearly every metric. Inspection of the output maps, however, shows that the images produced are extremely blurry. So while they are able to achieve low average er- ror, their utility for practical depth mapping applications is limited.
生成的深度图模糊,原因在于优化目标是平均像素误差。
2.CycleGAN is able to best retain the image features with clear definition, but often with high error in the depth-space representation.
生成深度图比较清晰,特征重建较好,而像素级误差较大,原因在于优化目标是特征级误差。
3.改进方向
设计损失函数,使其能同时优化像素级误差和特征级误差。

RGB2Depth

目的:验证现有模型预测深度的可靠性,为是否进一步改良模型提供依据。

  • Quantitative Evaluation, 量化方法,与其他方式对比
    重现已有模型,根据评估误差横向评估
    需要输出图像达到256x256

2.- [ ] Deeper Depth Prediction with Fully Convolutional Residual Networks upsampling to 640x480
https://arxiv.org/pdf/1606.00373.pdf
https://github.com/iro-cp/FCRN-DepthPrediction 代码不完整

4.Learning Depth from Single Monocular Images Using Deep Convolutional Neural Fields https://arxiv.org/pdf/1502.07411.pdf

6.Single-Image Depth Perception in the Wild
https://arxiv.org/pdf/1604.03901.pdf
https://github.com/wfchen-umich/relative_depth
7.Multi-Scale Continuous CRFs as Sequential Deep Networks for Monocular Depth Estimation
https://arxiv.org/pdf/1704.02157.pdf
https://github.com/danxuhk/ContinuousCRF-CNN
选用

KITTI 数据集深度预测

深度预测模型预测真实数据

前期研究证明p2p模型可以利用虚拟vkitti数据集预测深度,现在决定继续深入, 目的如下:

  • 1. 替换原先用于训练模型的vkitti,改用真实数据集
  • 2. 研究用预测深度转换为真实点云
  • 3. (op) 尝试用预测形成的点云进行sensor fusion 或 localization 的试验

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.