Visibo (202412 - 202501)

Posted on Jan 1, 1

项目介绍

一个增强海报阅读的移动投影机器人。在公共场所的海报阅读往往是一个公开的、互动的过程,但由于海报本身的静态性、有限的容量和密集的排版,使得其阅读仍然存在种种局限。

我们设计了一个移动投影机器人来弥补以上局限,包含三个主要设计特质:

  • 一个llm驱动的对话代理,跟用户就海报进行语音互动。
  • 对所讨论的海报内容进行字符级别精度的视觉增强:箭头、高亮、闪烁标志等。
  • 一个以概念图组织的扩展知识。

项目总结

跟师姐合作的第二个项目,谢谢师姐和导师,谢谢Z博和L同学,也谢谢所有参与实验的同学和老师们。这个项目并不在我的计划内,但却惊喜地成为了我的硕士阶段的第一个产出。Novobo给我的整体印象是”完整“,而Visiobo给我的整体印象则是“明确、快速”。师姐提出了一个初步的idea,在导师的指导下,我们很快就明确了要做什么。项目从开发、做实验到写论文,基本上就两个月左右的时间。在这个项目中,我再次训练了开发能力:包括LLM的搭建、前后端的联通以及检索和部署github上的开源项目;知道了用户实验的注意事项;写论文的能力也得到了很好的训练。

这次项目也有很多很多难忘的经历!例如第一次在纸上演算推出投影仪和海报之间的比例关系,第一次生成的高亮与文字精确地对齐(家人们谁懂啊那一刻🥹)。在3楼的小桌旁,导师跟我们一边讨论OCR,一边请我们吃砂糖桔桔🍊😈;在10楼的会议室里,导师一边帮我们分析用户实验的情况,一边吃光我们的小番茄🍅👿。在深夜的海底捞,第一次因为项目合作的问题跟师姐闹情绪,并崩溃大哭一小时🥹。最后阶段熬夜写论文的高压,提交后那晚的酒和电影。以及,最后两篇论文都中了的巨大喜悦。

这是一个非常非常有意思的项目,对我来说,也是一份非常幸运的礼物。

产出

  • 开源代码:TBA
  • 两篇会议短文:TBA