Shivam Garg,印度德里的开发者
Shivam is available for hire
Hire Shivam

Shivam Garg

验证专家  in Engineering

计算机视觉工程师和开发人员

Location
Delhi, India
至今成员总数
August 1, 2023

Shivam是一名高级人工智能工程师,在深度学习和人工智能(AI)领域拥有4年以上的实践经验。. 精通TensorFlow等各种深度学习框架, PyTorch, and Keras, 他擅长生成式人工智能, 稳定的扩散, 和大型语言模型(llm). Furthermore, Shivam因其在经典计算机视觉和机器学习方面的广泛专业知识而脱颖而出.

Portfolio

Self-employed
Python,生成人工智能(GenAI),稳定扩散...
Avatarin Inc
3D重建,Python,计算机视觉,OCR...
AlphaICs
Python,深度学习,量化,计算机视觉,TensorRT...

Experience

Availability

Part-time

首选的环境

Python, PyTorch, TensorFlow, Deep Learning, 生成式人工智能(GenAI), 稳定的扩散, 计算机视觉, 自然语言处理(NLP), Docker, LangChain, 大型语言模型(llm), 机器学习, Data Science, 图像生成, Chatbot, Chatbots, 生成预训练变压器(GPT), OpenAI GPT-3 API, 生成预训练变压器3 (GPT-3), Notion, APIs, 软件架构, Events, LSTM, BERT, 强化学习, Falcon, 2D, JavaScript

最神奇的...

...我交付的生成式人工智能模型使用稳定的扩散和LLMs来动画新闻文章中的故事,并帮助获得Y Combinator的资金.

工作经验

高级人工智能顾问

2023 - PRESENT
Self-employed
  • 利用ControlNet开发了一个稳定的扩散模型,将草图转换为具有姿态输入条件的逼真图像. 通过Lora对交叉注意层进行调整,以优化训练模型的空间要求.
  • 使用稳定扩散和llm提供生成式AI模型, 能够从新闻文章中生成动画故事, 是谁为客户获得了Y Combinator的融资.
  • 开发了一种独特的方法,通过对未配对的动物图像进行GAN训练,将动物图像转换为动画, 利用StyleGAN架构, 并使用CLIP和特征提取器增强输出.
  • 构建了一个系统,通过稳定扩散和深度估计,使用选择性3D喷漆将非可替换代币(nft)的2D图像转换为3D模型.
  • 使用微调等技术开发文本到美术的系统, autoencoders, 快速工程, 成功地从文本描述中生成具有视觉吸引力的艺术.
  • 在印度创建了一个使用ML和自然语言处理(NLP)来检测和分类假新闻的系统. 预处理文本数据, 采用SetFit和长短期记忆(LSTM)模型, 并创造了一个精确识别的集合.
  • 使用Langchain的OpenAI ada模型嵌入和FAISS构建了一个工具,可以在美国专利商标局(USPTO)的数据库中搜索类似的专利,改进了专利嵌入的索引和搜索.
  • 通过LLM (ada模型)将CLIP模型的视觉嵌入与ocr派生的文本嵌入进行比较,创建了一个电子商务产品匹配系统, 提高准确性和效率.
技术:Python,生成人工智能(GenAI),稳定扩散, Deep Learning, 计算机视觉, 自然语言处理(NLP), PyTorch, TensorFlow, Docker, LangChain, 生成预训练变压器(GPT), AWS IoT, Git, 生成对抗网络(GANs), 人工智能(AI), OCR, 谷歌云平台(GCP), 卷积神经网络, ChatGPT, OpenAI GPT-4 API, OpenAI GPT-3 API, 搜索引擎优化(SEO), OpenCV, 机器学习操作(MLOps), 亚马逊网络服务(AWS), 产品匹配, LoRa, 大型语言模型(llm), 扩散模型, NLU, 深度神经网络, 语言模型, MySQL, 机器学习, 统计分析, Data Analysis, 图像分析, Data Science, MongoDB, 图像生成, Chatbot, Chatbots, LlamaIndex, Django, Pandas, 生成预训练变压器3 (GPT-3), Llama 2, Text Analytics, Video & 音频处理, OpenAI, Notion, APIs, Haystack, 监督式学习, 无监督学习, Leadership, 软件架构, LSTM, BERT, 强化学习, Falcon, PEFT, 2D, JavaScript, 谷歌语音转文本API, Speech to Text

AI Engineer 3

2022 - 2023
Avatarin Inc
  • 创建了一个系统,通过模仿学习和OpenCV辅助人类汉字书写,使用汉字视频生成汉字图像,预测机器人手臂的姿势.
  • 耶鲁大学的自动健康记录和发票, 利用OCR和OpenCV从各种健康文档中提取文本,并将其转换为数字格式.
  • 实现了一个使用VideoMAE检测机场可疑活动的模型. 它优先考虑在客户端的Linux服务器上进行高精度、低延迟和高效的部署.
  • 镜头检测使用YOLOv5, OpenCV用于对象检测, 和VideoMAE为世界乒乓球组织在TT比赛中进行击球识别.
Technologies: 3D重建,Python,计算机视觉,OCR, 自然语言处理(NLP), 对象检测, 图像处理, Benchmarking, OpenCV, 亚马逊网络服务(AWS), Text to Image, 大型语言模型(llm), 扩散模型, 深度神经网络, ChatGPT, OpenAI GPT-4 API, 语言模型, MySQL, 机器学习, 统计分析, Data Analysis, 图像分析, Data Science, MongoDB, 图像生成, Chatbot, Chatbots, LangChain, LlamaIndex, Django, Pandas, 生成预训练变压器(GPT), OpenAI GPT-3 API, 生成预训练变压器3 (GPT-3), Text Analytics, Video & 音频处理, OpenAI, HubSpot, Notion, APIs, HubSpot CRM, Haystack, C++, 监督式学习, 无监督学习, Leadership, 软件架构, Events, LSTM, BERT, 强化学习, Falcon, PEFT, 2D, 谷歌语音转文本API, Speech to Text

高级人工智能工程师

2020 - 2022
AlphaICs
  • 利用一阶模型实现了一个运动传递系统, 在保持目标面部的身份和面部表情的同时,实现面部之间的高质量运动转移.
  • 构建了4位和8位量化软件开发工具包(SDK), 能够在边缘(基于cpu的)硬件上高效地实现和优化深度学习模型, 哪些增强了性能和功能.
  • 使用针对物联网和自定义边缘设备的定制量化和优化SDK对不同的计算机视觉和生成模型进行基准测试.
  • 使用深度学习进行脑图像分割, 其中包括训练神经网络来准确识别和分类与阿尔茨海默病有关的大脑图像中的结构. 我使用了分割和计算机视觉技术.
  • 推出了一款使用激光雷达数据和VoxelNet算法的自动驾驶汽车3D目标检测和跟踪系统, 增强车辆在3D环境中的感知和跟踪能力.
  • 利用你只看一次(YOLO)架构开发了红外目标检测系统, 在红外图像中实现对目标的高精度探测,提供可靠的识别和跟踪能力.
  • 创建了一个卫星图像分割系统,用于使用U-Net和Mask R-CNN模型的级联来检测农田, 改善农业分析和决策过程.
技术:Python,深度学习,量化,计算机视觉,TensorRT, 持续发展(CD), 持续集成(CI), Models, PyTorch, TensorFlow, Keras, FastAPI, Fast.ai, GPT, 你只看一次(YOLO), 人工智能(AI), 谷歌云平台(GCP), 卷积神经网络, 图像处理, Benchmarking, 亚马逊网络服务(AWS), 大型语言模型(llm), Text to Image, 扩散模型, 深度神经网络, 语言模型, MySQL, 机器学习, ETL, 统计分析, Data Analysis, 图像分析, Data Science, OpenCV, iOS, 图像生成, Chatbot, Chatbots, Pandas, 生成预训练变压器(GPT), Text Analytics, Video & 音频处理, OpenAI, HubSpot, Notion, APIs, Haystack, C++, 监督式学习, 无监督学习, Leadership, 软件架构, Events, LSTM, BERT, 强化学习, Falcon, PEFT, 2D, JavaScript, 谷歌语音转文本API, Speech to Text

机器学习工程师

2019 - 2020
UnrealAI
  • 使用OpenPifPaf在Android平台上开发并部署实时瑜伽姿势估计, 获得准确的印度瑜伽姿势的结果. 优化推理速度,将模型转换为TensorFlow Lite格式,实现无缝集成.
  • 创建主题建模模型, 利用LDA和NMF算法从文本语料库中提取潜在主题, 并应用聚类算法对相似主题进行分组, 提供对文本文档更好的理解和组织.
  • 建立了一个计算机视觉系统,可以准确地检测厨房里的物品, 具有高精度和低延迟. 该系统针对移动设备的实时性能进行了优化.
  • 使用监督异常检测集合检测所得税欺诈, 无监督clusterin, 以及基于规则的回溯.
技术:计算机视觉, PyTorch, TensorFlow, TensorFlow光, 持续集成(CI), 持续发展(CD), Flask, Deep Learning, 姿态估计, 开放神经网络交换(ONNX), 自然语言处理(NLP), 机器学习, 人工智能(AI), 卷积神经网络, 深度神经网络, 语言模型, MySQL, ETL, 统计分析, Data Analysis, 图像分析, Python, 大型语言模型(llm), Data Science, MongoDB, OpenCV, iOS, 图像生成, Django, Pandas, Text Analytics, Video & 音频处理, Notion, APIs, HubSpot CRM, Haystack, C++, 监督式学习, 无监督学习, Leadership, 软件架构, Events, LSTM, 强化学习, Falcon, 2D, JavaScript, 谷歌语音转文本API

法律聊天机器人与RAG,松果集成,流光用户界面,和GPT-4

在这个项目中, 我们利用OpenAI的GPT-4开发了一个合法的聊天机器人, LangChain, 检索增强生成(RAG)模型, 与松果数据库集成,并使用Streamlit为用户界面开发, 所有这些都建立在可扩展的Azure架构上. 这个聊天机器人的设计目的是提供精确和上下文敏感的法律建议, 采用Azure OpenAI GPT-4系列, GPT-35-Turbo系列, 嵌入用于自然语言理解的系列模型和用于无缝会话AI的LangChain. 在azure AI studio上微调模型,并通过将llm与其他azure服务连接来增强模型功能, 比如Azure AI搜索.

个性化艺术生成机器人

开发了一个机器人,帮助用户根据他们与机器人的互动和用户提供的图像生成自定义艺术. 为此,需要一个大型语言模型(LLM),特别是GPT-3.5、被用作机器人的基础. Further, 实现了软提示管道, 考虑用户之前的互动,以准确捕捉用户的语气. Notably, 该系统展示了处理用户特定数据的能力, 包括NSFW和成人内容, 同时保持严格的用户隐私. 在图像生成方面,稳定的扩散 2.我使用Lora进行了微调,结合了LLM推荐的主题和提示.

NFT图像到沉浸式3D

开发了一种系统,通过稳定扩散和深度估计技术,将nft的2D图像转换为沉浸式3D模型.

选择性三维补图涉及到在二维图像中填充缺失或损坏区域的高级过程, 从而产生一个完整的和视觉上吸引人的3D表示. 这种技术有助于提高生成的3D模型的整体质量和真实感.

深度估计是该系统的另一个关键组成部分,因为它可以从2D图像中确定空间深度信息. 这种深度信息对于在生成的3D模型中创建深度感和视角至关重要.

通过利用稳定扩散, 系统保证了稳定一致的发电过程, 从nft的2D对应物中提供高质量和准确的3D表示. 由此产生的3D模型可以显著丰富用户在各种应用中的观看和交互体验, 从虚拟画廊到增强现实环境.

从新闻到信息图表

利用稳定扩散和llm技术,成功交付了生成式AI模型. 这种模式能够从新闻文章中获得生动的故事,并帮助客户获得了Y Combinator的成功融资.

这个过程从新闻文章开始,首先使用GPT-3进行总结.5 Turbo和Davinci,由LangChain协助. 随后,视频生成使用微调稳定扩散2.1技术,导致引人入胜的和动态的视觉呈现的新闻故事.

瑜伽姿势矫正

开发并部署了一个基于Android平台的实时瑜伽姿势估计与校正系统, 利用OpenPifPaf模型. 主要目标是实现对各种印度瑜伽姿势的精确和可靠的识别. 一个主要的重点是致力于优化系统的推理速度,以确保在现场瑜伽课程中无缝和实时的性能.

经过深思熟虑的训练模型被量化并转换为TensorFlow Lite格式,以增强可用性和集成. 这种转换简化了将模型整合到Android应用程序中的过程, 为瑜伽爱好者提供一个用户友好的工具来完善他们的练习,并深入了解不同的姿势.

边缘的全整数量化感知训练系统与方法

开发了一个全整数量化感知训练系统. 该系统提高了深度学习网络在低精度设备上的速度和性能.
我开发了伪交叉熵损失函数,并设计了量化方案,用于纯整数量化感知训练. Additionally, 开发了一个SDK,使该系统能够在低功耗边缘计算设备上使用. 该SDK已经成功地用于量化Jetson和供应商定制硬件上的模型.

假新闻分类

利用机器学习和自然语言处理技术,在印度开发了一个检测和分类假新闻文章的系统.

该项目涉及预处理文本数据, 采用SetFit模型和LSTM, 开发SetFit和LSTM的集合来准确识别假新闻.

此外,使用k-means聚类对假新闻的类型进行聚类. 最终目标是创建一个可靠的工具来打击错误信息的传播. 这个项目使用的环境包括Linux, TensorFlow, k - means聚类, scikit-learn, Python, and SetFit.

数学方程的文本到视频生成

开发了一个鲁棒的扩散模型,能够解释数学方程的英文文本描述并生成准确的, 相干视频表示.
建立了一个工具,可以帮助教育设置, 为学生和教育工作者提供视觉辅助,以更好地理解和交流复杂的数学概念
实现了高级优化技术,以改善模型在延迟和内存占用方面的性能, 使其对实时应用程序更有效和可访问

Languages

Python, c++, Falcon, JavaScript, Bash Script

Frameworks

Flask, LlamaIndex, Django, Streamlit

Libraries/APIs

PyTorch, TensorFlow, Scikit-learn, SpaCy, OpenCV, Pandas, LSTM, 谷歌语音转文本API, Keras, Fast.ai

Tools

你只看一次(YOLO), Git,概念,干草堆,亚马逊SageMaker,谷歌吟游诗人

Paradigms

Data Science, ETL, 持续发展(CD), 持续集成(CI), 搜索引擎优化(SEO)

Platforms

Docker, AWS IoT, 谷歌云平台(GCP), AWS Lambda, Amazon EC2, iOS, Linux, 亚马逊网络服务(AWS), Azure

Storage

MySQL, MongoDB,数据库

Other

Deep Learning, 生成式人工智能(GenAI), 稳定的扩散, 计算机视觉, 自然语言处理(NLP), Quantization, Models, TensorFlow光, 机器学习, LangChain, Statistics, 深度估计, Time Series, Hugging Face, Detectron, 生成预训练变压器(GPT), GPT, 大型语言模型(llm), 人工智能(AI), OCR, 卷积神经网络, 图像处理, ChatGPT, OpenAI GPT-4 API, OpenAI GPT-3 API, Text to Image, 扩散模型, NLU, 深度神经网络, 语言模型, 统计分析, Data Analysis, 图像分析, 图像生成, Chatbot, Chatbots, 生成预训练变压器3 (GPT-3), Llama 2, Text Analytics, 模型开发, Video & 音频处理, OpenAI, HubSpot, APIs, HubSpot CRM, 检索增强生成(RAG), 监督式学习, 无监督学习, Leadership, 软件架构, Events, BERT, 强化学习, PEFT, 2D, Speech to Text, TensorRT, FastAPI, 姿态估计, 三维重建, DreamBooth, LoRa, 生成对抗网络(GANs), k - means聚类, Edge AI, Quantisation, 开放神经网络交换(ONNX), Prunning, Benchmarking, 对象检测, 机器学习操作(MLOps), 产品匹配, 提示工程, ControlNet, Gradio, Civitai, Videos

2016 - 2020

计算机科学学士学位

信息,通信和技术学院-德瓦尔卡,德里,印度

有效的合作

如何使用Toptal

在数小时内,而不是数周或数月,我们的网络将为您直接匹配全球行业专家.

1

分享你的需求

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.
2

选择你的才能

在24小时内获得专业匹配人才的简短列表,以进行审查,面试和选择.
3

开始你的无风险人才试验

与你选择的人才一起工作,试用最多两周. 只有当你决定雇佣他们时才付钱.

对顶尖人才的需求很大.

Start hiring