Satyanarayana is available for hire

Satyanarayana Annepogu

Verified Expert in Engineering

Database Developer

Location

加拿大安大略省多伦多

至今成员总数

October 25, 2022

Satya是一名高级数据工程师，拥有超过15年的IT经验，为银行和保险客户设计和开发数据仓库. 他擅长使用AWS和Azure数据工程堆栈设计和构建现代数据管道和流. Satya是使用AWS和Azure云数据技术交付企业数据解决方案现代化的专家.

Informatica Data Engineering Data Warehousing 数据仓库设计 Data Analysis Data Analytics Migration SQL ETL Data Pipelines 关系数据库 Databases Oracle 商业智能(BI)Data Integration

Portfolio

Millicom国际移动电话SA - Main

数据工程，亚马逊网络服务，大数据，Spark, SQL, Python...

海姆斯登服务公司

Azure数据工厂，数据工程，数据管道，SQL...

IBM

亚马逊CloudWatch、亚马逊RDS、亚马逊S3 (AWS S3)、亚马逊EC2...

Experience

ETL工具- 14年 Python - 4 years AWS胶水- 4年 Azure Synapse - 4年 Apache气流- 4年 Redshift - 4 years Azure Databricks - 4年亚马逊网络服务(AWS)——4年

Availability

Part-time

首选的环境

Apache气流，AWS胶水，Azure Synapse, ETL实现 & Design, Amazon S3 (AWS S3), Databricks, AWS Lambda, Python 3, Data Engineering, Big Data, Python, APIs, REST APIs, SSH

The most amazing...

...我做过的项目是设计, developing, 并支持基于云的和传统的数据仓库应用程序.

Work Experience

Data Engineer

2023 - 2023

Millicom国际移动电话SA - Main

使用AWS Glue和Apache Airflow编排复杂的数据工作流, 确保ETL流程的有效和及时执行.
实现了动态和可扩展的数据管道，可以无缝地适应数据量的波动, 提高系统的可靠性和性能.
架构Lambda函数支持实时数据处理, 提供即时洞察和分析功能.
已建立的事件驱动架构, 允许自动缩放和资源优化, 从而产生响应迅速且具有成本效益的解决方案.
将S3实现为集中式数据存储库, 优化存储成本，简化数据访问. 利用S3的版本控制和生命周期策略等特性，确保数据完整性和高效的数据生命周期管理.
在数据处理管道中开发和应用复杂的业务规则, 用有意义的见解丰富分析层.
与业务涉众密切合作，以理解和实现特定于领域的规则, 确保处理的数据与业务需求精确一致.
进行了彻底的性能优化, 微调AWS胶水作业和气流dag，以最大限度地提高处理速度和资源效率.
实现可扩展的解决方案，以适应未来的数据增长, 为长期可持续性和适应性提供基础.

Technologies: 数据工程，亚马逊网络服务，大数据，Spark, SQL, Python, Scala, Apache Kafka, AWS Lambda, AWS Glue, Amazon S3 (AWS S3), 数据转换, 大数据架构, Amazon RDS, Message Queues, Redshift, Amazon Athena, Amazon Elastic MapReduce (EMR), APIs, REST APIs, Linux, SSH

Data Analyst

2022 - 2023

海姆斯登服务公司

担任具有分析师技能的高级数据工程师，并从事ETL体系结构解决方案的工作.
执行需求评估并设计合适的数据流或数据批.
处理具有数据完整性的解决方案优化和端到端数据管道.
在AWS Glue中设计和开发ETL流程，以各种文件类型(JSON)迁移活动和API数据, ORC, 和Parquet)合并为Amazon RedShift.
设计和开发ETL流程，提取Salesforce数据并将其加载到Amazon Redshift.

Technologies: Azure数据工厂，数据工程，数据管道，SQL, 商业智能(BI), ETL Tools, 脚本语言, APIs, Data Wrangling, Amazon S3 (AWS S3), AWS Lambda, Spark, AWS Glue, Amazon EC2, Amazon Elastic MapReduce (EMR), Amazon RDS, Redshift, SQL存储过程, Amazon Aurora, Apache Airflow, Data Analysis, Data Analytics, Amazon CloudWatch, Amazon QuickSight, AWS数据管道服务, PostgreSQL 10, Azure SQL数据仓库(SQL DW), PostgreSQL, 数据库优化, 数据库体系结构, XML, CI/CD Pipelines, GitHub, Excel 2016, Tableau, 数据构建工具(dbt), NoSQL, Webhooks, BI Reporting, 数据库迁移, CDC, 数据驱动的仪表盘, DAX, Microsoft Power BI, Business Services, Apache Spark, Database Design, 数据库结构, 数据库事务, Transactions, MySQL, Microsoft Excel, Real Estate, Geospatial Data, OLTP, OLAP, DevOps, Data, 数据库生命周期管理, ETL Pipelines, Cloud, Jira, 实体关系, Amazon SageMaker, Data Feeds, Data Extraction, ETL实施 & 设计、ETL测试、大数据、Delta Lake、Spark SQL、Apache Kafka、消息队列、REST api、SSH

AWS Data Engineer

2020 - 2022

IBM

使用AWS服务(如S3、Glue和RedShift)设计和实现数据管道.
使用Python和SQL开发和维护数据处理和转换脚本. 使用AWS数据库服务(如RDS和DynamoDB)优化数据存储和检索.
使用AWS Redshift和Athena构建和维护数据仓库和数据湖.
使用AWS IAM和KMS实现数据安全和访问控制. 使用AWS CloudWatch和其他监控工具对数据管道和系统进行监控和故障排除.
与数据科学家和分析师合作，提供数据见解并支持他们的数据需求.
使用AWS Lambda和其他无服务器技术进行自动化数据处理和部署.
使用AWS Step Functions和其他工作流工具开发和维护ETL工作流. 了解最新的AWS数据服务和技术，并推荐新的解决方案来改进数据工程流程.

Technologies: 亚马逊CloudWatch、亚马逊RDS、亚马逊S3 (AWS S3)、亚马逊EC2, 亚马逊网络服务(AWS), AWS Glue, AWS IAM, Redshift, Amazon DynamoDB, Python, SQL, PostgreSQL 10, PostgreSQL, 数据库优化, Lambda Functions, 数据库体系结构, Elasticsearch, AWS云架构, XML, CI/CD Pipelines, GitHub, Excel 2016, Tableau, NoSQL, Webhooks, BI Reporting, CDC, Business Services, Apache Spark, Database Design, 数据库结构, 数据库事务, Transactions, Microsoft Excel, OLTP, OLAP, DevOps, Identity & 访问管理(IAM), Data, 数据库生命周期管理, ETL Pipelines, Cloud, Jira, 实体关系, Data Feeds, Data Extraction, Leadership, ETL实施 & 设计、大数据、Delta Lake、Spark SQL、Apache Kafka、消息队列、api、REST api、Linux、SSH

Azure数据工程师和数据仓库顾问

2018 - 2020

IBM

使用ADF设计和开发数据摄取管道，使用Databricks和notebook使用PySpark设计和开发处理层. 领导数据管道的规划、开发、测试、实现、文档和支持.
实施项目的各个方面, 包括使用ADF暂停和恢复Azure SQL数据仓库, ADF管道将业务规则用例作为CSV的可重用资产, fixed width, and excel files.
与客户和IBM ETL团队合作, 分析了本地基于informatica的ETL解决方案, 并使用Azure数据工厂管道和Azure Databricks PySpark和Spark SQL设计了ETL解决方案.
与技术和产品利益相关者合作，了解面向数据的项目需求，并帮助实现解决方案的Azure基础架构组件，作为解决方案的一部分，以创建CPD应用程序的第一个可用迭代.
使用PySpark和Spark SQL为各种复杂的数据转换需求编排和自动化管道poc.
使用PowerShell脚本实现管道自动化，使用Azure数据工厂和Azure Databricks对管道进行性能调优.

技术:Autosys, Azure数据工厂, Azure Databricks, Azure SQL, Azure SQL数据库, Azure Synapse, Data Engineering, SQL, Data Pipelines, JSON, ETL, t - sql (transact - sql), Python, Pipelines, Data Management, Azure, 维度建模, Data Lakes, Data Architecture, Microsoft SQL Server, Migration, Query Composition, 性能调优, 数据仓库设计, Data Warehousing, Databricks, 关系数据库, Databases, Analytics, Azure数据浏览器, Consulting, Python 3, CSV文件处理, XLSX文件处理, CSV, Postman, 商业智能(BI), ETL Tools, Data Migration, 脚本语言, Orchestration, Machine Learning, APIs, 技术项目管理, Kanban, ETL Development, Data Wrangling, Amazon S3 (AWS S3), Big Data, AWS Lambda, Spark, AWS Glue, 数据转换, Amazon EC2, Amazon Elastic MapReduce (EMR), Amazon RDS, Redshift, SQL存储过程, Normalization, Scala, Shell Scripting, Architecture, Data Integration, 谷歌云平台(GCP), Amazon Aurora, Apache Airflow, Data Analysis, Data Analytics, Pandas, 亚马逊网络服务(AWS), AWS IAM, Amazon CloudWatch, Amazon DynamoDB, PostgreSQL 10, Azure SQL数据仓库(SQL DW), PostgreSQL, 数据库优化, 数据库体系结构, XML, CI/CD Pipelines, GitHub, Excel 2016, Tableau, 数据构建工具(dbt), NoSQL, 数据库迁移, 数据驱动的仪表盘, DAX, Microsoft Power BI, Business Services, Apache Spark, Database Design, 数据库结构, 数据库事务, Transactions, MySQL, Microsoft Excel, OLTP, OLAP, Data, 数据库生命周期管理, ETL Pipelines, Cloud, Jira, 实体关系, Data Extraction, Leadership, ETL实施 & Design, ETL Testing, Delta Lake, Spark SQL, Apache Kafka, Message Queues, REST APIs, SSH, SQL Server集成服务(SSIS)

高级ETL顾问和团队领导

2009 - 2018

IBM

在高要求的环境中开发解决方案，并为其他团队成员提供实际指导. 负责复杂的ETL需求，设计和评估需求的完整性和准确性.
实现了基于informatica的ETL解决方案，满足严格的性能要求. 与产品开发团队和高级设计师合作开发架构需求，以确保客户对产品满意.
确定需求对ETL团队是否可行，并进行影响评估，以根据需求确定工作量的大小.
开发了整个软件开发生命周期(SDLC)项目计划，以实现ETL解决方案并确定资源需求.
协助并验证所有设计阶段可交付成果的解决方案设计和生产. 管理构建阶段和质量保证代码，以满足需求并遵守ETL体系结构. 解决困难的设计和开发问题.
为团队提供项目目标的远景, 确保讨论和决定导致结束, 保持健康的团队动力.
使团队熟悉客户需求, specifications, design targets, 开发过程, design standards, techniques, 以及支持任务执行的工具.
在塑造和完善ETL Informatica整体架构方面发挥了积极的主导作用. 识别、推荐和实现ETL过程和体系结构改进.

技术:Informatica ETL, Netezza, Autosys, Unix Shell脚本, IBM Db2, Data Engineering, SQL, Data Pipelines, JSON, ETL, Pipelines, Data Management, Informatica, Informatica Cloud, Data Modeling, 维度建模, PL/SQL, Data Architecture, 查询优化, Query Composition, 性能调优, Data Warehousing, 关系数据库, Databases, Analytics, Consulting, XLSX文件处理, CSV, 商业智能(BI), ETL Tools, 脚本语言, Orchestration, 技术项目管理, Kanban, ETL Development, Data Wrangling, SQL存储过程, Normalization, Shell Scripting, Architecture, Data Analysis, Data Analytics, Excel Macros, Pandas, 亚马逊网络服务(AWS), AWS IAM, Amazon CloudWatch, Amazon QuickSight, AWS数据管道服务, 数据库优化, 数据库体系结构, Oracle PL/SQL, PL/SQL Tuning, CI/CD Pipelines, Excel 2016, 数据库管理(DBA), 数据库结构, 数据库事务, Transactions, MySQL, Microsoft Excel, OLTP, OLAP, Data, 数据库生命周期管理, ETL Pipelines, Cloud, Jira, 实体关系, Leadership, ETL实施 & 设计、大数据、三角湖、Spark SQL、SQL Server集成服务(SSIS)

高级ETL开发人员

2008 - 2009

Genesys

为类型二维开发映射，用于更新已有的行和在目标中插入新行. 负责执行与不同流程相关的格式化报告.
创建和开发动态报告，如向上钻取和向下钻取、串联和并行. 分析生成、失败、等待和计划的报告数量.
生成的内置仪表板, failed, waiting, 还有关于一刻钟的报告, hour, day, month, and year.

技术:Informatica ETL, Unix Shell脚本, Control-M, Data Engineering, SQL, Data Pipelines, JSON, ETL, Pipelines, Data Management, Informatica, PL/SQL, Data Architecture, 查询优化, Query Composition, 性能调优, 数据仓库设计, Data Warehousing, 关系数据库, Databases, CSV, ETL Tools, Orchestration, Kanban, ETL Development, Data Wrangling, SQL存储过程, Shell Scripting, Data Integration, Excel Macros, 数据库优化, Oracle PL/SQL, PL/SQL Tuning, Excel 2016, 数据库事务, Microsoft Excel, OLTP, OLAP, Data, 数据库生命周期管理, ETL Pipelines, eCommerce, Data Extraction, ETL实施 & Design, Spark SQL

高级ETL开发人员

2007 - 2008

Magna Infotech Ltd

管理ETL开发和数据仓库应用程序支持活动.
获得了从维度建模到ETL设计的实践经验.
开发了用于更新现有行和在目标中插入新行的类型二维映射.

技术:Informatica ETL, Unix Shell脚本, Oracle, Data Engineering, SQL, Data Pipelines, ETL, Pipelines, Data Management, Informatica, 维度建模, PL/SQL, Data Architecture, Query Composition, 性能调优, 数据仓库设计, Data Warehousing, 关系数据库, Databases, ETL Tools, ETL Development, SQL存储过程, Excel Macros, Oracle PL/SQL, PL/SQL Tuning, ETL Pipelines, Data Extraction, ETL实施 & Design

Experience

TCR (Tool Client Rate)工作台

TCR Desk是一个基于网络的工具，为大中型企业客户提供权威的现金管理定价安排和联系信息. 商务联络中心, 客户关系经理, 以及现金管理销售人员使用该应用程序.

TCR Desk应用程序迁移解决方案利用Azure良好架构框架的最佳实践，并遵守客户端的Azure服务治理规则，以确保解决方案的安全性, resilient, highly available, and scalable. 这些设计原则适用于在客户端的Azure生产环境中实现. 同样的设计将在灾难恢复和没有高可用性和灾难恢复的低级环境中实现.

Contribution
•使用ADF设计和开发数据摄取管道，并使用PySpark使用Databricks和notebook设计和开发处理层.
• Led the planning, design, development, testing, implementation, documentation, 以及数据管道的支持.
•与ETL团队合作，包括客户和IBM.
•分析本地基于informatica的ETL解决方案，并使用Azure数据工厂管道设计ETL解决方案, Azure Databricks, PySpark, and Spark SQL.

客户盈利能力洞察(CPI)

商业银行客户盈利能力(BBCP)项目旨在为商业银行开发一个新的盈利能力分析平台，并将其应用范围从500万美元以上的信贷部门扩展到所有客户信贷部门.

Contribution
•在高要求的环境中开发解决方案，并为其他团队成员提供实际指导.
负责复杂的ETL需求和设计.
•实施基于informatica的ETL解决方案，满足严格的性能要求.
•与产品开发团队和高级设计师合作，制定架构要求，以确保客户对产品满意.
•评估要求的完整性和准确性.
确定ETL团队的需求是否可行.
•进行影响评估，并根据需求确定工作量的大小.
制定完整的SDLC项目计划，实施ETL解决方案并确定资源需求.
•在塑造和完善ETL Informatica整体架构方面发挥了积极的主导作用.

Achmea Solvency II

该项目旨在建立一套经修订的欧盟范围内的资本要求和风险管理标准，以取代目前的偿付能力要求. 它由四个版本组成.

《欧博体育app下载》规定，保险公司的所有重大风险都需要更加透明，以便能够计算出在不可预见的情况下需要保留多少资本作为保险. 在这些要求和法规的推动下，Achmea启动了价值管理计划.

一个重要的程序结果是通过集成的精算数据仓库实现了自动报告功能.
•版本1:人寿400保险
•版本2:非寿险
•版本3:ALI/AMIS
•释放-4:生命力

Contribution
•与建模师进行实际知识转移会议.
•领导设计各层的技术设计会议.
•分析功能设计文档，并为各个层准备分析表.
•广泛从事技术设计生成文档集的工作，并根据当前版本进行修改.

数据分析师- Azure数据工厂专业知识

我是一名高级数据工程师，拥有分析技能，从事ETL架构解决方案的工作, 需求评估, 设计合适的数据流或数据批. 此外，我还执行了解决方案优化和端到端数据管道的数据完整性.

Skills

Languages

SQL, Python, t - sql (transact - sql)， Python 3, Snowflake, XML, C, c++， Pascal, R, Scala

Frameworks

Apache Spark、Spark

Tools

Informatica ETL, Autosys, AWS Glue, Tableau, Spark SQL, Amazon Athena, Postman, Amazon Elastic MapReduce (EMR), Apache Airflow, AWS IAM, Amazon CloudWatch, Amazon QuickSight, GitHub, Excel 2016, Microsoft Excel, Jira, Control-M, Google Analytics, Power Query, Microsoft Power BI, Amazon SageMaker

Paradigms

ETL，维度建模，商业智能(BI)， OLAP, ETL实现 & 设计、看板、数据库设计、DevOps、数据科学

Platforms

Oracle, Azure, Databricks, 亚马逊网络服务(AWS), Amazon EC2, Apache Kafka, Linux, AWS Lambda, 谷歌云平台(GCP)

Storage

Netezza, IBM Db2, 数据库管理系统(DBMS), Data Pipelines, 关系数据库, Databases, PostgreSQL, SQL存储过程, Data Integration, 数据库体系结构, Oracle PL/SQL, NoSQL, 数据库事务, MySQL, 数据库生命周期管理, Azure SQL数据库, Azure SQL, JSON, Data Lakes, PL/SQL, Microsoft SQL Server, Redshift, Amazon Aurora, AWS数据管道服务, PostgreSQL 10, Amazon DynamoDB, 数据库管理(DBA), 数据库迁移, 数据库结构, OLTP, Apache Hive, SQL Server集成服务(SSIS), Amazon S3 (AWS S3), Datadog, Elasticsearch

Other

Azure Databricks, Unix Shell脚本, Informatica, Data Engineering, Pipelines, Data Management, Data Modeling, Data Architecture, Migration, Query Composition, 数据仓库设计, Data Warehousing, CSV文件处理, CSV, ETL Tools, 脚本语言, Orchestration, 技术项目管理, ETL Development, 数据转换, Normalization, Shell Scripting, Architecture, Data Analysis, Data Analytics, 数据库优化, PL/SQL Tuning, 数据构建工具(dbt), DAX, Transactions, Data, ETL Pipelines, Cloud, Data Feeds, Data Extraction, Leadership, Delta Lake, Azure数据工厂, Azure Data Lake, Azure Synapse, Azure SQL数据仓库(SQL DW), Informatica Cloud, 查询优化, 性能调优, Analytics, XLSX文件处理, Data Migration, APIs, Data Wrangling, Big Data, Amazon RDS, Excel Macros, Lambda Functions, 大数据架构, AWS云架构, CI/CD Pipelines, Webhooks, BI Reporting, CDC, 数据驱动的仪表盘, Business Services, Identity & 访问管理(IAM), 实体关系, Message Queues, SSH, Azure数据浏览器, Consulting, Machine Learning, Google Analytics 4, Data Visualization, Microsoft Power automation, Real Estate, Geospatial Data, AWS认证云从业者, Microsoft Azure, eCommerce, ETL Testing

Libraries/APIs

REST APIs, Pandas

Education

1998 - 2002

技术或电气工程学士学位

贾瓦哈拉尔尼赫鲁理工大学-海德拉巴，印度

Certifications

2023年6月- 2026年6月

AWS认证云从业者

AWS

2021年12月- 2022年12月

Azure数据工程师

Microsoft

2021年8月至今

微软Azure基础

Azure

有效的合作

如何使用Toptal

在数小时内，而不是数周或数月，我们的网络将为您直接匹配全球行业专家.

Share your needs

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.

Choose your talent

在24小时内获得专业匹配人才的简短列表，以进行审查，面试和选择.

开始你的无风险人才试验

与你选择的人才一起工作，试用最多两周. 只有当你决定雇佣他们时才付钱.

对顶尖人才的需求很大.

Start hiring