跳至正文
首页 » 博客 » What is U-SQL?

What is U-SQL?

Microsoft通过引入u-sql语言 (旨在在Azure data Lake Store上运行的新查询语言),朝着简化大数据分析迈出了又一步。数据湖存储于9月宣布,是一个巨大的存储空间,用于分析大量非结构化数据。数据湖的预览版于12月初发布,为用户提供了一种新的,更快,更简单的方法来分析任何类型的数据。

微软显然旨在支持大数据和分析领域,正如7月首席执行官萨蒂亚·纳德拉 (Satya Nadella) 宣布的那样Cortana analytics是一种管理本地和云数据的手段。该套件与同名的Windows 10虚拟助手集成在一起 (该助手基于Halo系列中同名的AI角色 )。Cortana Analytics作为月度订阅提供,具有以下功能:

  • 可操作分析
  • 知觉智能
  • 快速和灵活
  • 安全且可扩展
  • 个人数字助理-Cortana

随着Cortana Analytics提供预测分析,而Azure Data Lake为所有非结构化数据提供了充足的存储空间,你会认为微软也不需要一种新的语言,特别是考虑到现有的大数据语言SQL仍然被许多开发人员使用。

SQL有什么问题?

基于SQL的标准语言易于使用,为广大开发人员所熟悉,是许多类型分析的强大工具。声明式方法为您本机处理缩放、并行执行和优化。

然而,问题在于它们的可扩展性模型和对非结构化数据和文件的支持通常是 “螺栓连接” 的,因此使用起来更加困难。例如,浏览文件中的数据等任务会变得更加耗时,因为在查询之前,需要创建cataloge对象来排列文件数据或远程源。

尽管基于SQL的语言是熟练的,但它们的构建和维护都很复杂,并且在编程模型中具有不同程度的一致性。他们需要大量的时间和精力投入到他们身上,即便如此,这也不能保证一个完整的最终结果。

介绍u-sql

为了解决这些问题,微软 “从头开始” 构建了他们的u-sql语言。U-sql是声明性SQL语言的演变,允许通过用C # 编写的用户代码实现本机可扩展性。这允许在多个领域实现完全统一: 统一声明式和自定义命令式编码体验,以及统一扩展语言功能的体验。

U-sql有点像一个巨大的钓鱼竿。Azure数据湖已经被关注了一段时间,但随着u-sql的加入,现在可以清楚地从湖中的数pb (100万GB) 的企业数据中找到有用的信息。

简化大数据分析

“我们听说许多数据工程师努力处理数据与今天的工具 …… 微软的目标是使大数据技术更简单,更容易获得尽可能多的人。

-Microsoft Hadoop产品营销经理Oliver Chiu

大多数组织至少已经拥有某种形式的大数据-无论是客户购买记录,音频还是媒体文件,无数不同的文件-但没有办法实际使用它。U-sql正在计划改变这一点。将标准SQL关键字与语法C # 表达式相结合,程序员可以安排来自非结构化源的数据或使用来自单个脚本的SQL。然后,用户可以将数据聚合为所需的表单,并将输出写入文件或表。此外,u-sql对于那些有SQL和C # 经验的人来说将是非常熟悉的,从而最大限度地减少了开发人员学习其他语言所需的时间。

当谈到语言的核心功能时,一些突出的领域如下:

  • 统一声明性查询与用户代码的表现力。
  • 统一了结构化和非结构化数据的查询。
  • 统一本地和远程查询。
  • 从一开始就提高生产力和敏捷性。

不是很完美

当涉及到u-sql和Azure Data Lake Store时,存在一些限制,因为Data Lake无法解决所有大数据用例。在Microsoft云中进行机器学习或流处理时,您必须熟悉其他Azure技术。

U-sql的专业性质也意味着,目前还不知道它是否适用于非Azure (或非Microsoft) 平台。我们所能做的就是希望答案是肯定的!</p