hive找出重复数据

hive找出重复数据

问:hive如何去掉重复数据,显示第一条
  1. 答:去重没问题啊,distinct 就好了,显示第一条可以用row_number函数,不同版本hive的row_number有所不同,你自己查一下吧,row_number可以对同一个key从1开始编号的。
问:##Hive数据去重
  1. 答:Hive数据去重 - 菠萝大数据梦工厂(Free World) - 博客频道 -
    insert overwrite table ta_customers
    select t.ta_id,t.ta_date from
    ( select ta_id,
    ta_date ,
    row_number() over(distribute by ta_id sort by ta_date desc) as rn
    from ta_customers) t
    where t.rn=1;
    说明:
问:hive如何去掉重复数据,显示第一条
  1. 答:去重没问题啊,distinct 就好了,显示第一条可以用row_number函数,不同版本hive的row_number有所不同,你自己查一下吧,row_number可以对同一个key从1开始编号的。
hive找出重复数据
下载Doc文档

猜你喜欢