V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jiangziheng
V2EX  ›  数据库

大量上报信息,是存 InfluxDB 还是存 Doris 中 ?

  •  
  •   jiangziheng · 2024-05-29 09:29:19 +08:00 · 2531 次点击
    这是一个创建于 374 天前的主题,其中的信息可能已经有所发展或是发生改变。
    1. 设备每分钟上报一次数据,数据大小 200 字节
    2. 设备数量 1w->10w->50w.
    3. 前期数据保存半年,后面只存三个月。
    4. 业务想要个设备列表,展示最新的上报数据。

    目前想存入 Doris 中,数据进行压缩,别的还没考虑好。大佬们有啥好的方案么?

    第 1 条附言  ·  2024-05-29 14:03:27 +08:00
    想了下,
    查询设备列表最新状态,查上一分钟内的所有上报数据(设备一分钟上报一次),但这样离线的查不到。
    针对单个设备的历史数据查询,应该都没问题。
    暂无其他查询需求。
    13 条回复    2024-05-30 16:05:41 +08:00
    anonydmer
        1
    anonydmer  
       2024-05-29 09:31:38 +08:00
    这个场景应该优先时序库吧
    laikick
        2
    laikick  
       2024-05-29 09:36:56 +08:00
    InfluxDB 啊
    yeyang5211
        3
    yeyang5211  
       2024-05-29 09:39:15 +08:00
    看怎么查吧 物联网场景大多数适合时序数据库,不查的写文件里扔 oss 都行
    heiya
        4
    heiya  
       2024-05-29 10:05:10 +08:00
    展示最新的上报数据需要聚合之类( sum, count,group by ...)的操作吗?如果是,感觉 Doris 可以。
    xiaoer90
        5
    xiaoer90  
       2024-05-29 10:05:48 +08:00
    时序数据库:influxDB ,timescaledb ,TDengine
    Morriaty
        6
    Morriaty  
       2024-05-29 10:12:19 +08:00
    这东西看你的 read 需求
    1. read 实时性不高,同时要复杂的组合 filter 条件、join ,那就 hive
    2. read 实时性高,同时要复杂的组合 filter 条件,但不用 join ,上 influxDB
    3. 同条件 2 ,还需要文本搜索,上 ES
    4. read 实时性高,同时要复杂的组合 filter 条件、join ,那就 clickhouse
    qweruiop
        7
    qweruiop  
       2024-05-29 11:48:33 +08:00
    doris 和 clickhouse 都毫无压力。。。
    xueling
        8
    xueling  
       2024-05-29 15:06:13 +08:00
    这种设备上报的数据查询方式,一般是聚合统计指标或者按设备/时间查原始记录信息。实现方案很多,推荐:victoriametrics,timescaladb,hbase ,至于要不要选择 ck 或者 doris ,主要看查询的复杂程度。如果有比较多的维度字段,需要任意选择维度进行即席查询,可以使用 ck 或 doris 。如果维度字段很少,查询方式比较简单的话,那就不需要用 ck ,doris 。业务实现涉及很多数据指标,可以了解一下我的开源项目: https://github.com/xl-xueling/xl-lighthouse
    yjhatfdu2
        9
    yjhatfdu2  
       2024-05-29 15:57:06 +08:00
    clickhouse 里面可以再加一个物化视图,用 ReplacingMergeTree ,用设备 ID 去重时间戳做版本号,查询的时候再用 window 查询查每个 ID 时间戳最大的,这样就可以获得一个最新的数据,而且这个物化视图会异步的自动清理老数据,速度应该可以很快
    xianzhe
        10
    xianzhe  
       2024-05-29 21:18:55 +08:00
    如果没有数据处理的需要,只是简单的查询,influxdb 或者其他 LSM 类的数据库都可,没有必要上 Doris 白白浪费资源。基本赞同 6 楼的。
    VoiceEXONE
        11
    VoiceEXONE  
       2024-05-30 07:19:25 +08:00 via iPhone
    如果业务需要把数据进行计算,然后扔 grafana 维度报表分析,不做 join 的话 是直接读 influxDB 还是从 influx DB 分流备份的数据库?
    LDa
        12
    LDa  
       2024-05-30 09:23:05 +08:00
    influxdb 社区版默认并未提供集群解决方案 记得做好性能测试
    sampeng
        13
    sampeng  
       2024-05-30 16:05:41 +08:00
    其实集群不集群没啥关系。。只要做好备份。挂了能短时间拉起来,对业务影响没那么大就无所谓
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2870 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 03:59 · PVG 11:59 · LAX 20:59 · JFK 23:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.