V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  wxf666  ›  全部回复第 31 页 / 共 36 页
回复总数  708
1 ... 23  24  25  26  27  28  29  30  31  32 ... 36  
2022-08-07 10:32:32 +08:00
回复了 shadow1949 创建的主题 程序员 SQL 苦手来请教各位大佬了。
@shadow1949 ,改写成了 MySQL ,将查询放进了一个视图中。

如果用 SQL 的话,以后一行「 select * from view_xxx 」就可得到结果了

使用前,记得将「调休」「非周末的其他假日」添加进『 holiday 表』



『「 select * from view_xxx 」结果』

  date    num   avg_5   avg_10
————— —— ———— ————
2022-09-01   12   12.0000   12.0000
2022-09-20   11   02.2000   01.1000
2022-09-21   05   03.2000   01.6000
2022-09-22   23   07.8000   03.9000
2022-09-23   42   16.2000   08.1000



『 MySQL 语法(排版原因,记得去掉每行开头的 全角空格)』


-- 节假日数据(默认周六周日是假日。若有调休、其他假日,在此表指定)
CREATE TABLE holiday(date DATE PRIMARY KEY, is_holiday BOOL NOT NULL) AS
  SELECT * FROM (
   VALUES
   -- 中秋放假
    ROW('2022-09-12', true),
   -- 国庆放假和调休
    ROW('2022-10-01', true), ROW('2022-10-04', true), ROW('2022-10-07', true),
    ROW('2022-10-02', true), ROW('2022-10-05', true), ROW('2022-10-08', false),
    ROW('2022-10-03', true), ROW('2022-10-06', true), ROW('2022-10-09', false)
 ) AS v(date, is_holiday);

-- 原始数据(日期、数据)
CREATE TABLE orig_data(date DATE PRIMARY KEY, num INT NOT NULL) AS
  SELECT * FROM (
   VALUES
    ROW('2022-09-01', 12), ROW('2022-09-03', 22),
    ROW('2022-09-20', 11), ROW('2022-09-21', 5),
    ROW('2022-09-22', 23), ROW('2022-09-23', 42),
    ROW('2022-09-24', 11)
 ) AS v(date, num);

-- 原始数据的各种平均值视图
CREATE VIEW avgs_of_data AS

  WITH RECURSIVE

  -- 根据原始数据的日期范围,生成日历
  -- (如果超过 1000 天,记得调整 cte_max_recursion_depth )
   calendar(date) AS (
    SELECT min(date)
     FROM orig_data
    UNION ALL
    SELECT DATE_ADD(date, INTERVAL 1 DAY)
     FROM calendar
    WHERE date < (SELECT max(date) FROM orig_data)
  ),
  
  -- 根据日历,生成工作日数据(日期、该天是否为工作日)
   workday(date, is_workday) AS (
    SELECT date, COALESCE(NOT is_holiday, weekday(date) < 5)
    FROM calendar LEFT JOIN holiday USING(date)
  ),

  -- 为每个工作日,计算最近 5 或 10 个工作日内的平均值(日期、数值、5 工作日均值、10 工作日均值)
   avgs_of_workday(date, num, avg_5, avg_10) AS (
    SELECT date, num,
       avg(COALESCE(num, 0)) OVER (ORDER BY date ROWS 4 PRECEDING),
       avg(COALESCE(num, 0)) OVER (ORDER BY date ROWS 9 PRECEDING)
     FROM workday LEFT JOIN orig_data USING(date)
    WHERE is_workday
  )

 -- 去除没有数据的工作日
  SELECT *
   FROM avgs_of_workday
  WHERE num IS NOT NULL;


MySQL 不支持在「窗口函数」中使用「 group_concat 」,所以没有「(11+5+23) / 5 」之类的结果了。

但对你的需求无影响,只是方便查看平均值的计算过程是否正确。
2022-08-06 02:22:48 +08:00
回复了 shadow1949 创建的主题 程序员 SQL 苦手来请教各位大佬了。
@shadow1949 搞出来了,『「一条」普通 SQL 语句』

不用「建表、存储过程、事务」,连 SQLite 都能胜任的,普通语句。

去掉「节假日数据」和「测试数据」后,大概 20 行


『 SQLite 语法(排版原因,记得去掉每行开头的 全角空格),改成 MySQL 应该也很容易』

WITH RECURSIVE

 -- 节假日数据(默认周六周日是假日。若有调休、其他假日,在此表指定)
  holiday(date, is_holiday) AS (
   VALUES
   ('2022-09-12', true),
   ('2022-10-01', true), ('2022-10-04', true), ('2022-10-07', true),
   ('2022-10-02', true), ('2022-10-05', true), ('2022-10-08', false),
   ('2022-10-03', true), ('2022-10-06', true), ('2022-10-09', false)
 ),

 -- 测试数据(日期,数据)
  test_data(date, num) AS (
   VALUES
   ('2022-09-01', 12), ('2022-09-22', 23),
   ('2022-09-03', 22), ('2022-09-23', 42),
   ('2022-09-20', 11), ('2022-09-24', 11),
   ('2022-09-21', 5)
 ),

 -- 九月份日历(此表有 30 行数据)
  calendar(date) AS (
   SELECT '2022-09-01'
   UNION ALL
   SELECT date(date, '+1 day')
    FROM calendar
   WHERE date < '2022-09-30'
 ),

 -- 根据日历,生成工作日数据(日期,该天是否为工作日)
  workday(date, is_workday) AS (
   SELECT date, COALESCE(NOT is_holiday, 0 + strftime('%w', date) BETWEEN 1 AND 5)
    FROM calendar LEFT JOIN holiday USING(date)
 )

-- 1. 根据工作日日历,测试数据中丢弃节假日的行,补充其他缺失工作日的行(这些新行的 num IS NULL )
-- 2. 利用范围为当前行及之前 4 行的窗口函数,按照日期顺序,滑动计算窗口内的平均值
-- 3. 丢弃第 1 步中,补充的行(即 num IS NULL 的行)

SELECT *
  FROM (
  SELECT date, num, avg(COALESCE(num, 0)) OVER win avg,
     format('(%s) / %d', group_concat(num, '+') OVER win, COUNT(*) OVER win) expr
   FROM workday LEFT JOIN test_data USING(date)
  WHERE is_workday
  WINDOW win AS (ORDER BY date ROWS 4 PRECEDING)
)
WHERE num IS NOT NULL;


『输出』

   date    num   avg      expr
————— —— —— —————————
2022-09-01   12   12.0  (12) / 1
2022-09-20   11   02.2  (11) / 5
2022-09-21   05   03.2  (11+5) / 5
2022-09-22   23   07.8  (11+5+23) / 5
2022-09-23   42   16.2  (11+5+23+42) / 5
2022-08-05 23:08:04 +08:00
回复了 shadow1949 创建的主题 程序员 SQL 苦手来请教各位大佬了。
@shadow1949 ,为嘛你第二条附言里的『 query sql 』,结果看着不太对呢?

id     date    num   avg_num
—— ———— ——— ————
01   2022-09-01   12   12.0000
13   2022-09-20   11   2.2000 『不应该是 11 / 1 = 11 么』
14   2022-09-21   05   3.2000 『(11+5) / 2 = 8 ?』
15   2022-09-22   23   7.8000 『(11+5+23) / 3 = 13 ?』
16   2022-09-23   42   16.2000 『(11+5+23+42) / 4 = 20.25 ?』


结果里缺失了『 2022-09-03 』『 2022-09-24 』,看来 24 楼里的问题,你的计划应该是『节假日不出现在结果列表里』

我总觉得可以『「一条」普通 SQL 语句』搞定这个问题。等我试试
2022-08-05 11:07:06 +08:00
回复了 shadow1949 创建的主题 程序员 SQL 苦手来请教各位大佬了。
@shadow1949 ,我还好奇一件事

假如表中就两项:

1. 2022-08-05 (周五) num: 100
2. 2022-08-06 (周六) num: 200

周六前五天,num 的平均值,你计划算出啥结果?

1. null
2. 不出现在结果列表
3. (100) / 1 = 100 (因为跳过周末)
4. (200 + 100) / 2 = 150 (因为包括当天)
2022-08-05 09:43:10 +08:00
回复了 shadow1949 创建的主题 程序员 SQL 苦手来请教各位大佬了。
马也,题目还有补充信息。。还要算节假日?
2022-08-05 09:39:14 +08:00
回复了 shadow1949 创建的主题 程序员 SQL 苦手来请教各位大佬了。
数据库新手试答一下

前面有大佬说了,任意连续 7 天必包含周六周日。只需算过去 7 天非周六周日的平均数即可

『 MySQL 语法(应该是这样吧)』:

WITH
  orig_data(date, num) AS (
   VALUES
    ROW('2022-07-29', 1), ROW('2022-07-23', 5),
    ROW('2022-07-30', 2), ROW('2022-07-21', 11),
    ROW('2022-07-31', 3), ROW('2022-06-11', 22),
    ROW('2022-08-01', 4), ROW('2022-06-10', 12),
    ROW('2022-08-02', 5),
    ROW('2022-08-03', 6),
    ROW('2022-08-04', 7),
    ROW('2022-08-05', 8)
 )

SELECT *,
    avg(CASE WHEN weekday(date) < 5 THEN num ELSE null END)
    OVER (ORDER BY date(date) RANGE INTERVAL 6 DAY PRECEDING) avg
  FROM orig_data


『结果』:

   date    num   avg
————— —— ————
2022-06-10   12   12.0000
2022-06-11   22   12.0000
2022-07-21   11   11.0000
2022-07-23   5   11.0000
2022-07-29   1   1.0000
2022-07-30   2   1.0000
2022-07-31   3   1.0000
2022-08-01   4   2.5000
2022-08-02   5   3.3333
2022-08-03   6   4.0000
2022-08-04   7   4.6000
2022-08-05   8   6.0000
2022-08-05 08:26:16 +08:00
回复了 shadow1949 创建的主题 程序员 SQL 苦手来请教各位大佬了。
『前五天』包括当天吗?比如,2022-07-23 『前五天』是( 23, 22, 21, 20, 19 )还是( 22, 21, 20, 19, 18 )?

『跳过周末,往前顺延』要将周末计算在内吗?比如,是(周一日六五四三二)还是(周一五四三二)?
2022-08-05 04:24:03 +08:00
回复了 UN2758 创建的主题 问与答 SQL 不会写了,求问一个简单 SQL 语句
@UN2758 2 楼 3 楼都是同一个思路『窗口函数』吧。。

都是计算出类似下表后,再取『排名 = 1 』的行:


班级 课程 选课数 排名
—— —— ——— ———
1 班 语文   2     1
1 班 数学   2     1
2 班 语文   2     1
2 班 数学   1     2
3 班 数学   2     1
3 班 语文   1     2
2022-08-04 20:51:19 +08:00
回复了 tangbj 创建的主题 程序员 求教, Excel 存储的题库,怎么快速生成题本和解析
@GodThemselves @tangbj 又搜了搜,大致瞅了瞅,

『 docxtpl 』这个 python 库可以做到类似 18 楼 那样,预先建一个『模板.docx 』,然后填充 3000 题,最后保存成新文件(有点类似 9 楼 说的邮件合并?)

实在要用 Excel 存数据的话,『 pandas 』应该能比较好地满足楼主的需求:读取 Excel 、根据条件筛选


话说 @tangbj ,你的原始数据长啥样的?

不知你是不是被『如何把所有题型塞一张表里』难住了。其实不一定要全部塞一张表里的
@bulay emm ,没有经验,连你的原始需求是啥都猜不出来。。等大神指点了
2022-08-04 17:15:06 +08:00
回复了 tangbj 创建的主题 程序员 求教, Excel 存储的题库,怎么快速生成题本和解析
@GodThemselves 文档生成这块,我也没啥经验

刚搜了搜,python 居然没有多少操控 markdown 的,几乎全是 markdown 转 html 的。。

虽说按楼主要求直接生成 markdown 很容易(还要处理下转义):

for index, pro in enumerate(problems):
  fp.write(f'{index + 1}.({pro.题型}){pro.题目}\n')
  if pro.题图:
   fp.write(f'![]({pro.题图})\n')
  for j, choice in enumerate(filter(None, (pro.A, pro.B, pro.C, pro.D))):
   fp.write(…)

但通用性太差了,专为楼主需求定制,没长进多少经验……

我自己的话,若想答,总想能干的更通用些,答案以后也更可能有用
@bulay Emm…… ssh 动态端口转发?
2022-08-04 16:48:54 +08:00
回复了 tangbj 创建的主题 程序员 求教, Excel 存储的题库,怎么快速生成题本和解析
@GodThemselves 看起来,你的源码和 @tangbj 的需求还有距离,比如:『要根据筛选条件,比如根据年份、根据难度等』、要包含目录』…… @tangbj 真要改起来,估计要学不少东西……

有可能做成一个 word 模板,python 按需填入吗?这样改起来方便,也能先用 word 自定义样式了


比如,『问题模板.docx 』:


(标题一样式,居中){{ 分类 3 }}

{{ for 问题 in problems }}

<word 的编号列表>({{ 问题.题型 }}){{ 问题.题目 }}

{{ if 问题.题图 is not None }}
{{ docx.添加图片(问题.题图) }}
{{ end }}

  A.{{ 问题.A }}
  B.{{ 问题.B }}
{{ if 问题.题型 != '判断题' }}
  C.{{ 问题.C }}
  D.{{ 问题.D }}
{{ end }}

{{ next }}



『答案模板.docx 』:


(标题一样式,居中){{ 分类 3 }}

{{ for 问题 in problems }}

<word 的编号列表>正确答案:{{ 问题.正确答案 }}   {{ 问题.年份 }}   {{ 问题.考点 }}

{{ 问题.解析 }}

{{ if 问题.解析图 is not None }}
{{ docx.添加图片(问题.解析图) }}
{{ end }}

{{ next }}
现在 Python 一般用多线程干啥呢?

应该干不了 CPU 密集型的活儿吧,那应该是 IO 密集型?

换做协程,会不会舒服点
2022-08-04 12:27:04 +08:00
回复了 cccmm 创建的主题 Python 不使用第三方包可以操作 excel 吗
要不你自己用 Office 内置的 VBA 宏实现呗
2022-08-03 18:00:58 +08:00
回复了 tangbj 创建的主题 程序员 求教, Excel 存储的题库,怎么快速生成题本和解析
@GodThemselves 看起来,要写的 python 代码只需输出 markdown ,

后续是由楼主的 markdown 转 pdf 工具来完成余下的工作(估计有自定义的 css ?),

这就很舒服啦~
2022-08-03 17:28:51 +08:00
回复了 guotao 创建的主题 问与答 设计个开发者专用的手机浏览器,会有这个需求吗?
chrome://inspect ?
2022-08-03 17:25:40 +08:00
回复了 tangbj 创建的主题 程序员 求教, Excel 存储的题库,怎么快速生成题本和解析
@tangbj 个人觉得,python 干这活儿会很快

有点怀疑,你这场景这么具体,真的能找到现成源码么。。

把路径当字符串存进数据库,很正常啊


我觉得,你放点数据出来,可能有人看着简单,顺手帮你写了代码也说不定
2022-08-03 16:50:13 +08:00
回复了 tangbj 创建的主题 程序员 求教, Excel 存储的题库,怎么快速生成题本和解析
@buliugu 3000 题,用不上多线程吧。。

就算数据库 B+树 3 层,3000 题每题都在不同页上,最差也就随机读 6000 页而已(第一层 root 页被缓存)

对于 SQLite 4K 一页,也就随机读 6000 次 4K

现在随便一个固态 4K 的 IOPS 都几万几十万了吧


实在不行,丢 RamDisk 呗,每题 1KB ,10W 数据大概也就占 100MB 内存吧

不想用 RamDisk ,SQLite 也有读取整个数据库文件至内存的选项
2022-08-03 16:29:00 +08:00
回复了 tangbj 创建的主题 程序员 求教, Excel 存储的题库,怎么快速生成题本和解析
咋觉得放进数据库里( SQLite 都行),写个小脚本,几秒钟都生成好了呢
1 ... 23  24  25  26  27  28  29  30  31  32 ... 36  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2559 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 21ms · UTC 10:32 · PVG 18:32 · LAX 03:32 · JFK 06:32
Developed with CodeLauncher
♥ Do have faith in what you're doing.