数据处理

数据处理在金融领域中占据核心地位,它是将原始数据转化为有价值信息的关键环节。在金融行业,数据不仅是数字的简单堆砌,更是一种洞察力和决策依据的来源。有效的数据处理能够揭示市场趋势、评估投资风险、优化资产配置、提升交易策略,并加强风险管理。在大数据时代,金融机构不仅需要收集和存储海量的数据,更需要通过高级算法和强大的计算能力对这些数据进行清洗、整合、分析和解释。数据处理技术的进步,如人工智能和机器学习,使得金融企业能够更准确地预测未来市场动向,为客户提供个性化服务,以及自动化和优化内部运营。因此,对于金融行业来说,掌握先进的数据处理技术并将其应用于实践,是保持竞争优势和实现持续增长的关键。

【平台使用】读取CSV文件因子至输入特征模块加工时报错

想读取CSV文件中的因子F1和F2,在特征模块进行加工成F1+F2并命名为F3,请问如何实现?

按照文档里的读取SCV文件试了下,结果出现报错。

https://bigquant.com/codesharev3/4833d08f-8823-4a0d-9823-524ca41830a6

更新时间:2025-04-15 07:51

71st Meetup

选取了IC较高的因子后,如何合成一个策略,一般步骤是什么

在因子开发研究完之后,选取了|IC|较高的几个因子后,一般如何合成一个策略,即在工程方法论上的一般步骤是什么?比如应该如何选择哪些模型进行合成(树模型or深度学习模型,是否有规律),分别是否都必须在训练前进行特征工程的处理再训练(去极值、中性化去除相关性),比如是否需要探查各个因子的相关性(如果多个因子存在一定的相关性,一般相关度大于多少需要进行处理,是否需要逐对特征两两取残差)

\

“水中行舟”研报如何用dai的SQL方式来实现?

方正的==“水中行舟”研报==中提到“取市场上所有股票在当日“不分化时刻”的成交额序列

更新时间:2025-04-15 07:19

如何利用滚动回测进行策略开发和因子挖掘?

问题

如何利用滚动回测进行策略开发和因子挖掘

视频

[https://www.bilibili.com/video/BV1Gr4y177FR?share_source=copy_web&vd_source=2e7dc1240ea373ea6eba1134af8dd086](https://www.bilibili.com/video/BV1Gr4y177FR?share_source=copy_web&vd_source=2

更新时间:2025-04-15 07:19

如何解读Transformer等深度学习中序列窗口滚动模块功能

问题

transformer等深度学习中序列窗口滚动模块具体的功能是什么,为什么要把数据做这个处理,能否用numpy的源码写一个函数?

视频

https://www.bilibili.com/video/BV1i44y1q7As?p=4&share_source=copy_web

策略源码

2021年7月8日Meetup策略模板:

[https://bigquant.com/experimentshare/6235b7c

更新时间:2025-04-15 07:19

因子构建

因子构建步骤:

  1. 理论推导:根据投资哲学和市场观察来定义因子。例如,价值、动量、质量等。
  2. 数据获取:获取原始数据
  3. 数据处理:对因子数据进行清洗、填充缺失值、处理极值等。
  4. 因子计算:根据公式计算因子值
  5. 单因子分析:进行分层回测、IC分析、回归分析
  6. 加权合成:使用多个因子,需要决定每个因子的权重,将多个因子按照权重合成一个综合因子。
  7. 因子回测:使用历史数据测试因子的有效性。
  8. 因子优化:根据回测结果对因子进行优化,比如:组合优化。

\

因子定义

金融学理论:

  • 投资理论
  • 行为金融学

基本面因子 —— QMJ因子

QMJ因

更新时间:2025-04-15 07:19

Pandas处理日K数据构建MACD季度因子

看视频

https://www.bilibili.com/video/BV1jh411u7zj/?vd_source=ecd29bbd04cbefdfa426167c55241973

策略源码

[https://bigquant.com/experimentshare/d4804cb7b37b40e191de5b196897c33b](https://bigquant.com/experiment

更新时间:2025-04-15 07:19

如何通过爬虫获取开盘啦app上面的数据?

问题

如何通过爬虫获取开盘啦app上面的数据?

视频

https://www.bilibili.com/video/BV13R4y1C7KQ/

\

策略源码

https://bigquant.com/experimentshare/cb90e8e440bc47b9bbc9cb897e452af8

\

更新时间:2025-04-15 07:19

【平台使用】因子分析和可视化策略的数据处理是否需要一致

因子分析和可视化是不一样,因子分析数据处理了,那么可视化模块是否需要加入这个功能?

更新时间:2025-04-08 09:59

【指标定制】有没有5分钟k线的分析代码示例?

我在使用贵平台编写股票交易策略代码时遇到了问题,希望能得到你们的帮助。

我编写的代码旨在实现一个股票交易策略,该策略包含底仓和浮动仓的管理,同时会根据股票的 1 分钟高频数据计算 5 分钟数据,并使用 MACD 指标进行日内交易决策。


代码中涉及 5 分钟数据的部分老是出错,具体体现在以下几个方面: 在从 1 分钟数据计算 5 分钟数据时,有时会出现数据缺失或计算结果不符合预期的情况。 在使用计算得到的 5 分钟数据进行 MACD 指标计算时,偶尔会出现 macd 或 signal 为空的情况,导致日内交易计算中断。

能不能提供一个在 BigQuant 平台上从 1 分钟数据正确计算

更新时间:2025-03-18 09:33

新版因子实现

导语

平台已经整理好新旧因子对比,可以在基础特征抽取里面直接抽取。

A股

量价因子

老版因子 新版因子 字段描述
adjust_factor_* 当期值: adjust_factor\n滞后值: m_lag(adjust_factor, i),i为滞后期数 第前 * 个交易日的复权因子 \n * 取值: 0 .. 20
amount_* 当期值: amount\n滞后值: m_lag(amount, i),i为滞后期数 第前 * 个交易日的交易额\n * 取值: 0 .. 120

更新时间:2025-03-04 02:20

202-本地文件上传

介绍

  • 本地上传csv文件并读取
  • 和其他数据联合使用

实现

dai处理文件

  • 生成一个csv文件作为测试,包括日期、股票代码、当日涨跌幅。
  • 使用dai直接操作csv,如果是本地csv文件则直接拖拽至资源管理器。

输入特征联合使用

  • 将操作后的csv输入:mafactor.csv中的factor_001因子。
  • 表达式特征中输入cn_stock_prefactors中的股息率排名作为sc

更新时间:2025-02-24 10:24

【平台使用】3.0平台的历史数据问题,运行代码就发现history只能看2个记录,不能看11个记录

https://bigquant.com/codesharev3/c75cc1ed-24f3-4f97-893d-f2fe55a98adb

\

更新时间:2025-02-16 05:03

【其他】请问DELAY 这个函数是什么意思

OPEN/DELAY(CLOSE,1)-1   这个函数中DELAY 是什么意思

\

更新时间:2025-02-16 03:34

【平台使用】可视化策略是不是无法使用申万一二三级指数层面的分析?

用可视化策略是不是只能分析股票的相关数据?比如我要分析行业,分析申万一级的电子行业的换手率历史数据是不是没有办法做到?如果可以的话麻烦说一下具体的方法!

更新时间:2025-02-16 03:03

【平台使用】读分钟数据很容易导致内存溢出

就读几天的分钟数据,我用8G的FAI或者用2C/8G AI Studio就把内存读爆了。是不是读数据有啥BUG?

代码如下:

import dai

dayStart = "2022-12-22" dayEnd = "2023-12-31" sql = f"""FROM cn_stock_bar1m WHERE date >= '{dayStart} 09:30:00' AND date <= '{dayEnd} 15:00:00'""" df = dai.query(sql).df()



\

更新时间:2025-02-16 02:23

【平台使用】高频因子抽取到日频报错

https://bigquant.com/wiki/doc/tezheng-ri-xIjPe1UFMu

这个例子程序也一直报错

更新时间:2025-02-16 02:19

【指标定制】.sql中的dai.DataSoure 怎样读取里面的内容

想用纯代码模式改写下SR DAI版本的模板,但是不知道这处传进去的数据应该是什么格式

更新时间:2025-02-16 01:55

【指标定制】如何调优,数据小于20万行,择时,StockRanker训练

更新时间:2025-02-16 01:49

【指标定制】请教个问题

如何构建跨周期数据项,并利用这些数据项构建因子?

平时处理的都是日线数据,但如果需要用日线和上月的月线数据进行一些计算形成一些因子,我应该如何构建?

更新时间:2025-02-16 01:46

【平台使用】构建行业中性化哑变量矩阵时,1月数据,跑10分钟都跑不出来原因是?

#提取一级行业,可以获得5000多只股票的行业列表。

sql ='''
select *
from cn_stock_industry_component
where date between '2023-0-01' and '2023-01-07'
'''
import dai
ww = dai.query(sql).df()
www_uni = ww.drop_duplicates(subset='instrument')

www_uni

#获取cn_stock_bar1d表数据

sql = '''
select *

更新时间:2025-02-16 01:46

【其他】这代码中的DELAY 的函数 是什么意思

OPEN/DELAY(CLOSE,1)-1 这代码中的DELAY 的函数 是什么意思

更新时间:2025-02-16 01:35

【其他】多元回归模型

请教一下,用1000多个股票一年的收益率数据和20个因子做多元回归模型,这里有多只股票和多个日期,应该要怎么处理呢?如何预测股票收益率?

更新时间:2025-02-16 01:31

【其他】为什么LightGBM不能输出特征重要性

后面会报错

https://bigquant.com/experimentshare/16f3f6c7fa904475ac8a131e2345ab0a

\

更新时间:2025-02-15 15:04

【代码报错】排序出错——csv

https://bigquant.com/experimentshare/d242d0c6c6a242c1ad2ad3cc11678891

\

更新时间:2025-02-15 14:41

【代码报错】新手编写代码回测遇到问题

{w:100} {w:100}

更新时间:2025-02-15 14:38

分页第1页第2页第3页第4页第5页
{link}