动态偏移序列加密：一次完整的黑箱破解实录

上一篇我讲了自己怎么丢脸的。这篇讲技术——这个加密到底是什么，我的35个脚本做了什么，以及为什么技术全对、语义全错是一件在数学上几乎不可避免的事。

第一章

加密算法：改进版凯撒密码到底改进了什么

普通凯撒密码的问题人尽皆知：所有字母用同一个偏移量，A+3=D，整篇文章的偏移量是固定的，频率分析一秒破解。

这个"动态偏移序列加密"的核心改进是三点：

改进点 1 — 每个单词独立选择偏移序列

不是整篇文章用一个偏移量，而是每个单词有自己的"偏移序列"——一个数字数组，比如 [6, 1, 23, 18, 12]。

改进点 2 — 序列循环应用于字母

对单词中每个字母，依次取序列中对应位置的值做位移。如果单词比序列长，序列从头循环。

以 Apple + 序列 [6, 1, 23, 18, 12] 为例：

A (+6) → g

p (+1) → q

p (+23) → m

l (+18) → d

e (+12) → q

结果是 gqmdq，末尾附加3字符序列代码，最终密文是 gqmdqbcq（bcq 是这组序列的标识符）。

改进点 3 — 代码自带解密钥匙

密文末尾的3字符代码不是装饰——它告诉解密方"用哪组序列"。解密时反向操作：取出代码，查映射表得到序列，逐字母反推原文。整个系统是自包含的，不需要额外传输密钥。

动态偏移序列加密算法流程图 — ↑ 动态偏移序列加密完整流程 — 从原文单词到密文输出，以 "Apple" 为例

第二章

第一阶段：识别结构（脚本01-03）

破解的第一步永远是：搞清楚你面对的是什么结构。

脚本01只做一件事——把已知的原文和密文逐词对齐，量差值：

# cipher_analysis_01.pydef analyze_cipher_structure(plaintext, ciphertext): plain_words = plaintext.split() cipher_words = ciphertext.split() for i, (p, c) in enumerate(zip(plain_words, cipher_words)): print(f"单词 {i}: '{p}' ({len(p)}字母) -> '{c}' ({len(c)}字符)") print(f" 差值: {len(c) - len(p)}") if len(c) == len(p) + 3: code = c[-3:] encrypted = c[:-3] print(f" 加密部分: '{encrypted}', 代码: '{code}'")

输出结果：

原文: apple tree is down 密文: uqowvnqi yytbrtq fijxq kuadzwn 差值: +3 +3 +3 +3

差值全是3，5组样本无一例外。密文 = 加密内容 + 3字符代码，结构确认。

脚本02趁热打铁，把偏移量算出来：

# cipher_analysis_02.pydef calculate_shifts(plaintext, encrypted): shifts = [] for p, e in zip(plaintext.lower(), encrypted.lower()): if p.isalpha() and e.isalpha(): shift = (ord(e) - ord(p)) % 26 # % 26 处理 z+1=a 的环绕 shifts.append(shift) return shifts

细节注意

% 26 处理的是字母表的"环绕"问题。z 偏移1步是 a 而不是越界，整数模运算保证偏移量永远在 0-25 范围内，加密解密都不会出错。

脚本03基于前两个脚本的发现，实现了完整的加解密类：

# cipher_analysis_03.pyclass DynamicCipher: def decrypt_word(self, cipher_word): code = cipher_word[-3:] encrypted = cipher_word[:-3] sequence = self.code_to_sequence[code] result = [] for i, char in enumerate(encrypted): if char.isalpha(): shift = sequence[i % len(sequence)] # 循环使用序列 base = ord('A') if char.isupper() else ord('a') new_char = chr((ord(char) - base - shift) % 26 + base) result.append(new_char) else: result.append(char) # 非字母原样保留 return ''.join(result)

i % len(sequence) 是循环使用的实现——单词有多长都不会越界，序列自动从头重复。验证测试全部通过。

阶段结果

三个脚本跑完，算法结构完全清楚了。我当时的感受是：这太好破了。 只要有映射表，任何密文都能秒解。接下来就是建映射表。

第三章

第二阶段：建立映射表（脚本04-06，Zen3文档）

客户扔来了一份AMD Zen3处理器的技术文档——数百个单词，关于7nm工艺、L3缓存、IPC提升之类的内容。对应的密文也一并给出：

原文: First of all, the new Zen 3 architecture... 密文: Aeutlhsf mplmi hrt,ndw mklccr wgsylx Gfiwas 3hyd...

脚本02的 build_mapping_table 全量处理了这份文档。文档里夹杂着大量数字和标点（7Nm、2.4倍、i9-10900k），处理规则是：

# 非字母字符不参与加密，原样保留for char in encrypted: if char.isalpha(): # 正常做位移 else: result.append(char) # 数字、标点直接输出

所以 7Nm 的加密部分只有 Nm 两个字母，7 原样穿透。脚本04-06做了一致性验证和Base26分析，全部通过。

阶段结果

45个代码-序列映射，全部一致，无异常。 我感觉自己已经掌握了整个加密系统。映射表在手，剩下的只是查表。

然后客户扔出了真正的目标密文：

Phnbz21ceq Lqytgcsg ofgx fjgjwr ybirblqsf Qfipcpwiws661jnl 305wcogf Wdiiiebizv 21vcjpm Vdrsvefb hzegaiuv Obptrq gyqxuymlo wvcmydiu Zpqwikxhhfg

脚本05立刻提取末尾代码，逐一对照映射表查询：

ceq → 不在表里csg → 不在表里fgx → 不在表里jwr → 不在表里...（共15次，全部不在表里）

致命打击

15个单词，查了15次，全部不在表里。 45个代码，一个都没用上。建了半天的映射表，在这一刻归零。

这里值得停下来算一下"映射表隔离"到底有多硬。

代码空间：26³ = 17,576 种可能代码每组序列排列数：P(25, 5) = 25 × 24 × 23 × 22 × 21 = 6,375,600

生成器源码还额外保证跨全部键唯一——17576个代码的序列互不相同，用FNV-1a哈希 + splitmix32伪随机 + Fisher-Yates洗牌保证确定性和唯一性。即便你知道算法，也无从预测某个代码对应的序列，必须拿到那次生成的完整映射表才行。

我从Zen3文档里提取到了45个代码，覆盖率是：

45 / 17,576 ≈ 0.26%

关于网页演示版

本文测试用的网页展示版使用的是固定映射表（cipher.js），这是为了开源演示——映射表完全没有混淆，打开就能看到：

const offsetCodes = { "aaa": [10, 21, 19, 23, 9], "aab": [24, 4, 5, 1, 2], "aac": [13, 19, 8, 7, 16], "aad": [20, 7, 9, 24, 11], "aae": [20, 8, 9, 25, 24], // ... 以下 17,571 行}

工具页面也注明了：如果要真正用于文本加密，需要重新生成偏移序列并对 JavaScript 做混淆处理。真正的部署场景里，cipher.js 应该是私有的、随用随换的——加密方持有映射表文件，解密方同样需要这份文件才能解密。没有这个文件，密文就是一串无意义的乱码，和我面对的处境一样。

我建的那45个映射，只对Zen3文档那一次加密有效。对目标密文——废纸。

映射表覆盖率可视化 — ↑ 左：17,576个可能代码中只有45个已知（红点）；右：已知序列数量 vs 总排列空间

第四章

第三阶段：破解尝试（脚本07-11）

映射表失效之后，剩下的路只有一条：在没有密钥的情况下，靠推断猜出原文。

脚本07先做了能做的事——长度模式匹配：

# cracking_attempt_07.pydef pattern_match_attack(cipher_text, known_patterns): cipher_words = cipher_text.split() for word in cipher_words: length = len(word) for pattern in known_patterns: if len(pattern) == length - 3: # 加密部分长度匹配 matched_patterns.append((word, pattern))

提取出15个单词的字母长度（去掉数字和末尾代码后）：

7, 5, 1, 3, 6, 13, 5, 7, 4, 5, 5, 3, 6, 5, 8

这一步是真实有效的——任何候选原文必须长度精确吻合。但长度只是必要条件，不是充分条件。

脚本08对短单词做了暴力穷举，脚本09是整个破解过程里最关键的一个——也是后来最大的坑：

# cracking_attempt_09.py ← 这行代码是整个失败的起点def infer_by_context(position, total_words, context_type="military"): if context_type == "military": if position == 0: return ["start", "begin", "execute"] elif position == total_words - 1: return ["complete", "finish", "confirm"] else: return ["covert", "secure", "mission"]

客户的提示是"行动秘密通知"，于是 context_type 被设为 "military"，候选词库从此只包含军事术语。这个逻辑看起来完全合理。问题是正确答案里用的是 Agent（身份标识）、Greenfield（地名代号）、Downtown（地点）、rifle（装备名词）——这些词都不在军事动词词库里，但每一个都完全符合"行动通知"的语境。词库选错了，但没有任何办法知道它选错了。

最后脚本11做验证：

# cracking_attempt_11.pydef final_decrypt_verification(cipher_text, proposed_plaintext, mapping): for c, p in zip(cipher_words, plain_words): decrypted = decrypt_with_new_mapping(c, mapping) # mapping 是空的 if decrypted == p: verification_results.append((c, p, "✓")) else: verification_results.append((c, p, "✗"))

根本性问题

验证函数需要映射表才能真正解密验证，但映射表是空的。所以它实际上什么都没有验证——只是在检查"推断的词长度是否匹配"，而长度匹配早在脚本07就已经保证了。

我用一把不存在的尺子量了一遍，确认"量对了"，然后提交了答案。

15个单词，14个错误。唯一对的是 a。

第五章

失败的数学本质

把错误答案和正确答案并排放：

#	我的答案	正确答案	字母数
0	start21	Agent21	7 ✓
1	hours	Start	5 ✓
2	a	a	1 ✓✓
3	the	new	3 ✓
4	covert	action	6 ✓
5	infiltrate661	Greenfield661	13 ✓
6	at305	305pm	5 ✓
7	execute	January	7 ✓
8	pm21	21st	4 ✓
9	enter	Bring	5 ✓
10	group	rifle	5 ✓
11	now	Two	3 ✓
12	repeat	agents	6 ✓
13	again	group	5 ✓
14	complete	Downtown	8 ✓

长度全部正确。语义全部错误（除了"a"）。

这不是运气差，是信息论层面的必然。在黑箱条件下，破解者能确定的只有：密文结构 ✓、每个单词的字母长度 ✓、数字是原文的一部分 ✓、大致语境 ✓。

但无法确定的是：同等长度的单词有多少个？

7字母的英文单词包括：Agent21, Start21, begins, execute, mission, special, command...

每个位置候选词数量约 10–100 个 15个位置，哪怕每个位置只有10个候选： 10¹⁵ = 1,000,000,000,000,000

语境提示"行动秘密通知"把搜索范围缩小到了军事术语子集——但正确答案里用的 Agent、Greenfield、Downtown、rifle 在军事语境下都合理，但也都可以被更"军事化"的词替换。

提示缩小了搜索空间，但没有缩小到唯一解。 更致命的是：提示把搜索空间缩小到了错误的子集。正确答案的句子结构是"身份+动词+名词+地名+时间+装备+规模+地点"——更接近一份简报，而不是一串指令。

第六章

设计者的三层防御

数学解释了失败的规模，但没解释失败的方向——为什么是错在这里而不是别处，要从设计意图上找答案。

映射表隔离

目标密文使用全新的代码库，令已建立的45个映射完全失效。这是最直接的防御，让"查表破解"的路径在第一步就断掉。

语义歧义设计

选用长度相同但语义差距极大的词对：Agent21 / Start21、Greenfield661 / infiltrate661。字母数完全一致，但一个是身份标识，一个是动作指令，破解者无法通过长度区分。

语境陷阱（最精妙）

提供"行动秘密通知"的提示，但正确答案使用日常用语而非专业术语。提示看起来在帮助破解，实际上把破解者引进了错误的词汇子集，让模型越"努力推断"越偏离正确答案。

三层叠加的效果：技术层面无懈可击，语义层面无从下手。

第七章

结论

对话轮次	20轮
Python脚本	35个
代码行数	~2000行
算法识别	100%
映射表构建	100%（但对目标无效）
长度匹配	100%
词汇准确率	6.7%（仅"a"）
语义准确率	0%

技术工作全部成功，唯一失败的环节是：在没有映射表的情况下，从密文反推原文的语义。

这不是Kimi Flash的特定缺陷，而是这个加密方案针对"AI推断攻击"设计的固有防御。短消息+新映射表+语义歧义+语境误导，四个条件同时满足时，任何基于推断的破解方法在信息论层面都无法得出唯一正确答案。

想亲自测试这个加密器的，可以看文章开头的链接。

Kisara

Nice to meet you, too!

AI 密码学 Python 动态偏移加密 凯撒密码 黑箱破解 信息论 技术分析 Kimi 脚本实录 凯撒密码变种 负结果研究 AI安全

动态偏移序列加密：一次完整的黑箱破解实录

Aq66 发表于2026-02-26 10:45:08 浏览31 评论0

加密算法：改进版凯撒密码到底改进了什么

第一阶段：识别结构（脚本01-03）

第二阶段：建立映射表（脚本04-06，Zen3文档）

第三阶段：破解尝试（脚本07-11）

失败的数学本质

设计者的三层防御

结论

💬 Kisa Family 讨论组

少长咸集

群贤毕至

« 2026年2月 »
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Nice to meet you, too!

AI 密码学 Python 动态偏移加密 凯撒密码 黑箱破解 信息论 技术分析 Kimi 脚本实录 凯撒密码变种 负结果研究 AI安全

动态偏移序列加密：一次完整的黑箱破解实录

Aq66 发表于2026-02-26 10:45:08 浏览31 评论0

加密算法：改进版凯撒密码到底改进了什么

第一阶段：识别结构（脚本01-03）

第二阶段：建立映射表（脚本04-06，Zen3文档）

第三阶段：破解尝试（脚本07-11）

失败的数学本质

设计者的三层防御

结论

💬 Kisa Family 讨论组

少长咸集

群贤毕至

AI 密码学 Python 动态偏移加密凯撒密码黑箱破解信息论技术分析 Kimi 脚本实录凯撒密码变种负结果研究 AI安全