bps3d
Scene -> VulkanScene + camera = VulkanEnvironment Scene 核心:读文件的时候只保留offset信息等,传递一个文件流ifstream给Scene.data, 相当于把Scene作为实际文件的轻量化视图,实际需要数据的时候再直接按照offset从文件流中读取. struct Environm…
RLHF and PPO
给定同一个输入,模型生成的多个候选回答中,人类会对这些回答进行排序。RM 需要学会预测这个排序。 1. 数据格式 假设对于同一个 prompt,我们有两段候选回答: chosen (c) → 人类更喜欢的回答 rejected (r) → 人类不喜欢的回答 Reward Model 会给它们各自输出一个分数: [R_\theta(x, y_c), …
CUDA学习笔记
一. 安装 wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin sudo mv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pi…