网站:https://modelcontextprotocol.io/introduction
smithery.ai
文章作者: apostle
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 apostle的数字花园!
相关推荐

2024-12-25
Qwen2-VL的评测与学习
1. 背景2024年是大模型的元年,每天都有大模型产生,怎么评价一个大模型的好坏需要设定一个标准。通过自己摸索的标准其实还是野路子。因此参考学习github上多模态大模型Qwen2-VL的评测,主要学习有2个方面,第一是学习多模态大模型参加了哪些评测,每个数据集分别是干嘛的。第二就是我们相关性的数据集的格式是什么样子的,怎么评测,从而建立自己的测试集。Qwen2-VL的github链接:https://github.com/QwenLM/Qwen2-VL,最新的介绍如下: SoTA对各种分辨率和比例的图像的理解:Qwen2-VL在视觉理解基准上达到了最先进的性能,包括MathVista、DocVQA、RealWorldQA、MTVQA等。 理解 20min+ 视频:Qwen2-VL 具备在线推流功能,通过高质量的视频问答、对话、内容创作等方式,可以理解 20 分钟以上的视频。 可以操作您的手机、机器人等的代理:Qwen2-VL 具有复杂的推理和决策能力,可以与手机、机器人等设备集成,根据视觉环境和文本指令进行自动操作。 多语言支持:为了服务全球用户,除了英文和中文外,Qwen2-VL 现在还支持理解图像中不同语言的文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。 2. 测试数据集2.1 图像基准测试Image Benchmarks Benchmark Previous SoTA (Open-source LVLM) Claude-3.5 Sonnet GPT-4o Qwen2-VL-72B (🤗 🤖 Qwen2-VL-7B (🤗 🤖) Qwen2-VL-2B ...

2024-11-25
SAMURAI增强版分割模型
1. 背景最近在11月18日看到arxiv上发表了SAMURAI,是华盛顿大学做的一个针对万物切割SAM(segment anything model)的开源项目,目的是为了解决传统目标跟踪算法在复杂场景比如快速移动、移动遮挡等环境中遇到的跟踪丢失、目标不全等问题。其实在去年华盛顿大学已经开源过一个版本SAM,不过相比于SAM,SAMURAI具备更好的性能,在物体部分遮挡的时候依旧有很好的性能。关于官网的产品介绍如下: 123网站:https://yangchris11.github.io/samurai论文:https://arxiv.org/abs/2411.11922github:https://github.com/yangchris11/samurai 视频案例如下: 您的浏览器不支持视频播放。 1917 (2019), directed by Sam Mendes. 您的浏览器不支持视频播放。 1917 (2019), directed by Sam Mendes. 可以看到官网的案例,整体视频追踪的效果看起来还是不错的,我们整体安装试试。 # 2. 安装 首先查看自己的python、torch和torchvision的版本,要求:`python>=3.10`, `torch>=2.3.1` ,`torchvision>=0.18.1`,可以用如下脚本进行检查: 123456789import sys import torch import torchvision # 检查 Python 版本 print("Python version:", sys.version) # 检查 PyTorch 版本 print("PyTorch version:", torch.__version__) # 检查 torchvision 版本 ...

2024-11-19
【1】COGVIDEO生成视频
1. 背景cogvideoX是清华和清影同源的开源视频生成大模型,详情可以查看:CogvideoX其中模型差异如下: ![[09 大模型专区/ob_photo/Pasted image 20241102155335.png]] 2. 搭建2.1 搭建comfy-ui下载和使用comfy-ui,配置可以查看:FLUX安装与使用 2.2 下载ComfyUI-CogVideoXWrapper进入comfyUI,下载CogVideoXWrapper,这是一个cogvideo的中转器 123cd ComfyUI/custom_nodesgit clone https://github.com/kijai/ComfyUI-CogVideoXWrapper.gitgit clone https://github.com/MinusZoneAI/ComfyUI-CogVideoX-MZ 2.3 启动comfyui启动即可,–listen是监听IP,一般是你自己服务器的IP,如果没有设置listen,则是默认的locatehost 1python3 main.py --listen 10.229.41.60 然后访问对应的8188端口即可。 1http://10.229.41.60:8188 ⚠️ 注意: ==操作前请备份重要文件。注意直接启动可能会报错,因为他运行会安装Python的依赖,其实就是需要安装ComfyUI-CogVideoXWrapper的依赖,这个使用需要仔细看原因,或者手动安装依赖.== ==一定要安装python 3.12以上的版本,不然会跑不起来==1234567# 安装ComfyUI-CogVideoXWrapper的依赖cd custom_nodes/ComfyUI-CogVideoXWrapperpip install -r requirements.txt# 安装comfyui的依赖cd ComfyUIpip install -r...

2025-02-19
github大模型软件评测
1. 背景互联网上有许多开源的大模型软件,每种软件都有其独特的功能和优缺点。我曾试用过许多大模型软件,但最终效果和具体内容都未能完全记住。因此,本文将主要记录我所了解和使用过的大模型软件。此外,文中还包含一些我需要阅读的相关论文,作为我的待办事项。 待办功能 VAD:音频检测 ASR:发展历史 3D speaker:声纹识别 大模型软件待使用 Dify:agent框架 AnythingLLM:RAG框架 Open-WebUI:聊天对话 geekanMetaGPT(GPT提示词) ragflow MCP实操 minimind:超小型大模型训练,学习大模型框架 GPT_Academic:论文阅读 llm-course:大模型学习框架 chatbox:和open-webui类似的对话大模型 Multi Agent具备规划、记忆、多Agent协调处理、编代码执行和汇总 OpenManus:不太好用 Owl:也不太好用 open interpreter:不太好用 Agent开发框架 MetaGPT: AutoGPT AgentGPT LangChain 浏览器操作智能体 browser use computer use 自动编写代码 OpenHands:自动写代码,学习对应的AGENT框架 开源多模态大模型测试 agentic-od:吴恩达多模态模型 VLM-R1:基于dp-R1的多模态模型 PaliGemma 2 mix:谷歌开源的多模态模型 大模型论文待看 MCP(model context protocol) deepseep -R1论文 agentic-od 2. 软件列表2.1 【AGENT】Dify GitHub地址:https://github.com/langgeni 搭建使用:http://dify.apostle9891.cn ...

2024-11-17
【1】FLUX安装与使用
1.背景最近,由前Stability AI员工创立的黑森林实验室推出了开源图像生成模型Flux.1,受到了广泛关注,迅速在网络上走红。Flux.1是一款免费开源的模型,其性能可与Midjourney V6相媲美。用户可以通过Comfyui来调用Flux.1。本文将主要介绍如何安装和调试Flux模型。详情可见网站页面:https://blackforestlabs.ai/试用网页:http://hugginface.co/black-forest-labsFlux 模型总共有3个,分别是:Flux Pro、Flux Dev、Flux Schnell,下面是其性能的对照图 [pro] 是最顶级的模型,但是只能通过 API 调用; [dev] 是由[pro]提炼,开源但非商用,质量和效果与[pro]类似; [schnell] 是经过蒸馏的 4 步模型,速度比 [dev] 快 10 倍,Apache 2 开源许可。 2. 安装目前 ComfyUI 已支持此模型,更新到最新版即可使用。 2.1 下载最新版 ComfyUI1git clone https://github.com/comfyanonymous/ComfyUI.git 2.2 设置中文语言和插件库123456# 下载到custom_nodescd ComfyUI/custom_nodes# 安装中文语言git clone https://github.com/AIGODLIKE/AIGODLIKE-ComfyUI-Translation.git# 安装插件库git clone https://github.com/ltdrdata/ComfyUI-Manager.git 2.3 下载flux模型FLUX 模型有四个可选,FLUX.1 [dev] 、FLUX.1 [dev] fp8、FLUX.1 [schnell]、FLUX.1 [schnell] fp8⚠️...

2024-11-28
【2】FLUX的4个控制工具
1. 背景在2024年的12月21日,Flux重磅发布了Flux.1的工具,这四套模型旨在为基本文本到图像模型FLUX.1 添加控制和可控性,从而能够修改和重新创建真实和生成的图像。在发布时,Flux.1工具包含了四个不同的功能。 FLUX.1 fill重绘模型: 最先进的修复和图像处理模型,在给定文本描述和二进制掩码的情况下,支持编辑和扩展真实和生成的图像。 FLUX.1 depth深度控制模型: 经过训练的模型,可根据从输入图像和文本提示中提取的深度图来启用结构引导。 FLUX.1 canny线稿控制模型: 经过训练的模型,可以根据从输入图像和文本提示中提取的边缘信息来启用结构引导。 FLUX.1 redux风格迁移模型: 允许混合和重新创建输入图像和文本提示的适配器。1网址:https://blackforestlabs.ai/flux-1-tools/ 1.1 FLUX.1 fill重绘模型最先进的修复和图像处理模型,在给定文本描述和二进制掩码的情况下,支持编辑和扩展真实和生成的图像。比如可以支持掩码修复。支持图像扩展: 1.2 FLUX.1 depth 和canny模型经过训练的模型,可以根据从输入图像和文本提示中提取的边缘信息和深度信息结构,重新绘制。 1.4 FLUX.1 redux模型适配器可以允许输入图像和文本重新进行绘制,给定一个输入图像,FLUX.1 Redux 可以再现图像,但有轻微的变化,从而允许优化给定的图像。 2. 实际安装进入官网的comfyui链接网址:https://comfyanonymous.github.io/ComfyUI_examples/flux下载fill model: 12345cd ComfyUI/models/diffusion_models# huggingfacewget https://huggingface.co/black-forest-labs/FLUX.1-Fill-dev/resolve/main/flux1-fill-dev.safetensors?download=true#...
评论




