Temprano esta mañana, OpenAI lanzó oficialmente la interfaz entre ChαtGPTT y Whisper, y los desarrolladores ahora pueden usar las últimas funciones de generación de texto y de voz a texto a través de la API. Según OpenAI, a través de una serie de optimizaciones a nivel del sistema, el costo de ChαtGPT se ha reducido en un 90 % desde diciembre del año pasado; ahora OpenAI utiliza estos costos ahorrados para beneficiar a los desarrolladores. Los desarrolladores ahora pueden usar modelos grandes de Whisper v2 a través de la API, lo que resulta en una mayor velocidad y una mayor rentabilidad. El modelo ChαtGPT se actualizará y mejorará continuamente, y se proporcionará capacidad dedicada para un control más profundo del modelo.
Directorio de artículos
Interfaz ChatGPT
Modelo
El nombre del modelo ChαtGPT publicado por OpenAI es gpt-3.5-turbo
, que es el mismo modelo utilizado en el producto ChαtGPT. text-davinci-003
El precio es de $0.002/1000 tokens, que es 10 veces más barato que antes . gpt-3.5-turbo
Express experiencia en escenarios de chat, y muchas aplicaciones de escenarios que no son de chat también pueden funcionar bien, y los desarrolladores pueden text-davinci-003
cambiar de modelo a modelo con ajustes mínimos gpt-3.5-turbo
.
OpenAI continuará mejorando el modelo ChαtGPT, por lo que gpt-3.5-turbo
el modelo se actualizará continuamente (se actualizará a la última versión estable en abril), y OpenAI también recomienda que use gpt-3.5-turbo
el modelo. Para satisfacer las necesidades de los desarrolladores de versiones de modelos específicos, OpenAI también proporciona versiones instantáneas específicas. La versión instantánea específica actualmente disponible es gpt-3.5-turbo-0301
que no se actualizará durante los próximos tres meses y será válida hasta el 1 de junio de 2023.
nombre del modelo | describir | solicitud máxima | datos de entrenamiento |
---|---|---|---|
gpt-3.5-turbo | El modelo GPT-3.5 más potente y especialmente optimizado para escenarios de chat, a solo 1/10 text-davinci-003 del . Se actualizará iterativamente. |
4,096 fichas | A partir de junio de 2021 |
gpt-3.5-turbo-0301 | gpt-3.5-turbo La versión instantánea del 1 de marzo de 2023 de . Este modelo no se actualizará en los próximos 3 meses y el período de validez finalizará el 1 de junio de 2023. |
4,096 fichas | A partir de octubre de 2019 |
interfaz
Debido gpt-3.5-turbo
al diseño de la escena para chatear, se ha producido un pequeño cambio en el diseño de la interfaz. En la interfaz GPT-3, las preguntas se prompt
pasan a través de campos, gpt-3.5-turbo
no hay prompt
campos, sino messages
una matriz. El siguiente es un ejemplo típico de llamada de interfaz:
import openai
completion = openai.ChatCompletion.create(
model="gpt-3.5-turbo",
messages=[
{
"role": "system", "content": "你是一个聪明的助理"},
{
"role": "user", "content": "哪支球队赢得了2018世界杯?"},
{
"role": "assistant", "content": "法国国家男子足球队获得2018年俄罗斯世界杯。"},
{
"role": "user", "content": "决赛对手是谁?"}
]
)
print(completion)
En el código de muestra anterior, encapsulamos varias rondas de conversaciones en messages
una matriz, y cada mensaje tiene role
una suma content
. role
El valor opcional de system
, es el contenido user
del mensaje .assistant
content
Por lo general, el formato de la conversación es system
mensajes primero, seguidos de user
mensajes y assistant
mensajes alternos.
system
Los mensajes ayudan a establecer el comportamiento del modelo. En el ejemplo anterior, se le dice al modelo "usted es un asistente inteligente", el modelo desempeñará el papel de asistente y el resultado será tan conciso y claro como un asistente.
user
Los mensajes ayudan a guiar el modelo. Puede ser una pregunta del usuario (generalmente la última) o una configuración de directiva del desarrollador o un aviso contextual.
assistant
Los mensajes ayudan a almacenar contexto. Puede ser el resultado anterior del modelo o puede ser escrito por el desarrollador para dar un ejemplo del comportamiento deseado.
Dado que el modelo no tiene memoria de solicitudes anteriores, toda la información relevante debe proporcionarse a través del diálogo. Por lo tanto, incluir sesiones históricas puede ayudar al modelo a comprender mejor el problema. En el ejemplo anterior, si no hay user
mensaje intermedio y assistant
noticias, es difícil que el modelo dé una respuesta correcta si se le pregunta solo "¿Quién es el oponente en la final?"
gpt-3.5-turbo
El formato de los datos devueltos también ha cambiado ligeramente. La salida de la interfaz GPT-3 está encapsulada en text
campos, y gpt-3.5-turbo
la salida de la interfaz GPT-3 está encapsulada en message
campos, y también está compuesta por role
y content
. Simplemente podemos completion['choices'][0]['message']['content']
obtener la salida.
Mejores prácticas
Dado que gpt-3.5-turbo
el rendimiento es text-davinci-003
similar al del , pero el precio es text-davinci-003
1/10, se recomienda oficialmente para la mayoría de los casos de uso gpt-3.5-turbo
.
Para los desarrolladores, hay muy pocos lugares que deben cambiarse, solo es necesario prompt
cambiar messages
el formato.
"prompt": "哪支球队赢得了2018世界杯?"
Cambiar a:
messages: [
{
"role": "system", "content": "你是一个聪明的助理"},
{
"role": "user", "content": "哪支球队赢得了2018世界杯?"}
]
o más simplemente en su lugar:
messages: [
{
"role": "user", "content": "哪支球队赢得了2018世界杯?"}
]
⚠Nota: gpt-3.5-turbo y gpt-3.5-turbo-0301 no admiten ajustes finos.
Interfaz de susurro
Whisper es un modelo de voz a texto de código abierto de OpenAI en septiembre de 2022. Después de su lanzamiento, recibió grandes elogios de la comunidad de desarrolladores. Ahora podemos llamar al modelo Whisper v2 a través de la API a un precio de $0.006/minuto. Una pila de servicios altamente optimizada garantiza que Whisper tenga un rendimiento más rápido en comparación con otros servicios.
Whisper API proporciona interfacestranscribe
, admite múltiples formatos de audio (m4a, mp3, mp4, mpeg, mpga, wav, webm).translate
transcribir
import openai
audio_file= open("/path/to/file/audio.mp3", "rb")
transcript = openai.Audio.transcribe("whisper-1", audio_file)
traducir
import openai
audio_file= open("/path/to/file/audio.mp3", "rb")
transcript = openai.Audio.translate("whisper-1", audio_file)
Whisper actualmente admite afrikaans, árabe, armenio, azerbaiyano, bielorruso, bosnio, búlgaro, catalán, chino, croata, checo, danés, holandés, inglés, estonio, finlandés , francés, gallego, alemán, griego, hebreo, hindi, húngaro, islandés , indonesio, italiano, japonés, kannada, kazajo, coreano, letón lituano, macedonio, malayo, marathi, maorí, nepalí, noruego, persa, polaco, portugués, rumano, ruso, serbio, eslovaco, esloveno, español swahili, sueco, tagalo , tamil, tailandés, turco, ucraniano, urdu, vietnamita y galés.
¡Apoya a los chinos! ¡Apoya a los chinos! ¡Apoya a los chinos!